Wyszukiwanie informacji w Internecie Najczęściej wymienianą usługą internetową, z której korzysta większość internautów jest zwykle WWW czyli World Wide Web, stworzone przez Timothy Bernersa-Lee w 1990 roku na potrzeby badaczy CERN. Dzięki niemu, użytkownikami Internetu są dziś nie tylko naukowcy i studenci, jak było w pierwszym okresie działalności ARPANETu, ale także zwykli ludzie, i dlatego tworzeniem stron internetowych zainteresował się biznes i administracja. W Internecie jest wiele cennych i potrzebnych informacji, ale z powodu ogromnej liczby stron WWW nie sposób jest znaleźć czegokolwiek bez użycia wyszukiwarki lub katalogu. Pojawiło się zatem zapotrzebowanie na wymienione narzędzia oraz na budowanie strategii pozycjonowania stron, szczególnie komercyjnych, czyli zapewnienia wysokiej pozycji w wynikach wyszukiwarek i katalogów. Ostatnio jednak nawet używanie takich narzędzi nie przyspiesza procesu efektywnego wyszukiwania w tak istotny sposób jak kiedyś. Dzieje się to z powodu istnienia oprócz wartościowych, także niezbyt polecanych stron, stworzonych np. przez lub dla zwolenników zabronionych poglądów jak faszyzm, wyznawców sekt, czy aprobujących groźne dla zdrowia choroby jak anoreksja, a także z powodu istnienia stron tworzonych nie dla ludzi, a dla robotów wyszukiwarek internetowych (czyli tworzonych tylko i wyłącznie w celu promocji innej strony w wyszukiwarce). Według badań Bluerank w 2008 roku aż 30% respondentów nie było w pełni usatysfakcjonowanych wynikami wyszukiwania najpopularniejszej wyszukiwarki Google. Coraz częściej zatem to nie tylko chęć zaoszczędzenia czasu skłania nas do użycia Google lub innego serwisu, ale w ogóle konieczność szukania informacji np. o produktach i usługach. Wtedy ważna jest także możliwość zobaczenia w wyszukiwarce zdjęć produktów, czy budynku firmy, możliwość znalezienia drogi dojazdu itp. Użytkownicy musza się jednak liczyć z tym, że prawdopodobnie spędzą na wyszukiwaniu trochę czasu - bo nie wszystkie pokazane w wynikach odnośniki poprowadzą na stronę, która w wyczerpujący sposób spełni ich oczekiwania, czyli znajdą na niej odpowiedź na swoje zapytanie. Z tego powodu w wielu biznesowych przedsięwzięciach zatrudniani są profesjonalni brokerzy informacji czyli infobrokerzy, którzy na zlecenie wyszukują potrzebnych danych. Powstała także koncepcja budowania inteligentnych agentów do wyszukiwania informacji w Internecie, a twórca WWW Tim Berners Lee zaproponował przebudowę istniejącego chaosu informacyjnego w sieć semantyczną nazywaną też Web 3.0. Wyszukiwanie przed epoką Web 3.0 Przyjmuje się, że obecnie Internet składa się z milionów komputerów (według CIA World Factbook 2009 było ok. 575 mln). Trudno jest ustalić ile jest w sieci witryn, portali i stron – bowiem codziennie powstaje i znika ogromna ich liczba, a nie wszystkie są zaindeksowane przez wyszukiwarki. Łatwiej określić jest katalogowaną przez ICANN liczbę domen i serwerów, ale i ich liczba może dość szybko ulegać zmianie. Według badań NEC Research Institute w 1999 roku istniało 800 milionów stron WWW. W 2002 roku wyszukiwarka Google przechowywała w swoich bazach danych ponad 2 miliardy odnośników, a w 2005 roku było ich już 8 miliardów. Według Antonio Gulli i Allesio Signorini w 2005 roku wyszukiwarki indeksowały ponad 11,5 mld stron, z czego około 9,36 mld przypadało na największe wtedy Google, Yahoo, MSN i Ask. Oprócz wyszukiwarek w Internecie działają inne serwisy ułatwiające poszukiwanie informacji. Stosowane były i są nadal także katalogi stron internetowych i metawyszukiwarki (multiwyszukiwarki). Katalogi stron internetowych Katalogi stron internetowych to serwisy moderowane ręcznie, których celem jest grupowanie tematyczne zbioru adresów internetowych. Autorzy lub właściciele stron zgłaszają swoje strony do katalogów, zazwyczaj z krótkim opisem, po czym, zwykle po przejrzeniu, strona zostaje wpisana na listę pod danym hasłem. Katalog stron jest strukturą drzewiastą: witryny przypisane są, ze względu na swoją zawartość do poszczególnych kategorii, które dzielą się na kategorie podrzędne. Najpopularniejszy to Yahoo, a w Polsce katalogi portali Wirtualna Polska i Onet. Najbardziej istotnym jest katalog Open Directory Project DMOZ http://www.dmoz.org, utworzony w 1998 roku jako directory.mozilla.org, moderowany obecnie przez 75 tysięcy redaktorów. Dostęp do katalogu oraz zgłoszenia stron są w nim bezpłatne, ale z powodu wysokich wymagań jedynie naprawdę wartościowe strony mają szansę zaistnieć w DMOZ. W 1992 roku z inicjatywy Rafała Maszkowskiego powstał pierwszy katalog stron znajdujących się w polskim internecie, późniejsze "Polskie Zasoby Sieciowe". Dane przedstawione były wówczas w postaci czystego ASCII. Rok później w związku z rozprzestrzenieniem się standardu HTML katalog obsługiwał już linki hipertekstowe. "Polskie Zasoby Sieciowe" zakończyły swoją działalność w roku 1997. Wadą katalogów jest mała liczba zawartych w nich stron w porównaniu z innymi narzędziami oraz długi czas aktualizacji. Powodem są ograniczone ludzkie możliwości. Strony internetowe powstają, znikają i zmieniają się, a weryfikacja ich zawartości czy obecności wymaga ponownego odwiedzenia ich przez redaktora. Kolejną wadą jest różna interpretacja kategorii: tę samą stronę dwie osoby mogą umieścić w różnych kategoriach, co może prowadzić do nieporozumień. Na przykład strona poświęcona grze w szachy może zostać umieszczona przez redaktora katalogu w kategorii sport, natomiast szukający tej strony będzie poszukiwał informacji na ten temat w kategorii gry. Wyszukiwarki Pierwszą funkcjonalną wyszukiwarką zawartości stron internetowych, posiadającą zaimplementowane funkcjonalności robota śledzącego (nazwanego tu World Wide Web Wanderer - 4W) i indeksującego strony oraz wyposażonego w zdolność przeszukiwania utworzonych indeksów, był uruchomiony w 1993 roku Wandex. Napisał go Matthew Gray, wówczas pracownik MIT, obecnie Google. Wyszukiwarki to aplikacje tworzące automatycznie bazy danych o witrynach, w ich skład wchodzą programy nazywane m.in. crawlerami, robotami, pająkami lub botami czyli roboty internetowe pobierające i przeglądające dokumenty z sieci. Inny moduł wyszukiwarki odczytuje zapytanie użytkownika i zwykle przeszukuje swoje bazy nazwane indeksami, które co jakiś czas są aktualizowane - po kolejnej turze pracy robotów. Roboty standardowych wyszukiwarek odwiedzają tylko te strony, do których prowadzą odnośniki z innych witryn oraz te, które zostały zgłoszone do nich przez swoich autorów lub właścicieli. Najważniejszymi algorytmami stosowanymi w wyszukiwarkach są algorytmy oceny relewancji dokumentu względem szukanej frazy oraz algorytmy oceny zawartości strony. Często są strategiczną tajemnicą właściciela wyszukiwarki, przesądzającą o jej skuteczności. Wiadomo o stosowaniu algorytmów: binarnych, ważenia częstością słów TF, PageRank, In-degree, metody Robertsona i Sparcka-Jonesa (1997), metody Robertsona (1994), modelu Markova, metody bazowej B, liczba wizyt (klikohit) i wielu innych. Poprawę relewancji wyników wyszukiwania można uzyskać poprzez grupowanie (clustering), personalizację, weryfikacja pisowni, tzw. stop-words – czyli stop listy oraz tezaurus, czyli podpowiedzi. Google to najpopularniejsza wyszukiwarka na świecie. Została stworzona przez Larry’ego Page'a oraz Sergeya Brina w 1996 roku, w ramach ich projektu studenckiego na Uniwersytecie Stanford. W 1998 roku założyli firmę Google Inc. Słowo "googol" to liczba 10100. Pierwszy użył tego terminu amerykański matematyk, Edward Kasner, zainspirowany dźwiękami wydawanymi przez jego bratanka Miltona Sirotta. Wyszukiwarka Google jako pierwsza wprowadziła możliwość przeszukiwania nie tylko stron HTML, ale także dokumentów zapisanych w formacie PDF, a później DOC, arkuszy Excel, prezentacji PowerPoint, plików RTF i postscriptowych (.PS). Można również przeszukiwać grafiki (JPG, GIF), filmy, grupy dyskusyjne oraz katalogi. Graficzne wybrane źródła pokazywane są obecnie od razu razem z wynikami SERP (search engine results page - strona z wynikami wyszukiwania). Wraz z rozwojem firmy, Google zaczęło poszerzać listę swoich usług, dołączyło pocztę elektroniczną, albumy zdjęć, aplikacje biurowe, Google Analytics i wiele innych. Jedną z ostatnich nowości jest Google Instant, czyli domyślanie się o co chce zapytać użytkownik – poprzez pokazywanie listy propozycji ciągu dalszego wpisywane zapytania. Dziś Google to finansowy gigant. W 2005 roku przychody firmy sięgnęły 6,1 mld USD, a zysk wyniósł 2 mld. Google odnotował w pierwszym kwartale 2006 roku 79% wzrost przychodów w porównaniu z pierwszym kwartałem 2005 roku. Po latach kryzysu, w pierwszym kwartale 2010 roku przychody firmy wzrosły o 37% i wyniosły 1,96 miliarda dolarów. Polska strona http://www.ranking.pl/ ocenia popularność m.in. wyszukiwarek. Ranking obliczany jest na podstawie procentowej liczby wizyt na polskich witrynach dokonanych z wyszukiwarek uczestniczących w badaniu GemiusTraffic. lp Wyszukiwarki29.XI.2010 - 22.XI.2010 - 15.XI.2010 silniki 5.XII.2010 28.XI.2010 21.XI.2010 1 Google 97,20% 97,57% 97,74% 2 NetSprint 1,39% 1,14% 1,17% 3 MSN 0,72% 0,72% 0,72% W 2006 roku w podobnym okresie pierwsze było Google, Morfeo i NetSprint, MSN, Szukacz, Yahoo i Altavista. Jak widać konkurencyjne wyszukiwarki nie zagrażają pozycji Google, co zauważa się nie tylko w Polsce. Nie mniej ciągle na rynku powstają nowe, jedną z nich była europejska inicjatywa ograniczenia dominacji USA w Internecie Quaero (łac. szukam) czyli projekt europejskiej wyszukiwarki internetowej prowadzony przez firmy Thomson, France Telecom, Siemens AG, Thales, Bertin Technologies, Exalead, Jouve, LTU, Vecsys, Empolis, a wspomagany przez instytuty naukowe Inria, Inra, CNRS, Clips Imag, RWTH Aachen, Uniwersytet Karlsruhe. Mimo wciąż dołączanych funkcjonalności, zapytania do baz są nadal poza zasięgiem wyszukiwarek. Google i każda inna wyszukiwarka znajdzie tylko stronę główną np. z rozkładem jazdy, ale nie da sobie rady z wypełnieniem formularza i zadaniem pytania o konkretne połączenie. To zadanie mogą wykonać przyszłe wyszukiwarki semantyczne lub agenty. Metawyszukiwarki i metabazy Metawyszukiwarki (Meta-Search Engines) to serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać zadane zapytanie do kilku lub kilkunastu samodzielnych wyszukiwarek, odebrać od nich wyniki i przedstawić je w przejrzystej formie. Wadą metawyszukiwarek jest brak dostępu do specyficznych zapytań złożonych jakie dają zwykłe wyszukiwarki. Zaletą zaś jest to, że można zadać jedno pytanie do kilku serwisów przy odwiedzeniu tylko jednego. Zaoszczędza to czas i daje możliwość przeszukania większej części zasobów Internetu. Niektóre metawyszukiwarki opracowują otrzymaną listę wyników: usuwają powtarzające się adresy i te, które już nie istnieją, a są jeszcze zapisane w bazie wyszukiwarek. Dodatkowo mogą sortować na różne sposoby wyświetloną listę. Przykładami matawyszukiwarek są: Ixquick http://www.ixquick.com (w wielu wersjach językowych również w polskiej), Metacrawler http://www.metacrawler.com , Yippy http://www.yippy.com (dawniej Clusty), Dogpile http://www.dogpile.com, Pandia Metasearch http://www.pandia.com/metasearch/index.html, Copernic http://find.copernic.com. Niektóre ujawniają z jakich zwykłych wyszukiwarek korzystają w pierwszej kolejności, np. Pandia z Yahoo!, MSN, AlltheWeb, Ask.com, Wisenut, Dogpile wyszukuje z Google, Yahoo, Bing i Ask, a Yippy z Ask, Open Directory (DMOZ), Gigablast i innych. W dotarciu do mało znanych lub głębiej schowanych zasobów sieci pomagają specjalistyczne serwisy jak metabazy czyli zbiory wydobytych z sieci baz danych dotyczących różnych obszarów wiedzy, albo też serwisy przeszukujące określony obszar sieci, koncentrujące się na jednej tylko dziedzinie. Complet Planet http://www.completeplanet.com to metabaza, która daje dostęp do 70 tysięcy baz danych i serwisów wyszukiwawczych. Można do nich dotrzeć poprzez katalog tematyczny albo na skróty - po słowie kluczowym. Inny serwis to Infomine http://infomine.ucr.edu adresowany do środowiska akademickiego, powstał z inicjatywy pracowników kilku amerykańskich uczelni i bibliotek uniwersyteckich (m.in. University of California i University of Detroit). Gromadzi w swoim katalogu wartościowe materiały przydatne naukowcom i studentom. Są to bazy danych, elektroniczne biuletyny, książki, artykuły, archiwa list elektronicznych, dotyczące poszczególnych nauk, np. medycyny, nauk humanistycznych, matematycznych itp. Bubl Link http://bubl.ac.uk/ to z kolei brytyjski katalog rzeczowy, indeksujący zasoby o charakterze akademickim, jak książki i czasopisma elektroniczne, repozytoria tematyczne, katalogi biblioteczne online. Można tu wyszukiwać według tematu bądź rodzaju źródła. Invisible Web Duża część materiałów znajdujących się w Internecie była kiedyś niedostępna bo "niewidzialna" dla wyszukiwarek z powodu np. formatu pliku. Pierwotnie nawet Google wyszukiwało informacje tyko ze stron HTML, z czasem jednak ulepszano algorytmy i obecnie znajdowane są dokumenty DOC, PDF i inne dokumenty tekstowe. Według NEC Research Institute w 1999 roku wyszukiwarki indeksowały tylko 16% wszystkich stron WWW. Powstały zatem terminy „ukryta sieć” (ang Invisible Web) lub głęboka sieć (ang Deep Web) odnoszące się do zasobów Internetu, do których nie docierają standardowe wyszukiwarki. Według Chrisa Shermana i Gary Price'a Invisible Web to dostępne w sieci strony, pliki czy inne informacje, których z przyczyn technicznych bądź innych ograniczeń, nie indeksują wyszukiwarki. W innej definicji Michaela Bergmana Deep Web to strony internetowe tworzone dynamicznie jako wynik specjalistycznych wyszukiwań w bazach danych. Zatem oprócz nieindeksowanych stron i dokumentów tekstowych w innych formatach niż HTML, były to dokumenty graficzne, muzyczne, strony we Flash, arkusze kalkulacyjne, bazy danych (publicznie dostępne - bazy danych komercyjne powinny być z założenia elementem ukrytej sieci), strony generowane dynamicznie (PHP, ASP), większość stron instytucjonalnych lub płatnych, które wymagały wcześniejszej rejestracji, strony do których nie prowadzą odsyłacze, strony wyłączone z procesu indeksacji przez twórców (poprzez umieszczenie w kodzie strony meta-tagu robots lub poprzez utworzenie pliku robots.txt w określonym katalogu serwera WWW). Powstawać zaczęły wyszukiwarki zaprojektowane do przeszukiwania ukrytych zasobów sieci, np. Incywincy http://www.incywincy.com przeglądająca strony internetowe, jak też wykorzystująca wyszukiwarki, metawyszukiwarki, formularze i katalogi. Co pewien czas publikowane były szacunki porównujące oba obszary sieci: widzianej przez wyszukiwarki (Surface Web) i sieci ukrytej. Większość z materiałów cytuje badania Michaela Bergmana z 2001 roku, według których sieć niewidzialna była wtedy nawet ok. 400-550 razy większa niż zasoby Surface Web i liczyła ok. 550 mld dokumentów. Aż 95% zasobów ukrytych było dostępnych bezpłatnie, ponad połowę stanowiły tematyczne bazy danych. Szacunki te podważył w 2005 roku Dirk Lewandowski. Dane te i tak z pewnością do dziś uległy zmianie, wyszukiwarki bowiem zaczęły wkraczać w niewidzialną część sieci, wzbogacały się o możliwości przeszukiwania tekstów zapisanych w różnych formatach i dziś znajdują już pliki PDF, DOC, a nawet pliki graficzne, filmy i podcasty. Można zatem skonstatować, że za sprawą ulepszonych algorytmów tzw. głęboki Internet wypłynął na wierzch i już jest widziany w wynikach wyszukiwarek. Wyszukiwanie w czasach zbyt mocnej promocji strony Dlaczego, mimo ciągłego ulepszania algorytmów, wyszukiwanie nie daje często dobrych wyników? Przyczyną często jest nieetyczne pozycjonowanie, czyli działania nie zgodne z wytycznymi IAB lub regulaminami wyszukiwarek. Ich właściciele chcieliby, aby klienci, czyli użytkownicy Internetu poszukujący informacji, uzyskiwali dobre wyniki, czyli odpowiadające na ich zapytania i tym samym byli zadowoleni z serwisu. Większość współczesnych wyszukiwarek wyszukuje informacje za pomocą słów kluczowych. Po wprowadzeniu szukanej frazy wyszukiwarka wyświetla listę linków do stron, które dane wyrażenie zawierają. To zaś, która strona znajdzie się najwyżej zależy od liczby słów kluczowych w tekście, ich miejsca na stronie, a także od tego czy słowa zawierają odnośniki do stron z dodatkowymi informacjami. W rezultacie bardzo często na szczycie SERP pojawiają się linki do witryn, które nie spełniają oczekiwań szukającego, ale są dobrze wypozycjonowane przez ich twórców, którzy w celu polepszenia pozycji strony w wynikach wyszukiwarek wstawiają np. ukryty tekst. Gdy zorientowano się, że wyszukiwarki indeksują strony linkowane, zaczęły powstawać tw. farmy linków, czyli strony zawierające tylko odnośniki do innych stron. Algorytmy wyszukiwarek zaczęły jednak identyfikować tego typu serwisy. Pojawiły się wtedy strony z unikalnym, ale nie zawsze merytorycznie poprawnym tekstem, generowane tylko i wyłącznie w celu linkowania. To tzw. zaplecze pozycjonerskie, tworzone najczęściej w sposób zupełnie przypadkowy lub automatycznie przez programy, czasami poprzez powielanie swoich lub cudzych tekstów, rzadziej tworzone przez wynajętych pracowników - ale nie pielęgnowane i tracące często swoją aktualność. Jest to zatem tylko i wyłącznie mnożenie liczby stron (bytów) nieużytecznych dla użytkowników sieci szukających informacji, zatem jest to SPAM. Nie ma badań oceniających liczbę takich stron, są jednak źródła wskazujące, że do pozycjonowania jednej strony tworzonych jest co najmniej kilkadziesiąt innych, zatem mogą stanowić duży procent wszystkich i prawdopodobieństwo, że użytkownik wyszukiwarki trafi na jedną z nich jest dość duże. Gorzej jeśli nie uzna jej za mało wartościową i skorzysta z zawartych w niej informacji. Twórcy lub zarządcy zaplecza manipulują zatem wynikami wyszukiwania, stąd tego typu działania są tępione przez właścicieli wyszukiwarek. Google w 2007 roku ogłosiło, że strony zaplecza będą zwalczane, zastrzegło sobie możliwość ograniczenia mocy odnośników umieszczonych na stronach z unikalną treścią, w przypadku wykrycia, iż funkcjonują one jedynie w celu pozycjonowania. Firmy lub osoby zajmujące się pozycjonowaniem tworzą także katalogi, które znacznie odbiegają od idei katalogu Yahoo czy DEMOZ. Są to strony zbudowane z gotowych skryptów np. QlWeb, mające na celu linkowanie, często odpłatnie dla wszystkich zgłaszających swoje strony - bez weryfikacji co zawierają. Od pewnego czasu takie katalogi mają jednak znikomą wartość nawet dla osób zajmujących się pozycjonowaniem. Programy wyszukiwarek wzbogacono bowiem o algorytmy wykrywające i ignorujące katalogi oparte o QlWeb, Freeglobes, Mini, Scuttle i inne popularne skrypty. W ich miejsce zaczęły pojawiać się katalogi typu presell pages różniące się od poprzednich tym, iż przypominają blog lub CMS. Starają się naśladować sytuację linkowania naturalnego, kiedy osoba (blogger) opisuje w swoim wpisie np. jakąś firmę, produkt bądź zjawisko, umieszczając w tekście linki prowadzące do stron powiązanych z poruszanym tematem. Wzrastającą liczbę serwisów typu presell pages zauważyło Google, i w komunikatach publikowanych w 2007 roku zasygnalizowało, że skoro mają one na celu jedynie przekazywanie mocy w postaci linków wychodzących, nie służą w żaden sposób internautom. Nie jest to zatem forma promocji akceptowana przez wyszukiwarki, bo jej efektem jest również manipulacja użytkowników wyszukiwarek. Wyszukiwanie w sieci semantycznej Pod koniec XX wieku rozpoczęto prace nad projektem Tima Bernersa Lee: Semantic Web (sieć semantyczna nazywana też Web 3.0), który ma przyczynić się do utworzenia i rozpowszechnienia standardów opisywania treści w Internecie w sposób, który umożliwiłby maszynom i programom (np. robotom wyszukiwarek, autonomicznym agentom) przetwarzanie informacji w sposób odpowiedni do ich znaczenia. Czas sieci semantycznej według prognoz Nova Spivak miał się zacząć w 2010 roku (Spivak, 2007). Czy tak się stało? Istnieją już strony stosujące standardy RDF (ang. Resource Description Framework) czy OWL (ang. Ontology Web Language), ale Web 3.0 naprawdę stanie się rzeczywistością, gdy wszystkie strony dostosują się do nowych norm, bowiem wtedy budowane obecnie aplikacje jak np. wyszukiwarki semantyczne, będą działać tak, jak tego oczekują zwolennicy nowej struktury sieci WWW. Idea sieci semantycznej polega na wykorzystaniu już istniejącego protokołu do takiego sposobu przetwarzania informacji, który umożliwi powiązanie znaczeń między wyrazami, a nie tylko wykorzystanie słów kluczowych. Chodzi więc o semantykę, którą sieć może zrozumieć analizując strukturę stron. Obecnie strony są przygotowywane dla ludzi, a mało zrozumiałe dla programów. Spójrzmy na fragment strony przychodni rehabilitacyjnej: <h1>Cenrtum rehabilitacyjne/<h1> Witamy na stronie centrum rehabilitacyjnego. Nasi pracownicy to dyplomowani rehabilitanci: Jan Kowalski i Adam Nowak oraz dyplomowana pielęgniarka Krystyna Wiśniewska. Odczuwasz ból? Przyjdź koniecznie. <h2> Godziny przyjęć:</h2> Pon 11.00– 19.00 <br> Wt 11.00– 19.00 <br> Śr 11.00– 19.00 <br> Czw 11.00– 19.00 <br> Pt 11.00– 19.00 <br> Informacje podane na tak zdefiniowanej stronie będą wystarczające dla człowieka, ale program nie będzie potrafił np. zidentyfikować, kto jest rehabilitantem, a kto pielęgniarką. Zaproponujmy zatem reprezentację wiedzy bardziej dogodną dla komputera. <firma> <oferowaneleczenie >rehabilitacja</oferowaneleczenie> <nazwafirmy>centrum rehabilitacji</nazwafirmy> <personel> <rehabilitant> Jan Kowalski</rehabilitant> <rehabilitant> Adam Nowak</rehabilitant> <pielegniarka> Krystyna Wiśniewska</pielegniarka> <personel> </firma> Informacje przekazywane w ramach sieci wymagają nie tylko danych, ale także informacji o nich tzw. metadanych, czego przykład widać powyżej. Zapis metadanych składa się ze zbioru atrybutów niezbędnych do opisu zasobu. Istotną rolę w tworzeniu semantycznego Internetu, a szczególnie reprezentacji wiedzy, odgrywają ontologie. Ontologia stanowi wspólny zbiór twierdzeń sformułowanych przy pomocy istniejących standardów np. w XML czy/i RDF, który opisuje i definiuje relacje między pojęciami i wyznacza reguły wnioskowania. To właśnie dzięki ontologiom komputery są w stanie zrozumieć semantyczną zawartość dokumentów w sieci. Ontologie są tworzone przy pomocy specjalizowanych języków, takich jak: OWL, SHOE, OIL, DAML. Ontologie zwiększają możliwości sieci pod wieloma względami. Najprostszy sposób ich wykorzystania to precyzyjniejsze przeszukiwanie sieci np. wyszukiwarka wybierze tylko te strony, na których występuje dane pojęcie, ale w ściśle zdefiniowanym znaczeniu, a nie słowo kluczowe, które jest przecież często wieloznaczne. Wprowadzanie metaopisów do kodu stron internetowych wydaje się odległą przyszłością, np. z powodu niechęci webmasterów i braku widocznych korzyści wynikających z dodawania metadanych. Dopóki nie ma wielu aplikacji Web 3.0 nie wszyscy rozumieją, że ułatwi to przetwarzanie informacji. Kiedy wszystkie dane w Internecie opatrzone zostaną metadanymi, czyli zaczną rozumieć je algorytmy, użytkownicy sieci będą masowo korzystać z usług osobistych agentów, które mogą poszukiwać informacji i na ich życzenie podejmować decyzje: wybierać połączenia komunikacyjne, rezerwować hotele, a nawet negocjować ceny. Sieć semantyczna staje się rzeczywistością dzięki aplikacjom, które ją wykorzystują i wspierają - takim jak np. wyszukiwarki semantyczne. Zalicza się do nich wyszukiwarki analizujące znaczenie indeksowanych dokumentów (Hakia, Bing - dawniej Powerset, Google Squared) oraz wyszukiwarki przeszukujące zasoby sieci semantycznej czyli zawartość plików RDF oraz modeli interpretacji danych, czyli ontologii zapisanej w OWL (np. Swoogle, Sindice, Falcons, Watson)- obie działają inaczej i pełnią inną rolę w poszukiwaniu informacji. Wyszukiwarki analizujące znaczenie Wyszukiwarki tego typu przeszukują zawartość znaczeniową stron WWW w oparciu o semantyczną i gramatyczną analizę języka dokumentu. Niezwykle trudne jest przełożenie języka naturalnego na język zrozumiały dla algorytmu. W tym celu stosują metody sztucznej inteligencji - NLP (Natural Language Processing) oraz algorytmy heurystyczne. Dużym problemem są tu trudności związane z analizą wyrażeń języka naturalnego, ich wieloznaczność, specyfika języka itp. nie tylko w treści dokumentów, ale także w zapytaniach, gdyż wiele wyszukiwarek akceptuje zapytania w języku naturalnym. To właśnie ma być elementem nowego modelu przeszukiwania i wykorzystywania zasobów Internetu. Wyszukiwarki analizujące znaczenie przeszukując strony WWW tworzą własną bazę ontologii. Dzięki temu dostarczane będą bardziej relewantne wyniki, przedstawione w bardziej odpowiadającej zapytaniu hierarchii. Nie ma jeszcze w pełni funkcjonalnych przykładów wyszukiwarek tego typu, najbardziej chwalona jest uruchomiona w 2009 roku Wolfram Alpha, która nie wyświetla w odpowiedzi adresów stron powiązanych z zapytaniem, lecz udostępnia konkretne dane. Można je zapisać w formacie PDF. Jedną, która wcześniej wniosła dużo w rozwój semantycznych wyszukiwarek był Powerset, kupiony w 2008 roku przez Microsoft i rozwijany obecnie od 2009 roku jako Bing. W 2004 roku powstała Hakia, która podaje jako wyniki posegregowane linki w grupach Web, News, Blogs, Credible Sources, Video oraz Images. Kategoryzacji wyników dokonuje także wyszukiwarka Yebol.com, akceptująca również zapytania w języku naturalnym. Google Sqared pokazuje wyniki w postaci danych zawartych w tabelach, które można wyeksportować do formatu CSV lub arkusza kalkulacyjnego Google. Wskazując komórki tabeli zobaczyć można źródła zdobytych danych - na razie bardzo często jest to różnie oceniana, jeśli chodzi o wiarygodność, Wikipedia. Także głównie na niej opierają się wyniki inne wyszukiwarki semantyczne np. Bing (Powerset). Wszystkie projekty są potencjalnymi konkurentami tradycyjnego Google, bardo często ich premiery reklamowane były w taki sposób np. Bing Microsoft w maju 2009 roku. Pojawiły się także polskie przykłady, np. już nie istniejący Szuku.pl, Hippisek.pl, który bazę wiedzy buduje głównie w oparciu o serwisy tvn24 oraz pudelek.pl, oraz aktywny KtoCo http://www.ktoco.pl (od 2009 roku). Celem jego działania, nie jest tylko odnajdywanie linków, lecz udzielenie precyzyjnych odpowiedzi. Pytania do niego można formułować w języku naturalnym, również w takiej formie podawane są odpowiedzi: cytaty pochodzące ze stron internetowych. KtoCo korzysta ze zbudowanej przez jego wydawcę bazy ontologii, zawierającej w momencie uruchomienia serwisu w 2009 roku ponad 800 tysięcy faktów i uwzględniającej powiązania semantyczne istniejące pomiędzy nimi. Wyszukiwarki przeszukujące zawartość sieci semantycznej Wyszukiwarki przeszukujące zawartość sieci semantycznej nie analizują znaczenia stron WWW, lecz przeszukują opisy dokonane przez twórców dokumentów i odwołania do ontologii wskazanych w nagłówkach plików RDF. Oglądają zatem reprezentację semantyczną dokumentu, nie dokonują zaś przekładu jego treści. Pozwolą zatem lepiej wyselekcjonować dokumenty zawierające podane terminy w określonej kategorii, dzięki czemu na liście wyników użytkownik nie dostanie odnośników do dokumentów, które będą zupełnie bezwartościowe. Obecnie jedną z przyczyn niezbyt poprawnego działania wyszukiwarek przeszukujących sieć semantyczną jest mała liczba stron opisanych metadanymi. Najlepiej działającymi obecnie są Swoogle (utworzony w 2004 roku w projekcie Uniwersytetu Baltimore, 10 tys. ontologii), Sindice, Falcon, SWSE oraz Watson. Wyniki jakie z nich uzyskamy są mało czytelne dla ludzi, bo zawierają linki do dokumentów RDF lub OWL i dedykowane są dla algorytmów np. agentów. Wszystkie wyszukiwarki semantycznych działaj w fazie testów, w wersji beta lub jako prototypy aplikacji. Niestety nie działają jeszcze poprawnie. Formułowanie zapytań do wyszukiwarek Web 1.0 Różne wyszukiwarki dysponują różnymi rodzajami zapytań, jednak pewne zasady są wspólne dla wszystkich narzędzi wyszukujących. Ich znajomość przyspieszy wyszukiwanie właściwych treści. Przedstawione zapytania niejednokrotnie można ze sobą łączyć co daje jeszcze lepsze efekty. Wyszukiwanie według słów kluczowych Najprostszym sposobem zadawania pytania jest wpisanie poszukiwanego wyrazu lub wyrazów określających pożądaną przez nas informację. Wyszukiwarka lub katalog wyświetli nam listę stron, które zawierają poszukiwane słowo lub słowa, np słowo programista. Może to jednak spowodować wyświetlenie listy zawierającej ponad 1000 adresów, której przejrzenie może stać się czasochłonne. W takim przypadku niektóre szperacze pozwalają na przeszukanie otrzymanych wyników poprzez sformułowanie dodatkowego pytania do bazy, co umożliwi zmniejszenie liczby otrzymanych stron i dokładniejsze wyniki wyszukiwania. Na przykład gdy poszukujemy stron internetowych szkół wyższych. Na pytanie szkoły baza wyszukiwarki zwróci nam bardzo dużą listę adresów. Dzięki możliwości przeszukania otrzymanych wyników zadajemy ponowne pytanie wyższe, ograniczając w ten sposób liczbę otrzymanych wyników. Można podać wiele słów kluczowych, ale nie należy przesadzać z ich liczbą i podać je w dobrej kolejności. Wyniki wyszukiwania programowanie komputerów, będą inne niż komputerów programowanie. Niektóre narzędzia i tak nie „czytają” długich zapytań, np. Google bierze pod uwagę tylko 10 słów i ignoruje pewne typowe wyrazy (na przykład angielskie „the” i „and”), a także niektóre pojedyncze cyfry i litery, ponieważ spowalniają one wyszukiwanie, nie zapewniając lepszych wyników. Google informuje szczegółowo o wykluczonych często używanych wyrazach na stronie wyników pod polem wyszukiwania. Ważna jest kolejność podawanych wyrazów. Wyszukiwanie frazy Wpisanie do wyszukiwarki dwóch słów np. program nauczania spowoduje wyświetlenie stron zawierających słowo program i witryn zawierających wyraz nauczania oraz tych, które zawierają oba słowa. Gdy oba wyrazy umieścić w cudzysłowie, otrzymamy listę zawierającą adresy stron, które w swoim tekście posiadają dwa słowa obok siebie i to w pożądanej kolejności. Wyszukiwanie rozmyte Wyszukiwanie rozmyte polega na uwzględnieniu różnych form danego wyrazu. W pytaniu podajemy początek wyrazu pozostałą część zastępujemy znakiem ? lub *. Znak ? zastępuje tylko jedną literę, zaś * zastępuje większą liczbę znaków. Jak widać w podanym przykładzie szukamy ogólnie stron na temat poczty. Jednak gdy wpiszemy słowo poczta to wyszukiwarka wyświetli nam adresy stron zawierających wyraz poczta, a pominie strony zawierające wyrazy poczty, pocztowy itp. W Google znak „~” oznacza synonim, czyli np. wpisując ~program znajdziemy w wynikach również słowo software. Konieczność występowania wyrazu lub nie Inną możliwość dają nam dwa znaki + i – koniecznie ze spacją przed znakiem. Pierwszy wymusza wyświetlenie stron, które muszą zawierać wyraz poprzedzony +. Drugi zaś wyklucza strony zawierające dane słowo. Czasem przydaje się, gdy słowo ma kilka znaczeń. Np. gdy szukamy informacji o protokołach sieciowych możemy podać zapytanie: protokół –dyplomacja. A zapytanie Wojna Światowa +I zapewni nam informacje o I Wojnie. Operatory zaawansowane Zastosowanie ich da nam ograniczanie wyników wyszukiwania do stron z określonych krajów lub domen. Domenę można określić dodając do wyszukiwanego hasła operator ,,site” Operator ten działa w przypadku domen sieciowych i domen najwyższego poziomu. Przykłady: music site:pl, lemur site:org, rekrutacja site:edu.pl, ranking site:google.com Możemy jeszcze ograniczać: miejsce strony gdzie mają się znajdować wyszukiwane hasła – w tytule lub w jej adresie URL: intitle:"Podstawy informatyki", allintitle:Podstawy informatyki, inurl: algorytmy struktury, allinurl: algorytmy struktury typ pliku filetype:pdf OR filetype:ppt "boolean searching" link wewnątrz dokumentu link: ki.uni.lodz.pl Bibliografia Alesso H. P., Smith C. Thinking on the Web: Berners-Lee, Gödel, and Turing, Wiley-Interscience, 2008 Antoniou G., Van Harmelen F. A semantic Web primer, The MIT Press, 2008 Bergman M. K., The Deep Web: Surfacing Hidden Value, "Journal of Electronic Publishing", Volume 7, Issue 1, 08.2001 Berners-Lee T., Hendler J., Lassila O., The Semantic Web: A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities, "Scientific American" 05/2001 Breitman K., Casanova M., Truszkowski W., Semantic Web: concepts, technologies and applications, Springer 2007 Gontar B., Papińska-Kacperek J. Semantyczne wyszukiwarki internetowe, w: ACTA UNIVERSITATIS LODZIENSIS. FOLIA OECONOMICA, Uniwersytet Łódzki, 2011 http://dspace.uni.lodz.pl:8080/xmlui/bitstream/handle/123456789/803/165-179.pdf?sequence=1 Gulli A. Signorini A. The indexable web is more than 11.5 billion pages, Proceeding WWW 2005 Kashyap V., Bussler C., Moran M. The Semantic Web: semantics for data and services on the Web, Springer, 2008 Lewandowski D. Web searching, search engines and Information Retrieval, Information Services & Use 25(2005)3 Lewandowski D. Mayr P. Exploring the Academic Invisible Web, Library Hi Tech, 24 (2006) 4. pp. 529-539 Papińska-Kacperek J. Wyszukiwanie informacji w internecie, materiały dla studentów 2006 http://www.ki.uni.lodz.pl/~jpapkac/podstawy/wyszukiwanie.pdf Papińska-Kacperek J. Gontar B. Wyszukiwarki semantyczne, w: Wiedza i komunikacja w innowacyjnych organizacjach, Katowice, red. M. Pańkowska, Wydawnictwo UE, Katowice, 2011, s. 134-149 Sherman C., Price G. The invisible Web: uncovering information sources search engines can't see Information Today, Inc, 2001 Społeczeństwo informacyjne, red. Papińska-Kacperek J., PWN 2008 Wyniki wyszukiwania Google a satysfakcja użytkowników, raport http://www.bluerank.pl/pdfs/Raport%20%20wyniki%20wyszukiwania%20Google%20a%20satysfakcja%20uzytkownikow.pdf 2008