Rodzaje, zasada działania oraz opisy wybranych wyszukiwarek internetowych X Menu główne Wstęp Zasada działania Rodzaje Opisy Linki INFO X Wstęp Wyszukiwarka internetowa (ang. search engine) to program lub strona internetowa, której zadaniem jest ułatwienie użytkownikom Internetu znalezienie informacji w sieci. W znaczeniu ogólnym wyszukiwarka to oprogramowanie gromadzące w sposób automatyczny informacje o dokumentach tekstowych oraz plikach zgromadzonych w sieci (obszarze wyznaczonym dla wyszukiwarki do indeksowania). X Określenie Wyszukiwarka stosujemy do: • stron internetowych serwisów wyszukujących - czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów • oprogramowania przeznaczonego do indeksowania i wyszukiwania informacji w sieciach komputerowych: internecie, intranecie. X Największym minusem wyszukiwarek są reklamy. Wyszukiwarki stanowią wymarzony cel reklamodawców ponieważ mają oni praktycznie pełną gwarancję, że osoba wyszukująca dane hasło jest nim zainteresowana. Tak więc większość wyszukiwarek oferuje reklamy zależne od treści zapytań (np. AdWords oferowany przez Google). Ze względu na szeroką krytykę procederu nie oddzielania reklam od wyników, większość wyszukiwarek z niego zrezygnowała i wyraźnie zaznacza teraz reklamy. X Zasada działania Oprogramowanie wyszukiwarek to zestaw programów modułów, z których każdy ma oddzielne zadanie. W skład zestawu wchodzą takie elementy jak: • Crawler, Robot, Pająk, Spider, Bot - modułów pobierających dokumenty z sieci • Indeksera, programów analizujących i oceniających • Searcher'a - interfejsu wyszukującego wyszukiwarki odpowiadający na zapytania/analizator zapytań + moduł prezentacji wyników X Mechanizm działania wyszukiwarki składa się z trzech faz: 1) Specjalny moduł odwiedza stronę i dzięki hiperlączom wchodzi w kolejne. To co odnajdzie trafia do bazy danych. 2) W bazie danych indeksowane są tylko te strony które mają unikalne słowa podane w wyszukiwarce. 3) Z Indeksu wyniki trafiają do interfejsu gdzie dane są prezentowane w sposób przystępny dla użytkownika. X Poza podstawowymi elementami wyszukiwarka posiada narzędzia rozszerzające jej funkcjonalność: • programy konwersji dokumentów • programy archiwizujące repozytorium (Google używa archwizera Z) • programy analizy technik zabronionych (spam) • moduły administracyjne X Rodzaje wyszukiwarek Ze względu na typ wyszukiwania wyszukiwarki internetowe można podzielić na trzy grupy : • wyszukiwarki oparte na analizie treści strony • wyszukiwarki oparte na analizie topologii sieci • wyszukiwarki oparte na zasadzie aukcji miejsc X Wyszukiwarki oparte na analizie treści strony Ponieważ Internet rośnie znacznie szybciej niż jakakolwiek grupa ludzi może go katalogować, oraz z powodu wad katalogów (np. pod danym hasłem może znajdować się tysiące stron), powstały wyszukiwarki które przeszukują Internet analizując zawartość stron. Kiedy użytkownik poda wyszukiwarce zapytanie ona odpowie mu łączami do stron, które uzna w zależności od użytego algorytmu, za najbardziej odpowiednie. X Wyszukiwarki oparte na tej zasadzie mogą objąć znacznie większą część sieci niż katalogi. Niestety są one bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony bardzo często nie mające nic wspólnego z jego zapytaniem. Szczególnie wyspecjalizowały się w tym strony pornograficzne. X Wyszukiwarki oparte na analizie topologii sieci Żeby przeciwdziałać procederowi podszywania się pod inną stronę wyszukiwarki zaczęły stosować analizę topologii sieci. Tak więc stronę uważa się za odpowiadającą zapytaniu „linux", jeśli wiele stron na temat „linux" do niej linkuje. Tak więc na przykład strona oferująca oprogramowanie pod linuksa nie będzie brana pod uwagę niezależnie od treści. Natomiast jeśli zada się zapytanie „linux software", strona ta zostanie uznana za istotną, ponieważ linkuje na nią wiele stron o tematyce „software". X Pierwszą wyszukiwarką, która zastosowała zaawansowane algorytmy analizy topologii sieci było Google. Wyszukiwarki oparte na analizie topologicznej są bardzo odporne na nadużycia. Jedynym znanym atakiem, który rzeczywiście zastosowano wobec nich, jest stworzenie dużej ilości gęsto polinkowanych stron, z czego wszystkie na ten sam temat. Jest to jednak zadanie trudne i wymagające dużego nakładu pracy, a modyfikując heurystykę wartości początkowych można znacznie ograniczyć ten proceder, którego skala na razie jest minimalna. X Wyszukiwarki oparte na zasadzie aukcji miejsc Osobnym pomysłem jest system, gdzie strony płacą wyszukiwarce kilka centów za każde kliknięcie, przy czym miejsca są licytowane - strona która daje więcej za kliknięcie znajdzie się wyżej na liście rezultatów. Pozycje płatne są oznaczone jako takie, razem z ceną. System ten jest korzystny dla właścicieli stron - płacą oni tylko za wejścia nie za wyświetlenia. X Pomysłodawcy twierdzą, że jest on również korzystny dla użytkownika, gdyż tylko strony, które oferują coś użytecznego z danej dziedziny mogą sobie pozwolić na taką reklamę. Z drugiej jednak strony wiele użytecznych witryn jest niekomercyjnych, a nawet przy stronach komercyjnych wyniki będą często nieoptymalne – na przykład na taką reklamę nie mogą sobie pozwolić strony, które mają niskie marże i oferują produkty po niskich cenach, a jedynie te, które mają wysokie marże i oferują produkty drożej. X Opisy wyszukiwarek 1) Google 2) AltaVista 3) MSN Search 4) Szukacz X Google Wyszukiwarka internetowa, stworzona przez Amerykańską firmę Google Inc. Jej celem jest skatalogowanie wszystkich możliwych informacji i udostępnienie ich za pomocą Internetu. W chwili obecnej, Google ma możliwość przeszukiwania stron internetowych, grup dyskusyjnych Usenet, zdjęć i grafik, nowości z serwisów informacyjnych oraz kilku innych, wymienionych dalej w tym artykule. Wedle danych z lutego 2005 roku, Google indeksuje ponad 8.05 miliarda stron WWW, około 1.2 miliarda zdjęć i grafik oraz 1 miliard wiadomości Usenet. X Nazwa wyszukiwarki jest grą słów i pochodzi od matematycznego terminu googol. Nazwa miała też odzwierciedlać zamierzenia firmy do objęcia indeksacją jak największej liczby stron ze światowych zasobów Internetu. Ponoć nazwa powstała poprzez przekręcenie przez inwestora nazwy Googol, jak miała się nazywać początkowo firma. Aby uniknąć komplikacji bankowych założyciele zdecydowali pozostać przy tej nazwie. X Najważniejszą technologią Google, która została opatentowana jest PageRank, czyli system segregowania wyników na stronach wynikowych. PageRank to matematyczny algorytm stworzony przez twórców oprogramowania Google, na podstawie którego obliczana jest ważność znalezionych stron dla każdego zapytania. Poprzez prześledzenie wartości PageRank wszystkich stron, które linkują do strony wynikowej wyliczany jest PageRank dla znalezionej strony. X AltaVista Wyszukiwarka internetowa opracowana w 1995 r. przez dział badawczy Digital Equipment Corporation bazująca na wprowadzonych w tamtym czasie szybkich serwerach Alpha tej firmy. Twórcy opracowali uprzednio nowatorską metodę gromadzenia każdego wyrazu w szybkim, przeszukiwalnym indeksie, co legło u podstaw zbudowania wyszukiwarki sieciowej. W krótkim czasie przewyższyła ona konkurencyjne Lycos i Excite, była też pierwszą wielojęzyczną wyszukiwarką i obsługiwała języki oparte na niełacińskich alfabetach. X Po zakupieniu firmy DEC przez Compaq’a AltaVista sukcesywnie traciła na znaczeniu i ostatecznie wyszukiwarka została wydzielona jako niezależna kompania, którą w lutym 2003 wykupiła firma Overture Services, W marcu 2004 Overture została z kolei przejęta przez Yahoo. Wyszukiwarkę obsługuje też specjalna wtyczka do przeglądarki AltaVista Toolbar, dająca dostęp do rozmaitych narzędzi wyszukiwawczych. X MSN Search Wyszukiwarka internetowa firmy Microsoft wprowadzona oficjalnie 1 lutego 2005 po dwóch latach prac rozwojowych. Jest to opracowany od podstaw projekt, dostępny w 10 wersjach językowych, indeksujący w chwili oficjalnej inauguracji co najmniej 5 miliardów stron i wykorzystywane średnio przez co szóstego użytkownika Internetu. MSN Search poza wyszukiwaniem witryn oferuje szukanie plików graficznych i sekwencji wideo. X Szukacz Polska wyszukiwarka internetowa - oparta w całości na polskim, autorskim rozwiązaniu programowym. Stworzona i uruchomiona za sprawą wydawnictwa Prószyński i S-ka. Cechy charakterystyczne : • wykorzystywanie tezaurusa dla języka polskiego • wykorzystywanie algorytmów rozpoznawania odmian słów w języku polskim • indeksowanie zamkniętych dla robotów zasobów na podstawie odrębnych umów X Linki www.google.pl - polska wersja wyszukiwarki google www.netsprint.pl - największa polska wyszukiwarka www.altavista.com - najlepsza przez długi czas wyszukiwarka internetowa www.gooru.pl - nowoczesna wyszukiwarka witryn z kilkoma ciekawymi funkcjami – warto odwiedzić www.searchengines.pl - strona poświęcona tematyce p2p i wyszukiwarkom stron X INFO AUTOR : Maciej Ruciński KLASA : II LB 2005/2006 Źródła http://pl.wikipedia.org