Rodzaje, zastosowanie oraz opisy wybranych

advertisement
Rodzaje, zasada działania oraz opisy
wybranych wyszukiwarek
internetowych
X
Menu główne
Wstęp
Zasada działania
Rodzaje
Opisy
Linki
INFO
X
Wstęp
Wyszukiwarka internetowa (ang. search engine)
to program lub strona internetowa, której zadaniem
jest ułatwienie użytkownikom Internetu znalezienie
informacji w sieci.
W znaczeniu ogólnym wyszukiwarka to oprogramowanie
gromadzące w sposób automatyczny informacje o
dokumentach tekstowych oraz plikach zgromadzonych
w sieci (obszarze wyznaczonym dla wyszukiwarki
do indeksowania).
X
Określenie Wyszukiwarka stosujemy do:
• stron internetowych serwisów wyszukujących - czyli
implementacji oprogramowania wyszukującego
działającego z interfejsem WWW ogólnodostępnym
dla internautów
• oprogramowania przeznaczonego do indeksowania i
wyszukiwania informacji w sieciach komputerowych:
internecie, intranecie.
X
Największym minusem wyszukiwarek są reklamy.
Wyszukiwarki stanowią wymarzony cel reklamodawców
ponieważ mają oni praktycznie pełną gwarancję, że osoba
wyszukująca dane hasło jest nim zainteresowana.
Tak więc większość wyszukiwarek oferuje reklamy
zależne od treści zapytań (np. AdWords oferowany
przez Google). Ze względu na szeroką krytykę procederu
nie oddzielania reklam od wyników, większość
wyszukiwarek z niego zrezygnowała i wyraźnie zaznacza
teraz reklamy.
X
Zasada działania
Oprogramowanie wyszukiwarek to zestaw programów
modułów, z których każdy ma oddzielne zadanie.
W skład zestawu wchodzą takie elementy jak:
• Crawler, Robot, Pająk, Spider, Bot - modułów
pobierających dokumenty z sieci
• Indeksera, programów analizujących i oceniających
• Searcher'a - interfejsu wyszukującego wyszukiwarki
odpowiadający na zapytania/analizator zapytań +
moduł prezentacji wyników
X
Mechanizm działania wyszukiwarki składa się z trzech faz:
1) Specjalny moduł odwiedza stronę i dzięki hiperlączom
wchodzi w kolejne. To co odnajdzie trafia do bazy
danych.
2) W bazie danych indeksowane są tylko te strony które
mają unikalne słowa podane w wyszukiwarce.
3) Z Indeksu wyniki trafiają do interfejsu gdzie dane
są prezentowane w sposób przystępny dla użytkownika.
X
Poza podstawowymi elementami wyszukiwarka posiada
narzędzia rozszerzające jej funkcjonalność:
• programy konwersji dokumentów
• programy archiwizujące repozytorium (Google używa
archwizera Z)
• programy analizy technik zabronionych (spam)
• moduły administracyjne
X
Rodzaje wyszukiwarek
Ze względu na typ wyszukiwania wyszukiwarki
internetowe można podzielić na trzy grupy :
• wyszukiwarki oparte na analizie treści strony
• wyszukiwarki oparte na analizie topologii sieci
• wyszukiwarki oparte na zasadzie aukcji miejsc
X
Wyszukiwarki oparte na analizie treści strony
Ponieważ Internet rośnie znacznie szybciej niż
jakakolwiek grupa ludzi może go katalogować, oraz
z powodu wad katalogów (np. pod danym hasłem może
znajdować się tysiące stron), powstały wyszukiwarki
które przeszukują Internet analizując zawartość stron.
Kiedy użytkownik poda wyszukiwarce zapytanie
ona odpowie mu łączami do stron, które uzna w
zależności od użytego algorytmu, za najbardziej
odpowiednie.
X
Wyszukiwarki oparte na tej zasadzie mogą objąć
znacznie większą część sieci niż katalogi. Niestety są
one bardzo podatne na nadużycia, przez co użytkownik
zamiast użytecznych informacji dostaje linki na strony
bardzo często nie mające nic wspólnego z jego
zapytaniem. Szczególnie wyspecjalizowały się w
tym strony pornograficzne.
X
Wyszukiwarki oparte na analizie topologii sieci
Żeby przeciwdziałać procederowi podszywania się pod
inną stronę wyszukiwarki zaczęły stosować analizę
topologii sieci. Tak więc stronę uważa się za
odpowiadającą zapytaniu „linux", jeśli wiele stron na
temat „linux" do niej linkuje. Tak więc na przykład
strona oferująca oprogramowanie pod linuksa nie
będzie brana pod uwagę niezależnie od treści. Natomiast
jeśli zada się zapytanie „linux software", strona ta
zostanie uznana za istotną, ponieważ linkuje na nią
wiele stron o tematyce „software".
X
Pierwszą wyszukiwarką, która zastosowała zaawansowane
algorytmy analizy topologii sieci było Google.
Wyszukiwarki oparte na analizie topologicznej są bardzo
odporne na nadużycia. Jedynym znanym atakiem, który
rzeczywiście zastosowano wobec nich, jest stworzenie
dużej ilości gęsto polinkowanych stron, z czego wszystkie
na ten sam temat. Jest to jednak zadanie trudne i
wymagające dużego nakładu pracy, a modyfikując
heurystykę wartości początkowych można znacznie
ograniczyć ten proceder, którego skala na razie jest
minimalna.
X
Wyszukiwarki oparte na zasadzie aukcji miejsc
Osobnym pomysłem jest system, gdzie strony płacą
wyszukiwarce kilka centów za każde kliknięcie, przy
czym miejsca są licytowane - strona która daje więcej
za kliknięcie znajdzie się wyżej na liście rezultatów.
Pozycje płatne są oznaczone jako takie, razem z ceną.
System ten jest korzystny dla właścicieli stron - płacą
oni tylko za wejścia nie za wyświetlenia.
X
Pomysłodawcy twierdzą, że jest on również korzystny
dla użytkownika, gdyż tylko strony, które oferują coś
użytecznego z danej dziedziny mogą sobie pozwolić na
taką reklamę. Z drugiej jednak strony wiele użytecznych
witryn jest niekomercyjnych, a nawet przy stronach
komercyjnych wyniki będą często nieoptymalne – na
przykład na taką reklamę nie mogą sobie pozwolić
strony, które mają niskie marże i oferują produkty po
niskich cenach, a jedynie te, które mają wysokie marże
i oferują produkty drożej.
X
Opisy wyszukiwarek
1) Google
2) AltaVista
3) MSN Search
4) Szukacz
X
Google
Wyszukiwarka internetowa, stworzona przez
Amerykańską firmę Google Inc. Jej celem jest
skatalogowanie wszystkich możliwych informacji
i udostępnienie ich za pomocą Internetu.
W chwili obecnej, Google ma możliwość przeszukiwania
stron internetowych, grup dyskusyjnych Usenet, zdjęć
i grafik, nowości z serwisów informacyjnych oraz kilku
innych, wymienionych dalej w tym artykule. Wedle
danych z lutego 2005 roku, Google indeksuje ponad
8.05 miliarda stron WWW, około 1.2 miliarda zdjęć
i grafik oraz 1 miliard wiadomości Usenet.
X
Nazwa wyszukiwarki jest grą słów i pochodzi od
matematycznego terminu googol. Nazwa miała też
odzwierciedlać zamierzenia firmy do objęcia indeksacją
jak największej liczby stron ze światowych zasobów
Internetu. Ponoć nazwa powstała poprzez przekręcenie
przez inwestora nazwy Googol, jak miała się nazywać
początkowo firma. Aby uniknąć komplikacji bankowych
założyciele zdecydowali pozostać przy tej nazwie.
X
Najważniejszą technologią Google, która została
opatentowana jest PageRank, czyli system
segregowania wyników na stronach wynikowych.
PageRank to matematyczny algorytm stworzony przez
twórców oprogramowania Google, na podstawie którego
obliczana jest ważność znalezionych stron dla każdego
zapytania. Poprzez prześledzenie wartości PageRank
wszystkich stron, które linkują do strony wynikowej
wyliczany jest PageRank dla znalezionej strony.
X
AltaVista
Wyszukiwarka internetowa opracowana w 1995 r. przez
dział badawczy Digital Equipment Corporation
bazująca na wprowadzonych w tamtym czasie szybkich
serwerach Alpha tej firmy.
Twórcy opracowali uprzednio nowatorską metodę
gromadzenia każdego wyrazu w szybkim, przeszukiwalnym
indeksie, co legło u podstaw zbudowania wyszukiwarki
sieciowej. W krótkim czasie przewyższyła ona
konkurencyjne Lycos i Excite, była też pierwszą
wielojęzyczną wyszukiwarką i obsługiwała języki oparte
na niełacińskich alfabetach.
X
Po zakupieniu firmy DEC przez Compaq’a AltaVista
sukcesywnie traciła na znaczeniu i ostatecznie
wyszukiwarka została wydzielona jako niezależna
kompania, którą w lutym 2003 wykupiła firma Overture
Services, W marcu 2004 Overture została z kolei
przejęta przez Yahoo.
Wyszukiwarkę obsługuje też specjalna wtyczka do
przeglądarki AltaVista Toolbar, dająca dostęp do
rozmaitych narzędzi wyszukiwawczych.
X
MSN Search
Wyszukiwarka internetowa firmy Microsoft wprowadzona
oficjalnie 1 lutego 2005 po dwóch latach prac
rozwojowych.
Jest to opracowany od podstaw projekt, dostępny
w 10 wersjach językowych, indeksujący w chwili
oficjalnej inauguracji co najmniej 5 miliardów stron i
wykorzystywane średnio przez co szóstego użytkownika
Internetu. MSN Search poza wyszukiwaniem witryn
oferuje szukanie plików graficznych i sekwencji wideo.
X
Szukacz
Polska wyszukiwarka internetowa - oparta w całości na
polskim, autorskim rozwiązaniu programowym.
Stworzona i uruchomiona za sprawą wydawnictwa
Prószyński i S-ka.
Cechy charakterystyczne :
• wykorzystywanie tezaurusa dla języka polskiego
• wykorzystywanie algorytmów rozpoznawania odmian
słów w języku polskim
• indeksowanie zamkniętych dla robotów zasobów na
podstawie odrębnych umów
X
Linki
www.google.pl - polska wersja wyszukiwarki google
www.netsprint.pl - największa polska wyszukiwarka
www.altavista.com - najlepsza przez długi czas
wyszukiwarka internetowa
www.gooru.pl - nowoczesna wyszukiwarka witryn z
kilkoma ciekawymi funkcjami – warto odwiedzić
www.searchengines.pl - strona poświęcona tematyce
p2p i wyszukiwarkom stron
X
INFO
AUTOR : Maciej Ruciński
KLASA : II LB 2005/2006
Źródła
http://pl.wikipedia.org
Download