ZAWWW-2st1.2-w13.tresc-1.0-Slajd11

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Wyszukiwanie – podstawowe pojęcia

Wyszukiwanie – podstawowe pojęcia


Slajd przedstawia podstawowe elementy składające się na wyszukiwarkę internetową. Na najniższym poziomie działa agent zwany pająkiem (ang. spider, crawler, agent). Jest to rozproszony program dokonujący rekurencyjnego przeszukiwania sieci WWW. Najczęściej, procedura wyszukiwania jest następująca: proces nadrzędny pająka rozpoczyna pracę od odczytania i sparsowania dokumentu za pomocą znanego początkowego adresu URL. Z początkowego dokumentu zostają odczytane kolejne adresy URL odnośników. Adresy te trafiają do kolejki, z której są asynchronicznie pobierane przez współbieżne procesy usługowe pająka. Każdy z procesów usługowych pobiera kolejny adres URL, odczytuje dokument i analizuje dokument w poszukiwaniu nowych adresów. W rzadkich przypadkach możliwa jest także ręczna aktualizacja katalogu adresów URL. Drugim modułem wyszukiwarki jest moduł indeksujący. Jest to moduł odpowiedzialny za znalezienie w odczytanych dokumentach termów (np. za pomocą lematyzatora), zastosowanie filtrów (np. odrzucenie słów pospolitych występujących na stop-listach), konwersję między różnymi stronami kodowymi, i wreszcie za stworzenie indeksów odwróconych. Trzecim modułem wyszukiwarki jest moduł przetwarzania zapytań, odpowiedzialny za podpowiedzi (wiele wyszukiwarek modyfikuje słowa kluczowe podawane przez użytkownika), transformacje zapytania, oraz za fizyczne wykonanie zapytania, odczytanie listy właściwych trafień w kolejności określonej przez ranking, oraz dopasowanie zbioru odnośników reklamowych do kontekstu zapytania.


<< Poprzedni slajd | Spis treści | Następny slajd >>