Pr-1st-1.1-m01-Slajd42

Z Studia Informatyczne
Wersja z dnia 11:20, 8 sie 2006 autorstwa Szopen (dyskusja | edycje)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacjiPrzejdź do wyszukiwania

Schemat architektury Google

Schemat architektury Google

Serwer URL - Pobiera lokalizatory URL z indeksu dokumentów i przesyła je do automatów skanujących sieć.

Roboty skanujące (ang. crawlers) - Pobierają dokumenty z listy i przesyłają na serwer składujący, zaimplementowane w języku python, zwykle działa ich kilka (3-4),utrzymują ok. 300 aktywnych połączeń jednocześnie, są w stanie pobrać ok. 100 dokumentów/ s.

serwer składujący (ang. Store server) - Kompresuje przychodzące dokumenty, przydziela im unikalne identyfikatory (docID) oraz zapisuje w repozytorium.

Indexer - Odczytuje dokumenty z repozytorium i analizuje je w poszukiwaniu słów, dla każdego słowa tworzona jest struktura tzw. “word hit”

  • “word hit” - przechowuje dane o:
    • lokalizacji sĹ‚owa w dokumencie
    • rozmiar czcionki( wzglÄ™dny)
    • wielkość liter
  • plain hits ( zawartość treĹ›ci dokumentu)
  • fancy hits (URL, anchor, metatagi, title)

URL Resolver - Analizuje pliki 'anchor text' zapisane przez indexer, względne lokalizatory URL przekształcane są w bezwzględne, tworzy bazę danych odnośników (pary elementów docID)

Algorytm PageRankTM - Internet oparty na demokratycznych zasadach, ranking strony pokazuje jej przydatność a nie jedynie zawartość słów kluczowych ,intuicyjne uzasadnienie - model “losowego” użytkownika sieci

Sorter - Tworzy tzw. indeks odwrócony (ang. inverted index) porządkujący trafienia 'hit' wg wordID, końcowy leksykon Program 'Dump Lexicon' indeksu odwrócony + indeks wygenerowany przez Indexer = leksykon użytkownika

Lexicon - Zorganizowany zarówno w postaci listy jak i tablicy laszującej, zawiera ok. 20 mln słów kluczowych.

Google Web Server - �ączenie wyników z opisem na podstawie serwerów dokumentów i formatowania wyników, sugestie (moduł sprawdzania poprawności pisowni), reklamy


<< Poprzedni slajd | Spis treści | Następny slajd >>