Pr-1st-1.1-m01-Slajd42: Różnice pomiędzy wersjami
Nie podano opisu zmian |
Nie podano opisu zmian |
||
Linia 3: | Linia 3: | ||
[[Image:pr-1st-1.1-m01-Slajd42.png|Schemat architektury Google]] | [[Image:pr-1st-1.1-m01-Slajd42.png|Schemat architektury Google]] | ||
'''Serwer URL''' - Pobiera lokalizatory URL z indeksu | '''Serwer URL''' - Pobiera lokalizatory URL z indeksu dokumentów i przesyła je do automatów skanujących sieć. | ||
'''Roboty | '''Roboty skanujące''' (ang. ''crawlers'') - Pobierają dokumenty z listy i przesyłają na serwer składujący, zaimplementowane w języku python, zwykle działa ich kilka (3-4),utrzymują ok. 300 aktywnych połączeń jednocześnie, są w stanie pobrać ok. 100 dokumentów/ s. | ||
'''serwer | '''serwer składujący''' (ang. ''Store server'') - Kompresuje przychodzące dokumenty, przydziela im unikalne identyfikatory (docID) oraz zapisuje w repozytorium. | ||
'''Indexer''' - Odczytuje dokumenty z repozytorium i analizuje je w poszukiwaniu | '''Indexer''' - Odczytuje dokumenty z repozytorium i analizuje je w poszukiwaniu słów, dla każdego słowa tworzona jest struktura tzw. “word hit” | ||
* | *“word hit” - przechowuje dane o: | ||
** lokalizacji | ** lokalizacji słowa w dokumencie | ||
** rozmiar czcionki( | ** rozmiar czcionki( względny) | ||
** | ** wielkość liter | ||
*plain hits ( | *plain hits ( zawartość treści dokumentu) | ||
*fancy hits (URL, anchor, metatagi, title) | *fancy hits (URL, anchor, metatagi, title) | ||
'''URL Resolver''' - Analizuje pliki 'anchor text' zapisane przez indexer, | '''URL Resolver''' - Analizuje pliki 'anchor text' zapisane przez indexer, względne lokalizatory URL przekształcane są w bezwzględne, tworzy bazę danych odnośników (pary elementów docID) | ||
'''Algorytm PageRankTM''' - Internet oparty na demokratycznych zasadach, ranking strony pokazuje jej | '''Algorytm PageRankTM''' - Internet oparty na demokratycznych zasadach, ranking strony pokazuje jej przydatność a nie jedynie zawartość słów kluczowych ,intuicyjne uzasadnienie - model “losowego” użytkownika sieci | ||
'''Sorter''' - Tworzy tzw. indeks | '''Sorter''' - Tworzy tzw. indeks odwrócony (ang. ''inverted index'') porządkujący trafienia 'hit' wg wordID, końcowy leksykon Program 'Dump Lexicon' indeksu odwrócony + indeks wygenerowany przez Indexer = leksykon użytkownika | ||
'''Lexicon''' - Zorganizowany | '''Lexicon''' - Zorganizowany zarówno w postaci listy jak i tablicy laszującej, zawiera ok. 20 mln słów kluczowych. | ||
'''Google Web Server''' - | '''Google Web Server''' - Łączenie wyników z opisem na podstawie serwerów dokumentów i formatowania wyników, sugestie (moduł sprawdzania poprawności pisowni), reklamy | ||
[[pr-1st-1.1-m01-Slajd41 | << Poprzedni slajd]] | [[pr-1st-1.1-m01-toc|Spis | [[pr-1st-1.1-m01-Slajd41 | << Poprzedni slajd]] | [[pr-1st-1.1-m01-toc|Spis treści ]] | Następny slajd >> |
Aktualna wersja na dzień 11:24, 8 sie 2006
Schemat architektury Google
Serwer URL - Pobiera lokalizatory URL z indeksu dokumentów i przesyła je do automatów skanujących sieć.
Roboty skanujące (ang. crawlers) - Pobierają dokumenty z listy i przesyłają na serwer składujący, zaimplementowane w języku python, zwykle działa ich kilka (3-4),utrzymują ok. 300 aktywnych połączeń jednocześnie, są w stanie pobrać ok. 100 dokumentów/ s.
serwer składujący (ang. Store server) - Kompresuje przychodzące dokumenty, przydziela im unikalne identyfikatory (docID) oraz zapisuje w repozytorium.
Indexer - Odczytuje dokumenty z repozytorium i analizuje je w poszukiwaniu słów, dla każdego słowa tworzona jest struktura tzw. “word hit”
- “word hit” - przechowuje dane o:
- lokalizacji słowa w dokumencie
- rozmiar czcionki( względny)
- wielkość liter
- plain hits ( zawartość treści dokumentu)
- fancy hits (URL, anchor, metatagi, title)
URL Resolver - Analizuje pliki 'anchor text' zapisane przez indexer, względne lokalizatory URL przekształcane są w bezwzględne, tworzy bazę danych odnośników (pary elementów docID)
Algorytm PageRankTM - Internet oparty na demokratycznych zasadach, ranking strony pokazuje jej przydatność a nie jedynie zawartość słów kluczowych ,intuicyjne uzasadnienie - model “losowego” użytkownika sieci
Sorter - Tworzy tzw. indeks odwrócony (ang. inverted index) porządkujący trafienia 'hit' wg wordID, końcowy leksykon Program 'Dump Lexicon' indeksu odwrócony + indeks wygenerowany przez Indexer = leksykon użytkownika
Lexicon - Zorganizowany zarówno w postaci listy jak i tablicy laszującej, zawiera ok. 20 mln słów kluczowych.
Google Web Server - Łączenie wyników z opisem na podstawie serwerów dokumentów i formatowania wyników, sugestie (moduł sprawdzania poprawności pisowni), reklamy
<< Poprzedni slajd | Spis treści | Następny slajd >>