Pr-1st-1.1-m01-Slajd42: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Szopen (dyskusja | edycje)
Nie podano opisu zmian
 
Szopen (dyskusja | edycje)
Nie podano opisu zmian
 
Linia 3: Linia 3:
[[Image:pr-1st-1.1-m01-Slajd42.png|Schemat architektury Google]]
[[Image:pr-1st-1.1-m01-Slajd42.png|Schemat architektury Google]]


'''Serwer URL''' - Pobiera lokalizatory URL z indeksu dokumentów i przesyła je do automatów skanujących sieć.
'''Serwer URL''' - Pobiera lokalizatory URL z indeksu dokumentów i przesyła je do automatów skanujących sieć.


'''Roboty skanujące''' (ang. ''crawlers'') - Pobierają dokumenty z listy i przesyłają na serwer składujący, zaimplementowane w języku python, zwykle działa ich kilka (3-4),utrzymują ok. 300 aktywnych połączeń jednocześnie, są w stanie pobrać ok. 100 dokumentów/ s.
'''Roboty skanujące''' (ang. ''crawlers'') - Pobierają dokumenty z listy i przesyłają na serwer składujący, zaimplementowane w języku python, zwykle działa ich kilka (3-4),utrzymują ok. 300 aktywnych połączeń jednocześnie, w stanie pobrać ok. 100 dokumentów/ s.


'''serwer składujący''' (ang. ''Store server'') - Kompresuje przychodzące dokumenty, przydziela im unikalne identyfikatory (docID) oraz zapisuje w repozytorium.
'''serwer składujący''' (ang. ''Store server'') - Kompresuje przychodzące dokumenty, przydziela im unikalne identyfikatory (docID) oraz zapisuje w repozytorium.


'''Indexer''' - Odczytuje dokumenty z repozytorium i analizuje je w poszukiwaniu słów, dla każdego słowa tworzona jest struktura tzw. “word hit”
'''Indexer''' - Odczytuje dokumenty z repozytorium i analizuje je w poszukiwaniu słów, dla każdego słowa tworzona jest struktura tzw. “word hit”
*“word hit” - przechowuje dane o:  
*“word hit” - przechowuje dane o:  
** lokalizacji słowa w dokumencie
** lokalizacji słowa w dokumencie
** rozmiar czcionki( względny)
** rozmiar czcionki( względny)
** wielkość liter
** wielkość liter
*plain hits ( zawartość treści dokumentu)
*plain hits ( zawartość treści dokumentu)
*fancy hits (URL, anchor, metatagi, title)                               
*fancy hits (URL, anchor, metatagi, title)                               


'''URL Resolver''' - Analizuje pliki 'anchor text' zapisane przez indexer, wzglÄ™dne lokalizatory URL  przeksztaĹ‚cane sÄ… w bezwzglÄ™dne, tworzy bazÄ™ danych odnoĹ›nikĂłw (pary elementĂłw docID)
'''URL Resolver''' - Analizuje pliki 'anchor text' zapisane przez indexer, względne lokalizatory URL  przekształcane są w bezwzględne, tworzy bazę danych odnośników (pary elementów docID)


'''Algorytm PageRankTM''' - Internet oparty na demokratycznych zasadach, ranking strony pokazuje jej przydatność a nie jedynie zawartość słów kluczowych ,intuicyjne uzasadnienie - model “losowego” użytkownika sieci
'''Algorytm PageRankTM''' - Internet oparty na demokratycznych zasadach, ranking strony pokazuje jej przydatność a nie jedynie zawartość słów kluczowych ,intuicyjne uzasadnienie - model “losowego” użytkownika sieci


'''Sorter''' - Tworzy tzw. indeks odwrĂłcony (ang. ''inverted index'') porzÄ…dkujÄ…cy trafienia 'hit' wg  wordID, koĹ„cowy leksykon Program 'Dump Lexicon'  indeksu odwrĂłcony + indeks wygenerowany przez Indexer = leksykon uĹĽytkownika
'''Sorter''' - Tworzy tzw. indeks odwrócony (ang. ''inverted index'') porządkujący trafienia 'hit' wg  wordID, końcowy leksykon Program 'Dump Lexicon'  indeksu odwrócony + indeks wygenerowany przez Indexer = leksykon użytkownika


'''Lexicon''' - Zorganizowany zarówno w postaci listy jak i tablicy laszującej, zawiera ok. 20 mln słów kluczowych.
'''Lexicon''' - Zorganizowany zarówno w postaci listy jak i tablicy laszującej, zawiera ok. 20 mln słów kluczowych.


'''Google Web Server''' - �ączenie wyników z opisem na podstawie serwerów dokumentów i formatowania wyników, sugestie (moduł sprawdzania poprawności pisowni), reklamy
'''Google Web Server''' - Łączenie wyników z opisem na podstawie serwerów dokumentów i formatowania wyników, sugestie (moduł sprawdzania poprawności pisowni), reklamy




[[pr-1st-1.1-m01-Slajd41 | << Poprzedni slajd]] | [[pr-1st-1.1-m01-toc|Spis treści ]] | Następny slajd >>
[[pr-1st-1.1-m01-Slajd41 | << Poprzedni slajd]] | [[pr-1st-1.1-m01-toc|Spis treści ]] | Następny slajd >>

Aktualna wersja na dzień 11:24, 8 sie 2006

Schemat architektury Google

Schemat architektury Google

Serwer URL - Pobiera lokalizatory URL z indeksu dokumentów i przesyła je do automatów skanujących sieć.

Roboty skanujące (ang. crawlers) - Pobierają dokumenty z listy i przesyłają na serwer składujący, zaimplementowane w języku python, zwykle działa ich kilka (3-4),utrzymują ok. 300 aktywnych połączeń jednocześnie, są w stanie pobrać ok. 100 dokumentów/ s.

serwer składujący (ang. Store server) - Kompresuje przychodzące dokumenty, przydziela im unikalne identyfikatory (docID) oraz zapisuje w repozytorium.

Indexer - Odczytuje dokumenty z repozytorium i analizuje je w poszukiwaniu słów, dla każdego słowa tworzona jest struktura tzw. “word hit”

  • “word hit” - przechowuje dane o:
    • lokalizacji słowa w dokumencie
    • rozmiar czcionki( względny)
    • wielkość liter
  • plain hits ( zawartość treści dokumentu)
  • fancy hits (URL, anchor, metatagi, title)

URL Resolver - Analizuje pliki 'anchor text' zapisane przez indexer, względne lokalizatory URL przekształcane są w bezwzględne, tworzy bazę danych odnośników (pary elementów docID)

Algorytm PageRankTM - Internet oparty na demokratycznych zasadach, ranking strony pokazuje jej przydatność a nie jedynie zawartość słów kluczowych ,intuicyjne uzasadnienie - model “losowego” użytkownika sieci

Sorter - Tworzy tzw. indeks odwrócony (ang. inverted index) porządkujący trafienia 'hit' wg wordID, końcowy leksykon Program 'Dump Lexicon' indeksu odwrócony + indeks wygenerowany przez Indexer = leksykon użytkownika

Lexicon - Zorganizowany zarówno w postaci listy jak i tablicy laszującej, zawiera ok. 20 mln słów kluczowych.

Google Web Server - Łączenie wyników z opisem na podstawie serwerów dokumentów i formatowania wyników, sugestie (moduł sprawdzania poprawności pisowni), reklamy


<< Poprzedni slajd | Spis treści | Następny slajd >>