Pr-1st-1.1-m01-Slajd42: Różnice pomiędzy wersjami

Aktualna wersja na dzień 11:24, 8 sie 2006

Schemat architektury Google

Serwer URL - Pobiera lokalizatory URL z indeksu dokumentów i przesyła je do automatów skanujących sieć.

Roboty skanujące (ang. crawlers) - Pobierają dokumenty z listy i przesyłają na serwer składujący, zaimplementowane w języku python, zwykle działa ich kilka (3-4),utrzymują ok. 300 aktywnych połączeń jednocześnie, są w stanie pobrać ok. 100 dokumentów/ s.

serwer składujący (ang. Store server) - Kompresuje przychodzące dokumenty, przydziela im unikalne identyfikatory (docID) oraz zapisuje w repozytorium.

Indexer - Odczytuje dokumenty z repozytorium i analizuje je w poszukiwaniu słów, dla każdego słowa tworzona jest struktura tzw. “word hit”

“word hit” - przechowuje dane o:
- lokalizacji słowa w dokumencie
- rozmiar czcionki( względny)
- wielkość liter
plain hits ( zawartość treści dokumentu)
fancy hits (URL, anchor, metatagi, title)

URL Resolver - Analizuje pliki 'anchor text' zapisane przez indexer, względne lokalizatory URL przekształcane są w bezwzględne, tworzy bazę danych odnośników (pary elementów docID)

Algorytm PageRankTM - Internet oparty na demokratycznych zasadach, ranking strony pokazuje jej przydatność a nie jedynie zawartość słów kluczowych ,intuicyjne uzasadnienie - model “losowego” użytkownika sieci

Sorter - Tworzy tzw. indeks odwrócony (ang. inverted index) porządkujący trafienia 'hit' wg wordID, końcowy leksykon Program 'Dump Lexicon' indeksu odwrócony + indeks wygenerowany przez Indexer = leksykon użytkownika

Lexicon - Zorganizowany zarówno w postaci listy jak i tablicy laszującej, zawiera ok. 20 mln słów kluczowych.

Google Web Server - Łączenie wyników z opisem na podstawie serwerów dokumentów i formatowania wyników, sugestie (moduł sprawdzania poprawności pisowni), reklamy

<< Poprzedni slajd | Spis treści | Następny slajd >>

@@ Linia 3: / Linia 3: @@
 [[Image:pr-1st-1.1-m01-Slajd42.png|Schemat architektury Google]]
-'''Serwer URL''' - Pobiera lokalizatory URL z indeksu dokumentĂłw i przesyĹ‚a je do automatĂłw skanujÄ…cych sieÄ‡.
+'''Serwer URL''' - Pobiera lokalizatory URL z indeksu dokumentów i przesyła je do automatów skanujących sieć.
-'''Roboty skanujÄ…ce''' (ang. ''crawlers'') - PobierajÄ… dokumenty z listy i przesyĹ‚ajÄ… na serwer skĹ‚adujÄ…cy, zaimplementowane w jÄ™zyku python, zwykle dziaĹ‚a ich kilka (3-4),utrzymujÄ… ok. 300 aktywnych poĹ‚Ä…czeĹ„ jednoczeĹ›nie, sÄ… w stanie pobraÄ‡ ok. 100 dokumentĂłw/ s.
+'''Roboty skanujące''' (ang. ''crawlers'') - Pobierają dokumenty z listy i przesyłają na serwer składujący, zaimplementowane w języku python, zwykle działa ich kilka (3-4),utrzymują ok. 300 aktywnych połączeń jednocześnie, są w stanie pobrać ok. 100 dokumentów/ s.
-'''serwer skĹ‚adujÄ…cy''' (ang. ''Store server'') - Kompresuje przychodzÄ…ce dokumenty, przydziela im unikalne identyfikatory (docID) oraz zapisuje w repozytorium.
+'''serwer składujący''' (ang. ''Store server'') - Kompresuje przychodzące dokumenty, przydziela im unikalne identyfikatory (docID) oraz zapisuje w repozytorium.
-'''Indexer''' - Odczytuje dokumenty z repozytorium i analizuje je w poszukiwaniu sĹ‚Ăłw, dla kaĹĽdego sĹ‚owa tworzona jest struktura tzw. â€śword hitâ€ť
+'''Indexer''' - Odczytuje dokumenty z repozytorium i analizuje je w poszukiwaniu słów, dla każdego słowa tworzona jest struktura tzw. “word hit”
-*â€śword hitâ€ť  - przechowuje dane o:
+*“word hit”  - przechowuje dane o:
-**	lokalizacji sĹ‚owa w dokumencie
+**	lokalizacji słowa w dokumencie
-**	rozmiar czcionki( wzglÄ™dny)
+**	rozmiar czcionki( względny)
-**	wielkoĹ›Ä‡ liter
+**	wielkość liter
-*plain hits ( zawartoĹ›Ä‡ treĹ›ci dokumentu)
+*plain hits ( zawartość treści dokumentu)
 *fancy hits (URL, anchor, metatagi, title)
-'''URL Resolver''' - Analizuje pliki 'anchor text' zapisane przez indexer, wzglÄ™dne lokalizatory URL  przeksztaĹ‚cane sÄ… w bezwzglÄ™dne, tworzy bazÄ™ danych odnoĹ›nikĂłw (pary elementĂłw docID)
+'''URL Resolver''' - Analizuje pliki 'anchor text' zapisane przez indexer, względne lokalizatory URL  przekształcane są w bezwzględne, tworzy bazę danych odnośników (pary elementów docID)
-'''Algorytm PageRankTM''' - Internet oparty na demokratycznych zasadach, ranking strony pokazuje jej przydatnoĹ›Ä‡ a nie jedynie zawartoĹ›Ä‡ sĹ‚Ăłw kluczowych ,intuicyjne uzasadnienie - model â€ślosowegoâ€ť uĹĽytkownika sieci
+'''Algorytm PageRankTM''' - Internet oparty na demokratycznych zasadach, ranking strony pokazuje jej przydatność a nie jedynie zawartość słów kluczowych ,intuicyjne uzasadnienie - model “losowego” użytkownika sieci
-'''Sorter''' - Tworzy tzw. indeks odwrĂłcony (ang. ''inverted index'') porzÄ…dkujÄ…cy trafienia 'hit' wg  wordID, koĹ„cowy leksykon Program 'Dump Lexicon'  indeksu odwrĂłcony + indeks wygenerowany przez Indexer = leksykon uĹĽytkownika
+'''Sorter''' - Tworzy tzw. indeks odwrócony (ang. ''inverted index'') porządkujący trafienia 'hit' wg  wordID, końcowy leksykon Program 'Dump Lexicon'  indeksu odwrócony + indeks wygenerowany przez Indexer = leksykon użytkownika
-'''Lexicon''' - Zorganizowany zarĂłwno w postaci listy jak i tablicy laszujÄ…cej, zawiera ok. 20 mln sĹ‚Ăłw kluczowych.
+'''Lexicon''' - Zorganizowany zarówno w postaci listy jak i tablicy laszującej, zawiera ok. 20 mln słów kluczowych.
-'''Google Web Server''' - Ĺ�Ä…czenie wynikĂłw z opisem na podstawie serwerĂłw dokumentĂłw i formatowania wynikĂłw, sugestie (moduĹ‚ sprawdzania poprawnoĹ›ci pisowni), reklamy
+'''Google Web Server''' - Łączenie wyników z opisem na podstawie serwerów dokumentów i formatowania wyników, sugestie (moduł sprawdzania poprawności pisowni), reklamy
-[[pr-1st-1.1-m01-Slajd41 | << Poprzedni slajd]] | [[pr-1st-1.1-m01-toc|Spis treĹ›ci ]] | NastÄ™pny slajd >>
+[[pr-1st-1.1-m01-Slajd41 | << Poprzedni slajd]] | [[pr-1st-1.1-m01-toc|Spis treści ]] | Następny slajd >>

Pr-1st-1.1-m01-Slajd42: Różnice pomiędzy wersjami

Aktualna wersja na dzień 11:24, 8 sie 2006

Schemat architektury Google

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia