ZAWWW-2st1.2-w13.tresc-1.0-Slajd30

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Hubs &Authorities – definicja ważności

Hubs &Authorities – definicja ważności


Definicja typów dokumentów w algorytmie H&A ma charakter rekurencyjny (podobnie jak definicja ważnego dokumentu w algorytmie PageRank). Koncentrator to dokument zawierający odnośniki do wielu autorytatywnych dokumentów, natomiast dokument autorytatywny to dokument, do którego odnośniki posiada wiele koncentratorów. Algorytm H&A jest realizowany w trzech fazach: fazie konstrukcji zbioru początkowego, fazie ekspansji oraz fazie propagacji wag. Do konstrukcji zbioru początkowego wykorzystuje się indeks wyszukiwarki, który, w oparciu o zbiór słów kluczowych, znajduje początkowy zbiór ważnych dokumentów (zarówno autorytatywnych jak i koncentratorów). Następnie, w fazie ekspansji, początkowy zbiór dokumentów jest rozszerzony do tzw. zbioru bazowego (ang. base set ) poprzez włączenie do zbioru początkowego wszystkich dokumentów, do których dokumenty zbioru początkowego zawierają odnośniki, oraz dokumentów, które zawierają odnośniki do dokumentów ze zbioru początkowego. Warunkiem stopu procesu ekspansji jest osiągnięcie określonej liczby dokumentów (zazwyczaj kilka tysięcy). Wreszcie, w fazie propagacji wag moduł propagacji oblicza iteracyjnie wartości oszacowania prawdopodobieństwa, że dany dokument jest autorytatywny lub że jest koncentratorem. Odnośniki pomiędzy dokumentami z tej samej domeny, najczęściej, służą do celów nawigacyjnych, stąd, odnośniki te są wyłączane z analizy.


<< Poprzedni slajd | Spis treści | Następny slajd >>