ZAWWW-2st1.2-w13.tresc-1.0-Slajd28
Topic-Specific PageRank
Ciekawym rozwiązaniem jest zaproponowany przez T.Haveliwalę algorytm Topic-Specific PageRank. Jest to prosta modyfikacja oryginalnego algorytmu PageRank, polegająca na wprowadzeniu do algorytmu zbioru kontekstów. Konteksty odpowiadają grupom tematycznym. Każda grupa tematyczna posiada swój zbiór źródłowy dokumentów S. W trakcie losowego spaceru, jeśli surfer decyduje się na skok do innej części sieci, skok musi nastąpić do jednego z dokumentów ze zbioru S. W ten sposób dokumenty źródłowe uzyskują dużo wyższy ranking, a co za tym idzie, wszystkie dokumenty położone stosunkowo blisko dokumentów źródłowych również pną się do góry w rankingu. Zbiory dokumentów źródłowych mogą być tworzone ręcznie lub automatycznie, np. przy użyciu dostępnych katalogów (przykładem publicznego katalogu tematycznego jest Open Directory). Cała reszta algorytmu Topic-Specific PageRank jest identyczna jak w przypadku oryginalnego algorytmu PageRank, jedyna różnica to sformułowanie elementów macierzy stochastycznej: wprowadza się do niej preferencję skoku do dokumentów źródłowych, jak pokazano na slajdzie. Przeprowadzone eksperymenty sugerują, że ranking zwrócony przez Topic-Specific PageRank jest wyższej jakości niż ranking zwracany przez tradycyjny PageRank. W przypadku algorytmu Topic-Specific PageRank największym wyzwaniem jest skalowalność algorytmu względem liczby obsługiwanych grup tematycznych. I w tej dziedzinie pojawiły się niedawno ciekawe rozwiązania, warto np. wspomnieć o możliwości redukcji złożoności obliczeniowej przez zastąpienie wyliczania wektorów własnych wyliczaniem wektorów częściowych.