ED-4.2-M13-1.0-Slajd5

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Ukryte indeksowanie semantyczne (3)

Ukryte indeksowanie semantyczne (3)


Ogólny schemat ukrytego indeksowania semantycznego ma następującą postać. Dana jest oryginalna macierz TF, oznaczona przez M. Poszukujemy rozkładu macierzy M względem wartości szczególnych na macierze U, S, V. Następnie, wybieramy aproksymacje macierzy M, tj. wybieramy k wartości szczególnych, które będą określały macierz aproksymacji Mk. Wyboru macierzy aproksymacji, w szczególności, wyboru pierwszych k wartości szczególnych, dokonujemy w oparciu o analizę procentowej utraty informacji wynikającej z aproksymacji. Kolejnym krokiem schematu jest wybór struktury danych do przechowywania wektorów dokumentów (pliki odwrócone, pliki sygnaturowe, itp..). Jak już wcześniej wspominaliśmy, systemy IR nie przechowują bezpośrednio macierzy TF. Stąd, konieczność wyboru struktury danych, która pozwoli na przechowywanie dokumentów i wad tych dokumentów.


<< Poprzedni slajd | Spis treści | Następny slajd >>