ED-4.2-M13-1.0-Slajd5

Ukryte indeksowanie semantyczne (3)

Ogólny schemat ukrytego indeksowania semantycznego ma następującą postać. Dana jest oryginalna macierz TF, oznaczona przez M. Poszukujemy rozkładu macierzy M względem wartości szczególnych na macierze U, S, V. Następnie, wybieramy aproksymacje macierzy M, tj. wybieramy k wartości szczególnych, które będą określały macierz aproksymacji Mk. Wyboru macierzy aproksymacji, w szczególności, wyboru pierwszych k wartości szczególnych, dokonujemy w oparciu o analizę procentowej utraty informacji wynikającej z aproksymacji. Kolejnym krokiem schematu jest wybór struktury danych do przechowywania wektorów dokumentów (pliki odwrócone, pliki sygnaturowe, itp..). Jak już wcześniej wspominaliśmy, systemy IR nie przechowują bezpośrednio macierzy TF. Stąd, konieczność wyboru struktury danych, która pozwoli na przechowywanie dokumentów i wad tych dokumentów.

<< Poprzedni slajd | Spis treści | Następny slajd >>

ED-4.2-M13-1.0-Slajd5

Ukryte indeksowanie semantyczne (3)

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia