ED-4.2-M13-1.0-Slajd3

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Ukryte indeksowanie semantyczne (1)

Ukryte indeksowanie semantyczne (1)


Idea techniki LSI polega na zastąpieniu zbioru słów kluczowych jednym terminem, będącym ważoną kombinacją wystąpień oryginalnych słów kluczowych. Okazuje się, że taki pojedynczy wektor, będący ważoną kombinacją wystąpień oryginalnych słów kluczowych, może lepiej odzwierciedlać semantyczną zawartość dokumentu. Dzięki temu, oryginalną macierz TFM o rozmiarze N x T można zastąpić macierzą o rozmiarze N x k, gdzie k << T (z niewielką utratą informacji). LSI odkrywa zależności pomiędzy słowami kluczowymi tworząc nowe „pseudo słowa” kluczowe dokładniej wyrażające semantyczną zawartość dokumentów.


<< Poprzedni slajd | Spis treści | Następny slajd >>