ED-4.2-M13-1.0-Slajd3

Z Studia Informatyczne
Wersja z dnia 10:08, 29 sie 2006 autorstwa ALesniewska (dyskusja | edycje)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacjiPrzejdź do wyszukiwania

Ukryte indeksowanie semantyczne (1)

Ukryte indeksowanie semantyczne (1)


Idea techniki LSI polega na zastąpieniu zbioru słów kluczowych jednym terminem, będącym ważoną kombinacją wystąpień oryginalnych słów kluczowych. Okazuje się, że taki pojedynczy wektor, będący ważoną kombinacją wystąpień oryginalnych słów kluczowych, może lepiej odzwierciedlać semantyczną zawartość dokumentu. Dzięki temu, oryginalną macierz TFM o rozmiarze N x T można zastąpić macierzą o rozmiarze N x k, gdzie k << T (z niewielką utratą informacji). LSI odkrywa zależności pomiędzy słowami kluczowymi tworząc nowe „pseudo słowa” kluczowe dokładniej wyrażające semantyczną zawartość dokumentów.


<< Poprzedni slajd | Spis treści | Następny slajd >>