ED-4.2-M13-1.0-Slajd2

From Studia Informatyczne

Wyszukiwanie dokumentów

Wyszukiwanie dokumentów


Na zakończenie poprzedniego wykładu wspomnieliśmy o problemie wymiarowości macierzy wektorów dokumentów, który ma istotny wpływ na jakość i efektywność wyszukiwania dokumentów. Jak wspominaliśmy, macierz wektorów dokumentów charakteryzuje się bardzo dużą wymiarowością i bardzo rzadkimi wektorami dokumentów. Taką macierz trudno przetwarzać i w takiej macierzy trudno jest wykryć wszystkie synonimy. Z drugiej strony, mamy problem zapytań definiowanych w innej terminologii, aniżeli ta zastosowana do opisu dokumentów Pytanie, którym zakończyliśmy poprzedni wykład brzmiało: czy można zmniejszyć wymiarowość macierzy nie tracąc znacząco informacji?

Rozwiązaniem problemu wymiarowości wektorów dokumentów jest technika ukrytego indeksowania semantyczne (ang. latent semantic indexing - LSI). Technika ukrytego indeksowania semantyczne (LSI) ma na celu, ogólnie, ekstrahowanie ukrytej struktury semantycznej dokumentów (zamiast prostego zbioru słów kluczowych). Ukryte indeksowanie semantyczne aproksymuje oryginalną T-wymiarową przestrzeń wektorową kierunkami pierwszych k składowych głównych tej przestrzeni a tym samym redukuje nadmiarowość opisu dokumentów. Przykładowo: słowa bazy_danych, SQL, indeks, etc. są nadmiarowe w tym sensie, że większość dokumentów dotyczących problematyki baz danych zawiera często wszystkie trzy słowa. Zastąpienie tych trzech słów jednym terminem zredukuje nam wymiarowość macierzy TFM.


<< Poprzedni slajd | Spis treści | Następny slajd >>