ED-4.2-M13-1.0-Slajd4

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Ukryte indeksowanie semantyczne (2)

Ukryte indeksowanie semantyczne (2)


Wracając do wspomnianego wcześniej przykładu ze słowami kluczowymi: bazy_danych, SQL, indeks, powiedzieliśmy, że są one nadmiarowe, jeżeli większość dokumentów dotyczących problematyki baz danych zawiera wszystkie trzy słowa. Innymi słowy, łącząc słowa baza_danych , SQL , indeks i tworząc nowe pseudo słowo, możemy rozważać to nowe słowo jako wyrażenie mówiące o tym, że zawartość dokumentu dotyczy problematyki bazodanowej. Jeżeli wszystkie dokumenty, zawsze, zawierają te trzy słowa, to zastąpienie tych słów jednym terminem nie powoduje utraty żadnej informacji. W takim przypadku, jest to zwykła konwersja z jednej postaci opisu dokumentów do innej równoważnej postaci. W przypadku, gdy jakiś dokument nie zawierał wszystkich tych słów, to możemy nowo utworzonemu pseudo-słowu nadać mniejszą wagę. Oczywiście, utracimy pewną część informacji o tym, którego słowa zabrakło w dokumencie, ale praktycznie, nie musi to rodzić żadnych konsekwencji w odniesieniu do wyszukiwania. Zauważmy bowiem, że jeżeli wektor zapytania zawiera słowo SQL, ale zbiór dokumentów dotyczących problematyki baz danych nie zawiera tego słowa, to mimo to LSI zwróci zbiór dokumentów dotyczących tej problematyki.


<< Poprzedni slajd | Spis treści | Następny slajd >>