ED-4.2-m12-1.0-Slajd21

Z Studia Informatyczne
Wersja z dnia 10:21, 29 sie 2006 autorstwa ALesniewska (dyskusja | edycje)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacjiPrzejdź do wyszukiwania

Zapytania do bazy danych: wagi (1)

Zapytania do bazy danych: wagi (1)


Zauważmy, że podejście wektorowe do reprezentacji dokumentów tekstowych, w którym waga słowa przyjmuje wartość różną od 0, jeżeli słowo występuje gdziekolwiek w dokumencie, preferuje duże dokumenty (niekoniecznie relewantne). Wynika to z tego, że istnieje większe prawdopodobieństwo wystąpienia danego słowa z zapytania w dokumencie, który jest większy. Ponadto, różne słowa mają różną wartość dyskryminacyjną. Niektóre słowa występują prawie we wszystkich dokumentach, inne tylko w niektórych. Te drugie, siłą rzeczy, lepiej opisują dany dokument – mówimy, że posiadają większą silę dyskryminacyjną (lepiej rozróżniają dokumenty). Rozważany przez nas model macierzy TFM nadaje większą wagę tym słowom, które często występują danym dokumencie, bez uwzględniania ich siły dyskryminacyjnej. W literaturze zaproponowano schemat nadawania wag dokumentom, który uwzględnia sile dyskryminacyjną słów kluczowych. Schemat ten nosi nazwę TF-IDF, gdzie człon TF oznacza wagę TF - częstość słów( term frequency), natomiast człon IDF oznacza wagę IDF - odwrotną częstość dokumentu (inverse document frequency). Waga TF słowa ti w dokumencie di oznacza, podobnie jak poprzednio, liczbę wystąpień słowa ti w dokumencie di. Waga IDF słowa ti w dokumencie di jest zdefiniowana jako logarytm (dziesiętny lub naturalny) z wyrażenia N podzielone przez ni, gdzie N oznacza łączną liczbę dokumentów, natomiast ni oznacza liczbę dokumentów zawierających słowo ti.


<< Poprzedni slajd | Spis treści | Następny slajd >>