ED-4.2-m12-1.0-Slajd14: Różnice pomiędzy wersjami

Aktualna wersja na dzień 12:53, 31 sie 2006

Wyszukiwanie w oparciu o reprezentację wektorową

Alternatywnym podejściem do reprezentacji dokumentu tekstowego jest podejście oparte o reprezentację wektorową dokumentu. Podstawowa idea reprezentacji wektorowej sprowadza się do tego, że dowolny dokument jest reprezentowany w postaci wektora częstości występowania słów kluczowych. Stąd, zbiór N przechowywanych dokumentów tekstowych można przedstawić w postaci macierzy, o nazwie Term_Frequency_Matrix , której element TFM[di, ti] reprezentuje liczbę wystąpień słowa kluczowego ti w dokumencie di. Dowolny dokument di, 1< i< N, jest reprezentowany w postaci wektora częstości występowania słów kluczowych. Element TFM[di, ti] nazywamy wagą słowa ti w dokumencie di. W najprostszej reprezentacji boolowskiej, wagi słów w wektorze dokumentu mogą przyjmować tylko dwie wartości: 0 lub 1. Waga słowa ti w dokumencie di równa 1 oznacza, że słowo ti występuje w danym dokumencie di; jeżeli słowo ti nie występuje w dokumencie di, waga słowa ti w dokumencie di jest równa 0. W pełnej reprezentacji, wagi słów odpowiadają częstości ich występowania w dokumentach. Zbiór słów kluczowych wykorzystywanych w podejściu może być bardzo duży (ok. 50 000 słów). Kolejny slajd ilustruje ideę macierzy TFM.

<< Poprzedni slajd | Spis treści | Następny slajd >>

Wersja z 10:21, 29 sie 2006 pokaż źródło ALesniewska (dyskusja \| edycje) 1378 edycji Nie podano opisu zmian		Aktualna wersja na dzień 12:53, 31 sie 2006 pokaż źródło ALesniewska (dyskusja \| edycje) 1378 edycji Nie podano opisu zmian
Linia 4:		Linia 4:


	Alternatywnym podejściem do reprezentacji dokumentu tekstowego jest podejście oparte o reprezentację wektorową dokumentu. Podstawowa idea reprezentacji wektorowej sprowadza się do tego, że dowolny dokument jest reprezentowany w postaci wektora częstości występowania słów kluczowych. Stąd, zbiór N przechowywanych dokumentów tekstowych można przedstawić w postaci macierzy, o nazwie ''Term_Frequency_Matrix'' '','' której element TFM[di, ti] reprezentuje liczbę wystąpień słowa ''kluczowego'' ti w dokumencie di. Dowolny dokument di, 1< i< N, jest reprezentowany w postaci wektora częstości występowania słów kluczowych. Element TFM[di, ti] nazywamy wagą słowa ti w dokumencie di. W najprostszej reprezentacji boolowskiej, wagi ~~slow~~ w wektorze dokumentu mogą przyjmować tylko dwie wartości: 0 lub 1. Waga słowa ti w dokumencie di równa 1 oznacza, że słowo ti występuje w danym dokumencie di; jeżeli słowo ti nie występuje w dokumencie di, waga słowa ti w dokumencie di jest równa 0. W pełnej reprezentacji, wagi słów odpowiadają częstości ich występowania w dokumentach. Zbiór słów kluczowych wykorzystywanych w podejściu może być bardzo duży (ok. 50 000 słów). Kolejny slajd ilustruje ideę macierzy TFM.		Alternatywnym podejściem do reprezentacji dokumentu tekstowego jest podejście oparte o reprezentację wektorową dokumentu. Podstawowa idea reprezentacji wektorowej sprowadza się do tego, że dowolny dokument jest reprezentowany w postaci wektora częstości występowania słów kluczowych. Stąd, zbiór N przechowywanych dokumentów tekstowych można przedstawić w postaci macierzy, o nazwie ''Term_Frequency_Matrix'' '','' której element TFM[di, ti] reprezentuje liczbę wystąpień słowa ''kluczowego'' ti w dokumencie di. Dowolny dokument di, 1< i< N, jest reprezentowany w postaci wektora częstości występowania słów kluczowych. Element TFM[di, ti] nazywamy wagą słowa ti w dokumencie di. W najprostszej reprezentacji boolowskiej, wagi słów w wektorze dokumentu mogą przyjmować tylko dwie wartości: 0 lub 1. Waga słowa ti w dokumencie di równa 1 oznacza, że słowo ti występuje w danym dokumencie di; jeżeli słowo ti nie występuje w dokumencie di, waga słowa ti w dokumencie di jest równa 0. W pełnej reprezentacji, wagi słów odpowiadają częstości ich występowania w dokumentach. Zbiór słów kluczowych wykorzystywanych w podejściu może być bardzo duży (ok. 50 000 słów). Kolejny slajd ilustruje ideę macierzy TFM.


	[[ED-4.2-m12-1.0-Slajd13 \| << Poprzedni slajd]] \| [[ED-4.2-m12-1.0-toc\|Spis treści ]] \| [[ED-4.2-m12-1.0-Slajd15 \| Następny slajd >>]]		[[ED-4.2-m12-1.0-Slajd13 \| << Poprzedni slajd]] \| [[ED-4.2-m12-1.0-toc\|Spis treści ]] \| [[ED-4.2-m12-1.0-Slajd15 \| Następny slajd >>]]

ED-4.2-m12-1.0-Slajd14: Różnice pomiędzy wersjami

Aktualna wersja na dzień 12:53, 31 sie 2006

Wyszukiwanie w oparciu o reprezentację wektorową

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia