ED-4.2-m12-1.0-Slajd15: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
ALesniewska (dyskusja | edycje)
Nie podano opisu zmian
 
ALesniewska (dyskusja | edycje)
Nie podano opisu zmian
 
Linia 4: Linia 4:




Niniejszy slajd przedstawia macierz TFM. Danych jest 10 dokumentów: d1, d2, ..., d10, oraz 6 słów kluczowych t1, t2, ..., t6. Znaczenie słów kluczowych jest następujące: t1 –bazy_danych, t2 – SQL, t3 – indeks, t4 – regresja, t5 – wiarygodność, oraz t6 – liniowa. Element {di, tj] macierzy reprezentuje częstość występowania słowa tj w dokumencie di. Przykładowo, TFM{d1, t2] = 21 oznacza, że słowo t2 = „SQL” wystąpiło 21 razy w dokumencie d1. Łatwo zauważyć, że reprezentacja dokumentu w postaci T-wymiarowego  
Niniejszy slajd przedstawia macierz TFM. Danych jest 10 dokumentów: d1, d2, ..., d10, oraz 6 słów kluczowych t1, t2, ..., t6. Znaczenie słów kluczowych jest następujące: t1 – bazy_danych, t2 – SQL, t3 – indeks, t4 – regresja, t5 – wiarygodność, oraz t6 – liniowa. Element [di, tj] macierzy reprezentuje częstość występowania słowa tj w dokumencie di. Przykładowo, TFM[d1, t2] = 21 oznacza, że słowo t2 = „SQL” wystąpiło 21 razy w dokumencie d1. Łatwo zauważyć, że reprezentacja dokumentu w postaci T-wymiarowego wektora słów powoduje utratę informacji o strukturze zdania jak i kolejności występowania słów w zdaniu. Klasycznym przykładem ilustrującym utratę semantyki zdania w wyniku transformacji zdania do reprezentacji wektorowej są dwa zdania: „John loves Mary” i „Mary loves John”. Łatwo zauważyć, że oba zdania posiadają identyczną reprezentacje wektorową, lecz kompletnie różne znaczenie semantyczne.
 
wektora słów powoduje utratę informacji o strukturze zdania jak i kolejności występowania słów w zdaniu. Klasycznym przykładem ilustrującym utratę semantyki zdania w wyniku transformacji zdania do reprezentacji wektorowej są dwa zdania: „John loves Mary” i „Mary loves John”. Łatwo zauważyć, że oba zdania posiadają identyczną reprezentacje wektorową, lecz kompletnie różne znaczenie semantyczne.




[[ED-4.2-m12-1.0-Slajd14 | << Poprzedni slajd]] | [[ED-4.2-m12-1.0-toc|Spis treści ]] | [[ED-4.2-m12-1.0-Slajd16 | Następny slajd >>]]
[[ED-4.2-m12-1.0-Slajd14 | << Poprzedni slajd]] | [[ED-4.2-m12-1.0-toc|Spis treści ]] | [[ED-4.2-m12-1.0-Slajd16 | Następny slajd >>]]

Aktualna wersja na dzień 12:53, 31 sie 2006

Macierz TFM (1)

Macierz TFM (1)


Niniejszy slajd przedstawia macierz TFM. Danych jest 10 dokumentów: d1, d2, ..., d10, oraz 6 słów kluczowych t1, t2, ..., t6. Znaczenie słów kluczowych jest następujące: t1 – bazy_danych, t2 – SQL, t3 – indeks, t4 – regresja, t5 – wiarygodność, oraz t6 – liniowa. Element [di, tj] macierzy reprezentuje częstość występowania słowa tj w dokumencie di. Przykładowo, TFM[d1, t2] = 21 oznacza, że słowo t2 = „SQL” wystąpiło 21 razy w dokumencie d1. Łatwo zauważyć, że reprezentacja dokumentu w postaci T-wymiarowego wektora słów powoduje utratę informacji o strukturze zdania jak i kolejności występowania słów w zdaniu. Klasycznym przykładem ilustrującym utratę semantyki zdania w wyniku transformacji zdania do reprezentacji wektorowej są dwa zdania: „John loves Mary” i „Mary loves John”. Łatwo zauważyć, że oba zdania posiadają identyczną reprezentacje wektorową, lecz kompletnie różne znaczenie semantyczne.


<< Poprzedni slajd | Spis treści | Następny slajd >>