ED-4.2-m12-1.0-Slajd20
Zapytania i dokumenty
Jak już wspominaliśmy, przyjęcie określonej reprezentacji dokumentu tekstowego determinuje postać reprezentacji zapytania użytkownika. W reprezentacji wektorowej, zapytanie q można przedstawić w postaci wektora wag słów kluczowych: q = (q1, q2, ..., qT), gdzie q1, ..., qT oznaczają wagi poszczególnych słów kluczowych w zapytaniu q. Podobnie jak w przypadku reprezentacji tekstu, podobnie w odniesieniu do reprezentacji zapytania, zapytanie może mieć prostą postać boolowską lub tzw. postać pełną. W reprezentacji boolowskiej, wagi slow w wektorze zapytania mogą przyjmować tylko dwie wartości: 0 lub 1. Waga słowa ti w zapytaniu równa 1 oznacza, że słowo ti powinno wystąpić w poszukiwanym dokumencie; jeżeli słowo ti nie występuje w zapytaniu, waga słowa ti w zapytaniu jest równa 0. W pełnej reprezentacji, wagi słów w zapytaniu oznaczają ważność danego słowa w stosunku do innych słów. Przykładowo, zapytanie do bazy danych o dokumenty zawierające słowo t1 ma postać: q1= (1, 0, 0, 0, 0, 0); zapytanie o dokumenty zawierające słowo SQL (t2) ma postać: q2= (0, 1, 0, 0, 0, 0), natomiast zapytanie o dokumenty zawierające słowo „regresja” (t4) ma postać: q3= (0, 0, 0, 1, 0, 0). Stosując odległość kosinusową w celu dopasowania wspomnianych wyżej zapytań do zbioru dokumentów przedstawionych w tablicy TFM ze slajdu nr 15, otrzymujemy, jako najbliższe dokumenty, odpowiednio, dokumenty d2, d3 i d9.