Teoria informacji/TI Wykład 8: Różnice pomiędzy wersjami
Nie podano opisu zmian |
Nie podano opisu zmian |
||
Linia 3: | Linia 3: | ||
Przypuśćmy że na wyjściu z kanału <math>\Gamma</math> otrzymujemy sekwencję znaków <math> b_{i_1}, \ldots , b_{i_k}</math>. Znając mapowanie <math>P(a \to b)</math> dla <math>a \in \mathcal{A}, b \in \mathcal{B}</math>, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem? | Przypuśćmy że na wyjściu z kanału <math>\Gamma</math> otrzymujemy sekwencję znaków <math> b_{i_1}, \ldots , b_{i_k}</math>. Znając mapowanie <math>P(a \to b)</math> dla <math>a \in \mathcal{A}, b \in \mathcal{B}</math>, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem? | ||
W niektórych przypadkach jest to oczywiste. Przykładowo dla wiernego kanału odwracającego | W niektórych przypadkach jest to oczywiste. Przykładowo dla [[Teoria informacji/TI Wykład 7#odwracajacy_kanal|wiernego kanału odwracającego]], wystarczy że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo dla [[Teoria informacji/TI Wykład 7#maszyna_kanal|wadliwej maszyny do pisania]] tekst wynikowy ''afu'' mógł pochodzić z tekstu ''zet'', ale również z tekstu ''aft'', i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b). | ||
Linia 93: | Linia 93: | ||
{{twierdzenie||bezstan|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> spełniają poniższe wymagania: | {{twierdzenie||bezstan|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> spełniają poniższe wymagania:}} | ||
'''Bezstanowość''' | {{kotwica|bezstanowosc|'''Bezstanowość'''}} | ||
:<math> p( b_k | a_1 \ldots a_k, b_1\ldots b_{k-1}) = p( b_k | a_k)</math> | :<math> p( b_k | a_1 \ldots a_k, b_1\ldots b_{k-1}) = p( b_k | a_k)</math> | ||
'''Brak feedbacku''' | {{kotwica|brak feedbacku|'''Brak feedbacku'''}} | ||
:<math>p( a_k | a_1 \ldots a_{k-1}, b_1\ldots b_{k-1}) = p( a_k | a_1 \ldots a_{k-1})</math> | :<math>p( a_k | a_1 \ldots a_{k-1}, b_1\ldots b_{k-1}) = p( a_k | a_1 \ldots a_{k-1})</math> | ||
Wtedy [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana. | Wtedy [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana. | ||
{{dowod||dw_bezstan|Przez indukcję możemy pokazać że | {{dowod||dw_bezstan|Przez indukcję możemy pokazać że | ||
:<math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = p (b_1 | a_1) \cdot \ldots \cdot p (b_k | a_k) \cdot p (a_1 \wedge \ldots \wedge a_k) </math> | :<math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = p (b_1 | a_1) \cdot \ldots \cdot p (b_k | a_k) \cdot p (a_1 \wedge \ldots \wedge a_k) </math> | ||
jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek <math>k=1</math> jest trywialny. Krok indukcyjny uzyskujemy | jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek <math>k=1</math> jest trywialny. | ||
Krok indukcyjny uzyskujemy łącząc [[Teoria informacji/TI Wykład 8#bezstanowosc|bezstanowość]]: | |||
:<math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = | :<math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = | ||
p( b_k | a_k) \cdot p (a_1 \ldots a_k, b_1\ldots b_{k-1}) </math> | p( b_k | a_k) \cdot p (a_1 \ldots a_k, b_1\ldots b_{k-1}) </math> | ||
z | z [[Teoria informacji/TI Wykład 8#brak feedbacku|brakiem feedbacku]]: | ||
:<math> p (a_1 \ldots a_k, b_1\ldots b_{k-1}) = p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} ) \cdot \frac{p (a_1 \wedge \ldots \wedge a_k )}{p (a_1 \wedge \ldots \wedge a_{k-1})}</math>. | :<math> p (a_1 \ldots a_k, b_1\ldots b_{k-1}) = p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} ) \cdot \frac{p (a_1 \wedge \ldots \wedge a_k )}{p (a_1 \wedge \ldots \wedge a_{k-1})}</math>. | ||
i włączając założenie indukcyjne: | |||
:<math>\frac{p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} )}{p (a_1 \wedge \ldots \wedge a_{k-1})} = p (b_1 | a_1) \cdot \ldots \cdot p (b_{k-1} | a_{k-1})</math> | :<math>\frac{p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} )}{p (a_1 \wedge \ldots \wedge a_{k-1})} = p (b_1 | a_1) \cdot \ldots \cdot p (b_{k-1} | a_{k-1})</math> | ||
Wersja z 08:35, 2 sie 2006
Reguły decyzyjne
Przypuśćmy że na wyjściu z kanału otrzymujemy sekwencję znaków . Znając mapowanie dla , czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?
W niektórych przypadkach jest to oczywiste. Przykładowo dla wiernego kanału odwracającego, wystarczy że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo dla wadliwej maszyny do pisania tekst wynikowy afu mógł pochodzić z tekstu zet, ale również z tekstu aft, i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).
Definicja [Reguła decyzyjna}
Jakość reguły mierzymy przez
Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.:
Parser nie mógł rozpoznać (błąd składni): {\displaystyle p ( \Delta \circ B = A) & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) = a ) }
Dualnie, prawdopodobieństwo błędu reguły , definiujemy jako
Interesuje nas maksymalizacja , a więc minimalizacja .
Jeśli rozkład prawdopodobieństwa na A jest znany, możemy taką regułę jednoznacznie wyznaczyć:
Definicja [Reguła idealnego obserwatora]
Z definicji wynika że
dla dowolnej reguły decyzyjnej .
Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest
Definicja [Reguła maksymalnego podobieństwa]
Jeśli rozkład na A jest jednostajny (), to reguła ta odpowiada regule .
Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna (TODO ćwiczenie). Jest jednak w pewnym sensie „globalnie optymalna”. Przedstawimy tutaj szkic dowodu:
Niech , i niech będzie zbiorem wszystkich rozkładów prawdopodobieństwa na ,
Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa . Średnią (globalną) jakością reguły niech będzie
Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue), że nie zależy od wyboru a. Zatem jest zawsze takie samo, i żeby zmaksymalizować , musimy maksymalizować , co realizuje właśnie reguła maksymalnego podobieństwa.
Wielokrotne używanie kanału
Przypuśćmy że wysyłamy przez kanał ciąg symboli . Jakie jest prawdopodobieństwo że wyjściowym ciągiem będzie . Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych .
Przypomnijmy że zmienne losowe są niezależne jeśli
(warto zauważyć że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych TODO ćwiczenie).
Rozszerzając naszą konwencję zapisową, będziemy skracać do .
Lemat
Dowód
Zatem
- }}
Wniosek [Niezależność symboli]
Dowód

Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne, i w większości wypadków nie możemy go użyć. Okazuje się że można je zastąpić czymś znacznie słabszym:
Twierdzenie
Bezstanowość
Brak feedbacku
Wtedy niezależność symboli jest zachowana.
Dowód
jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek jest trywialny. Krok indukcyjny uzyskujemy łącząc bezstanowość:
- .
i włączając założenie indukcyjne:

Komentarz Od tej pory domyślnie będziemy przyjmować że niezależność symboli jest zachowana za każdym razem gdy wielokrotnie używamy kanału BSC.