Teoria informacji/TI Wykład 8: Różnice pomiędzy wersjami
Nie podano opisu zmian |
Nie podano opisu zmian |
||
Linia 9: | Linia 9: | ||
'''Jakość reguły''' mierzymy przez | '''Jakość reguły''' mierzymy przez | ||
<center><math> Pr_C ( \Delta , A ) \stackrel{def}{=} p ( \Delta \circ B = A)</math></center> | |||
gdzie (A,B) są parą wejście-wyjście (zauważmy że B jest tu jednoznacznie określone, więc definicja jest spójna).}} | gdzie (A,B) są parą wejście-wyjście (zauważmy że B jest tu jednoznacznie określone, więc definicja jest spójna).}} | ||
Linia 15: | Linia 15: | ||
Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.: | Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.: | ||
<math>p ( \Delta \circ B = A) & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) = a ) | <center><math>\aligned | ||
p( \Delta \circ B = A) & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) = a ) \\ | |||
& = \sum_{b \in {\mathcal B}} p ( B = b \wedge A = \Delta (b) )\\ | |||
& = \sum_{b \in {\mathcal B}} p(A = \Delta (b)) \cdot (B = b | A = \Delta (b) )\\ | |||
& = \sum_{b \in {\mathcal B}} p(A = \Delta (b)) \cdot P (\Delta (b) \to b) | |||
\endaligned | |||
</math></center> | |||
Dualnie, '''prawdopodobieństwo błędu reguły <math>\Delta</math>''', definiujemy jako | Dualnie, '''prawdopodobieństwo błędu reguły <math>\Delta</math>''', definiujemy jako | ||
<center><math>\aligned | |||
<math>Pr_E ( \Delta , A ) | Pr_E ( \Delta , A ) & = 1 - Pr_C ( \Delta , A ) \\ | ||
& = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) \neq a )\\ | |||
& = \sum_{a \in {\mathcal A}} p (A = a) \cdot p (\Delta \circ B \neq a | A = a) | |||
\endaligned | |||
</math></center> | |||
Linia 35: | Linia 39: | ||
{{definicja|[Reguła idealnego obserwatora]|idealny_obs|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_o (b)=a</math>, takie że <math>p(a|b)</math> jest maksymalne. <math>p(a|b)</math> możemy wyznaczyć (znając rozkład A), ze wzoru: | {{definicja|[Reguła idealnego obserwatora]|idealny_obs|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_o (b)=a</math>, takie że <math>p(a|b)</math> jest maksymalne. <math>p(a|b)</math> możemy wyznaczyć (znając rozkład A), ze wzoru: | ||
<center><math> | |||
p(a|b) = \frac{ p(a \wedge b)}{p(b)} = | |||
\frac{ p (a \to b ) \cdot p(a)} | |||
{ \Sigma_{a' \in {\cal A}} p (a' \to b ) \cdot p (a')} | |||
</math></center>}} | |||
Z definicji wynika że | Z definicji wynika że | ||
<center><math>Pr_C ( \Delta_o , A ) \geq Pr_C ( \Delta , A )</math></center> | |||
dla dowolnej reguły decyzyjnej <math>\Delta</math>. | dla dowolnej reguły decyzyjnej <math>\Delta</math>. | ||
Linia 49: | Linia 57: | ||
Jeśli rozkład na A jest jednostajny (<math>p(a)=\frac{1}{\mathcal{A}}</math>), to reguła ta odpowiada regule <math>\Delta_o</math>. | Jeśli rozkład na A jest jednostajny (<math>p(a)=\frac{1}{\mathcal{A}}</math>), to reguła ta odpowiada regule <math>\Delta_o</math>. | ||
Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna | Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna. Jest jednak w pewnym sensie „globalnie optymalna”. Przedstawimy tutaj szkic dowodu: | ||
Niech <math>\mathcal{A}=\{a_1,\ldots,a_m\}</math>, i niech <math>\mathcal{P}</math> będzie zbiorem wszystkich rozkładów prawdopodobieństwa na <math>\mathcal{A}</math>, | Niech <math>\mathcal{A}=\{a_1,\ldots,a_m\}</math>, i niech <math>\mathcal{P}</math> będzie zbiorem wszystkich rozkładów prawdopodobieństwa na <math>\mathcal{A}</math>, | ||
<center><math>\mathcal{P}=\{ {\textbf p} : \sum_{a \in {\mathcal A}} {\textbf p}(a) = 1 \}</math></center> | |||
Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa <math>\textbf{p}</math>. Średnią (globalną) jakością reguły <math>\Delta</math> niech będzie | Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa <math>\textbf{p}</math>. Średnią (globalną) jakością reguły <math>\Delta</math> niech będzie | ||
<math>\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta , {\textbf p})\, d {\textbf p} | <center><math>\aligned | ||
= | \int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta , {\textbf p})\, d {\textbf p} | ||
& = \int_{{\textbf p} \in {\mathcal P}} \sum_{b \in {\mathcal B}} {\textbf p} (\Delta (b)) \cdot p (\Delta (b) \to b)\, d {\textbf p}\\ | |||
& = \sum_{b \in {\mathcal B}} p (\Delta (b) \to b) \cdot \int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta (b)) \, d {\textbf p} | |||
\endaligned | |||
</math></center> | |||
Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue), że <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (a)\, d {\textbf p}</math> nie zależy od wyboru a. Zatem <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta(b))\, d {\textbf p}</math> jest zawsze takie samo, i żeby zmaksymalizować <math>\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta , {\textbf p})\, d {\textbf p}</math>, musimy maksymalizować <math>\sum_{b \in {\mathcal B}} p (\Delta (b) \to b)</math>, co realizuje właśnie reguła maksymalnego podobieństwa. | Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue), że <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (a)\, d {\textbf p}</math> nie zależy od wyboru a. Zatem <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta(b))\, d {\textbf p}</math> jest zawsze takie samo, i żeby zmaksymalizować <math>\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta , {\textbf p})\, d {\textbf p}</math>, musimy maksymalizować <math>\sum_{b \in {\mathcal B}} p (\Delta (b) \to b)</math>, co realizuje właśnie reguła maksymalnego podobieństwa. | ||
Linia 69: | Linia 80: | ||
Przypomnijmy że zmienne losowe <math>X_1, X_2, \ldots, X_k</math> są niezależne jeśli | Przypomnijmy że zmienne losowe <math>X_1, X_2, \ldots, X_k</math> są niezależne jeśli | ||
<center><math> P(X_1=x_1 \wedge \ldots \wedge X_k = x_k ) = p (X_1 = x_1) \cdot \ldots \cdot p (X_k = x_k )</math></center> | |||
(warto zauważyć że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych | (warto zauważyć że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych). | ||
Rozszerzając naszą konwencję zapisową, będziemy skracać <math>p (X_1 = x_1 \wedge \ldots \wedge X_k = x_k )</math> do <math>p (x_1\ldots x_k ) </math>. | Rozszerzając naszą konwencję zapisową, będziemy skracać <math>p (X_1 = x_1 \wedge \ldots \wedge X_k = x_k )</math> do <math>p (x_1\ldots x_k ) </math>. | ||
{{lemat||wielokrotne|Jeśli zmienne losowe (X,Y) oraz (X',Y') są niezależne, to | {{lemat||wielokrotne|Jeśli zmienne losowe (X,Y) oraz (X',Y') są niezależne, to | ||
<center><math>p (Y = y \wedge Y' = y' | X = x \wedge X' = x')=p(Y = y | X = x) \cdot p (Y' = y' | X' = x')</math></center> | |||
o ile zachodzi zachodzi <math>p (X = x \wedge X' = x') > 0</math>.}} | o ile zachodzi zachodzi <math>p (X = x \wedge X' = x') > 0</math>.}} | ||
{{dowod||dw_wielokrotnie|Zauważmy po pierwsze że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'. | {{dowod||dw_wielokrotnie|Zauważmy po pierwsze że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'. | ||
<center><math>p (x \wedge x') = p \left( (x \wedge \bigvee {\mathcal Y}) \wedge (x' \wedge \bigvee {\mathcal Y}') \right) = \sum_{y,y'} p (x \wedge y) \cdot p(x' \wedge y') = p(x) \cdot p(x')</math></center> | |||
Zatem | Zatem | ||
<center><math>p (y \wedge y' | x \wedge x') = \frac{p(y \wedge y' \wedge x \wedge x')}{p(x \wedge x')} = \frac{p(y \wedge x) \cdot p(y' \wedge x')}{p(x) \cdot p(x')} = p (y |x) \cdot p (y'|x')</math></center>}} | |||
{{wniosek|[Niezależność symboli]|niez_symboli|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para <math>(A_i,B_i)</math> jest parą wejście-wyjście dla kanału <math>\Gamma</math>. Wtedy | {{wniosek|[Niezależność symboli]|niez_symboli|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para <math>(A_i,B_i)</math> jest parą wejście-wyjście dla kanału <math>\Gamma</math>. Wtedy | ||
<center><math>p( b_1 \ldots b_k | a_1 \ldots a_k ) = p( b_1| a_1) \cdot \ldots \cdot p( b_k | a_k )</math></center>}} | |||
{{dowod||dw_niez_symboli|Niezależność <math>(A_1,B_1), \ldots, (A_k,B_k)</math> implikuje że <math>(A_i,B_i)</math> jest niezależne od <math>(A_2,B_2), \ldots, (A_k,B_k)</math>. Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego Lematu.}} | {{dowod||dw_niez_symboli|Niezależność <math>(A_1,B_1), \ldots, (A_k,B_k)</math> implikuje że <math>(A_i,B_i)</math> jest niezależne od <math>(A_2,B_2), \ldots, (A_k,B_k)</math>. Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego Lematu.}} | ||
Linia 96: | Linia 108: | ||
{{kotwica|bezstanowosc|'''Bezstanowość'''}} | {{kotwica|bezstanowosc|'''Bezstanowość'''}} | ||
<center><math> p( b_k | a_1 \ldots a_k, b_1\ldots b_{k-1}) = p( b_k | a_k)</math></center> | |||
{{kotwica|brak feedbacku|'''Brak feedbacku'''}} | {{kotwica|brak feedbacku|'''Brak feedbacku'''}} | ||
<center><math>p( a_k | a_1 \ldots a_{k-1}, b_1\ldots b_{k-1}) = p( a_k | a_1 \ldots a_{k-1})</math></center> | |||
Wtedy [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana. | Wtedy [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana. | ||
Linia 105: | Linia 117: | ||
{{dowod||dw_bezstan|Przez indukcję możemy pokazać że | {{dowod||dw_bezstan|Przez indukcję możemy pokazać że | ||
<center><math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = p (b_1 | a_1) \cdot \ldots \cdot p (b_k | a_k) \cdot p (a_1 \wedge \ldots \wedge a_k) </math></center> | |||
jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek <math>k=1</math> jest trywialny. | jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek <math>k=1</math> jest trywialny. | ||
Krok indukcyjny uzyskujemy łącząc [[Teoria informacji/TI Wykład 8#bezstanowosc|bezstanowość]]: | Krok indukcyjny uzyskujemy łącząc [[Teoria informacji/TI Wykład 8#bezstanowosc|bezstanowość]]: | ||
<center><math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = | |||
p( b_k | a_k) \cdot p (a_1 \ldots a_k, b_1\ldots b_{k-1}) </math> | p( b_k | a_k) \cdot p (a_1 \ldots a_k, b_1\ldots b_{k-1}) </math></center> | ||
z [[Teoria informacji/TI Wykład 8#brak feedbacku|brakiem feedbacku]]: | z [[Teoria informacji/TI Wykład 8#brak feedbacku|brakiem feedbacku]]: | ||
<center><math> p (a_1 \ldots a_k, b_1\ldots b_{k-1}) = p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} ) \cdot \frac{p (a_1 \wedge \ldots \wedge a_k )}{p (a_1 \wedge \ldots \wedge a_{k-1})}</math></center> | |||
i włączając założenie indukcyjne: | i włączając założenie indukcyjne: | ||
<center><math>\frac{p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} )}{p (a_1 \wedge \ldots \wedge a_{k-1})} = p (b_1 | a_1) \cdot \ldots \cdot p (b_{k-1} | a_{k-1})</math></center> | |||
co kończy dowód.}} | co kończy dowód.}} |
Wersja z 13:13, 2 sie 2006
Reguły decyzyjne
Przypuśćmy że na wyjściu z kanału otrzymujemy sekwencję znaków . Znając mapowanie dla , czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?
W niektórych przypadkach jest to oczywiste. Przykładowo dla wiernego kanału odwracającego, wystarczy że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo dla wadliwej maszyny do pisania tekst wynikowy afu mógł pochodzić z tekstu zet, ale również z tekstu aft, i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).
Definicja [Reguła decyzyjna}
Jakość reguły mierzymy przez
Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.:
Dualnie, prawdopodobieństwo błędu reguły , definiujemy jako
Interesuje nas maksymalizacja , a więc minimalizacja .
Jeśli rozkład prawdopodobieństwa na A jest znany, możemy taką regułę jednoznacznie wyznaczyć:
Definicja [Reguła idealnego obserwatora]
Z definicji wynika że
dla dowolnej reguły decyzyjnej .
Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest
Definicja [Reguła maksymalnego podobieństwa]
Jeśli rozkład na A jest jednostajny (), to reguła ta odpowiada regule .
Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna. Jest jednak w pewnym sensie „globalnie optymalna”. Przedstawimy tutaj szkic dowodu:
Niech , i niech będzie zbiorem wszystkich rozkładów prawdopodobieństwa na ,
Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa . Średnią (globalną) jakością reguły niech będzie
Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue), że nie zależy od wyboru a. Zatem jest zawsze takie samo, i żeby zmaksymalizować , musimy maksymalizować , co realizuje właśnie reguła maksymalnego podobieństwa.
Wielokrotne używanie kanału
Przypuśćmy że wysyłamy przez kanał ciąg symboli . Jakie jest prawdopodobieństwo że wyjściowym ciągiem będzie . Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych .
Przypomnijmy że zmienne losowe są niezależne jeśli
(warto zauważyć że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych).
Rozszerzając naszą konwencję zapisową, będziemy skracać do .
Lemat
Dowód
Wniosek [Niezależność symboli]
Dowód

Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne, i w większości wypadków nie możemy go użyć. Okazuje się że można je zastąpić czymś znacznie słabszym:
Twierdzenie
Bezstanowość
Brak feedbacku
Wtedy niezależność symboli jest zachowana.
Dowód
jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek jest trywialny. Krok indukcyjny uzyskujemy łącząc bezstanowość:
i włączając założenie indukcyjne:

Komentarz Od tej pory domyślnie będziemy przyjmować że niezależność symboli jest zachowana za każdym razem gdy wielokrotnie używamy kanału BSC.