Teoria informacji/TI Wykład 8: Różnice pomiędzy wersjami
Nie podano opisu zmian |
Nie podano opisu zmian |
||
Linia 1: | Linia 1: | ||
===Reguły decyzyjne=== | ===Reguły decyzyjne=== | ||
Przypuśćmy że na wyjściu z kanału <math>\Gamma</math> otrzymujemy sekwencję znaków <math> b_{i_1}, \ldots , b_{i_k}</math>. Znając mapowanie <math>P(a \to b)</math> dla <math>a \in \mathcal{A}, b \in \mathcal{B}</math>, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem? | Przypuśćmy, że na wyjściu z kanału <math>\Gamma</math> otrzymujemy sekwencję znaków <math> b_{i_1}, \ldots , b_{i_k}</math>. Znając mapowanie <math>P(a \to b)</math> dla <math>a \in \mathcal{A}, b \in \mathcal{B}</math>, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem? | ||
W niektórych przypadkach jest to oczywiste. Przykładowo dla [[Teoria informacji/TI Wykład 7#odwracajacy_kanal|wiernego kanału odwracającego]], | W niektórych przypadkach jest to oczywiste. Przykładowo dla [[Teoria informacji/TI Wykład 7#odwracajacy_kanal|wiernego kanału odwracającego]] wystarczy, że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo, dla [[Teoria informacji/TI Wykład 7#maszyna_kanal|wadliwej maszyny do pisania]] tekst wynikowy ''afu'' mógł pochodzić z tekstu ''zet'', ale również z tekstu ''aft'' i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia, które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b). | ||
Linia 38: | Linia 38: | ||
{{definicja|[Reguła idealnego obserwatora]|idealny_obs|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_o (b)=a</math>, takie że <math>p(a|b)</math> jest maksymalne. <math>p(a|b)</math> możemy wyznaczyć (znając rozkład A) | {{definicja|[Reguła idealnego obserwatora]|idealny_obs|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_o (b)=a</math>, takie że <math>p(a|b)</math> jest maksymalne. <math>p(a|b)</math> możemy wyznaczyć (znając rozkład A) ze wzoru: | ||
<center><math> | <center><math> | ||
p(a|b) = \frac{ p(a \wedge b)}{p(b)} = | p(a|b) = \frac{ p(a \wedge b)}{p(b)} = | ||
Linia 45: | Linia 45: | ||
</math></center>}} | </math></center>}} | ||
Z definicji wynika że | Z definicji wynika, że | ||
<center><math>Pr_C ( \Delta_o , A ) \geq Pr_C ( \Delta , A )</math></center> | <center><math>Pr_C ( \Delta_o , A ) \geq Pr_C ( \Delta , A )</math></center> | ||
dla dowolnej reguły decyzyjnej <math>\Delta</math>. | dla dowolnej reguły decyzyjnej <math>\Delta</math>. | ||
Linia 52: | Linia 52: | ||
Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest | Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest | ||
{{definicja|[Reguła maksymalnego podobieństwa]|maks_podob|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_{max}(b)=a</math> | {{definicja|[Reguła maksymalnego podobieństwa]|maks_podob|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_{max}(b)=a</math> w taki sposób, że <math>p(a \to b)=p(b|a)</math> jest maksymalne.}} | ||
Linia 72: | Linia 72: | ||
Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue), że <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (a)\, d {\textbf p}</math> nie zależy od wyboru a. Zatem <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta(b))\, d {\textbf p}</math> jest zawsze takie samo, i żeby zmaksymalizować <math>\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta , {\textbf p})\, d {\textbf p}</math>, musimy maksymalizować <math>\sum_{b \in {\mathcal B}} p (\Delta (b) \to b)</math>, co realizuje właśnie reguła maksymalnego podobieństwa. | Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue'a), że <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (a)\, d {\textbf p}</math> nie zależy od wyboru a. Zatem <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta(b))\, d {\textbf p}</math> jest zawsze takie samo, i żeby zmaksymalizować <math>\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta , {\textbf p})\, d {\textbf p}</math>, musimy maksymalizować <math>\sum_{b \in {\mathcal B}} p (\Delta (b) \to b)</math>, co realizuje właśnie reguła maksymalnego podobieństwa. | ||
===Wielokrotne używanie kanału=== | ===Wielokrotne używanie kanału=== | ||
Przypuśćmy że wysyłamy przez kanał ciąg symboli <math>a_1, a_2, \ldots, a_k</math>. Jakie jest prawdopodobieństwo że wyjściowym ciągiem będzie <math>b_1, b_2, \ldots, b_k</math> | Przypuśćmy, że wysyłamy przez kanał ciąg symboli <math>a_1, a_2, \ldots, a_k</math>. Jakie jest prawdopodobieństwo, że wyjściowym ciągiem będzie <math>b_1, b_2, \ldots, b_k</math>? Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych <math>P(a \to b)</math>. | ||
Przypomnijmy że zmienne losowe <math>X_1, X_2, \ldots, X_k</math> są niezależne jeśli | Przypomnijmy, że zmienne losowe <math>X_1, X_2, \ldots, X_k</math> są niezależne, jeśli | ||
<center><math> P(X_1=x_1 \wedge \ldots \wedge X_k = x_k ) = p (X_1 = x_1) \cdot \ldots \cdot p (X_k = x_k )</math></center> | <center><math> P(X_1=x_1 \wedge \ldots \wedge X_k = x_k ) = p (X_1 = x_1) \cdot \ldots \cdot p (X_k = x_k )</math></center> | ||
(warto zauważyć że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych). | (warto zauważyć, że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych). | ||
Rozszerzając naszą konwencję zapisową, będziemy skracać <math>p (X_1 = x_1 \wedge \ldots \wedge X_k = x_k )</math> do <math>p (x_1\ldots x_k ) </math>. | Rozszerzając naszą konwencję zapisową, będziemy skracać <math>p (X_1 = x_1 \wedge \ldots \wedge X_k = x_k )</math> do <math>p (x_1\ldots x_k ) </math>. | ||
Linia 90: | Linia 90: | ||
{{dowod||dw_wielokrotnie| | {{dowod||dw_wielokrotnie|Po pierwsze, zauważmy, że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'. | ||
<center><math>p (x \wedge x') = p \left( (x \wedge \bigvee {\mathcal Y}) \wedge (x' \wedge \bigvee {\mathcal Y}') \right) = \sum_{y,y'} p (x \wedge y) \cdot p(x' \wedge y') = p(x) \cdot p(x')</math></center> | <center><math>p (x \wedge x') = p \left( (x \wedge \bigvee {\mathcal Y}) \wedge (x' \wedge \bigvee {\mathcal Y}') \right) = \sum_{y,y'} p (x \wedge y) \cdot p(x' \wedge y') = p(x) \cdot p(x')</math></center> | ||
Linia 97: | Linia 97: | ||
{{wniosek|[Niezależność symboli]|niez_symboli|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para <math>(A_i,B_i)</math> jest parą wejście-wyjście dla kanału <math>\Gamma</math>. Wtedy | {{wniosek|[Niezależność symboli]|niez_symboli|Załóżmy, że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para <math>(A_i,B_i)</math> jest parą wejście-wyjście dla kanału <math>\Gamma</math>. Wtedy | ||
<center><math>p( b_1 \ldots b_k | a_1 \ldots a_k ) = p( b_1| a_1) \cdot \ldots \cdot p( b_k | a_k )</math></center>}} | <center><math>p( b_1 \ldots b_k | a_1 \ldots a_k ) = p( b_1| a_1) \cdot \ldots \cdot p( b_k | a_k )</math></center>}} | ||
{{dowod||dw_niez_symboli|Niezależność <math>(A_1,B_1), \ldots, (A_k,B_k)</math> implikuje że <math>(A_i,B_i)</math> jest niezależne od <math>(A_2,B_2), \ldots, (A_k,B_k)</math>. Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego | {{dowod||dw_niez_symboli|Niezależność <math>(A_1,B_1), \ldots, (A_k,B_k)</math> implikuje, że <math>(A_i,B_i)</math> jest niezależne od <math>(A_2,B_2), \ldots, (A_k,B_k)</math>. Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego lematu.}} | ||
Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne | Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne i w większości wypadków nie możemy go użyć. Okazuje się, że można je zastąpić czymś znacznie słabszym: | ||
{{twierdzenie||bezstan|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> spełniają poniższe wymagania:}} | {{twierdzenie||bezstan|Załóżmy, że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> spełniają poniższe wymagania:}} | ||
{{kotwica|bezstanowosc|'''Bezstanowość'''}} | {{kotwica|bezstanowosc|'''Bezstanowość'''}} | ||
Linia 116: | Linia 116: | ||
{{dowod||dw_bezstan|Przez indukcję możemy pokazać że | {{dowod||dw_bezstan|Przez indukcję możemy pokazać, że | ||
<center><math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = p (b_1 | a_1) \cdot \ldots \cdot p (b_k | a_k) \cdot p (a_1 \wedge \ldots \wedge a_k) </math></center> | <center><math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = p (b_1 | a_1) \cdot \ldots \cdot p (b_k | a_k) \cdot p (a_1 \wedge \ldots \wedge a_k) </math></center> | ||
Linia 132: | Linia 132: | ||
'''Komentarz''' Od tej pory domyślnie będziemy przyjmować że [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana za każdym razem gdy wielokrotnie używamy kanału BSC. | '''Komentarz''' Od tej pory domyślnie będziemy przyjmować, że [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana za każdym razem, gdy wielokrotnie używamy kanału BSC. |
Wersja z 09:08, 20 wrz 2006
Reguły decyzyjne
Przypuśćmy, że na wyjściu z kanału otrzymujemy sekwencję znaków . Znając mapowanie dla , czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?
W niektórych przypadkach jest to oczywiste. Przykładowo dla wiernego kanału odwracającego wystarczy, że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo, dla wadliwej maszyny do pisania tekst wynikowy afu mógł pochodzić z tekstu zet, ale również z tekstu aft i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia, które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).
Definicja [Reguła decyzyjna}
Jakość reguły mierzymy przez
Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.:
Dualnie, prawdopodobieństwo błędu reguły , definiujemy jako
Interesuje nas maksymalizacja , a więc minimalizacja .
Jeśli rozkład prawdopodobieństwa na A jest znany, możemy taką regułę jednoznacznie wyznaczyć:
Definicja [Reguła idealnego obserwatora]
Z definicji wynika, że
dla dowolnej reguły decyzyjnej .
Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest
Definicja [Reguła maksymalnego podobieństwa]
Jeśli rozkład na A jest jednostajny (), to reguła ta odpowiada regule .
Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna. Jest jednak w pewnym sensie „globalnie optymalna”. Przedstawimy tutaj szkic dowodu:
Niech , i niech będzie zbiorem wszystkich rozkładów prawdopodobieństwa na ,
Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa . Średnią (globalną) jakością reguły niech będzie
Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue'a), że nie zależy od wyboru a. Zatem jest zawsze takie samo, i żeby zmaksymalizować , musimy maksymalizować , co realizuje właśnie reguła maksymalnego podobieństwa.
Wielokrotne używanie kanału
Przypuśćmy, że wysyłamy przez kanał ciąg symboli . Jakie jest prawdopodobieństwo, że wyjściowym ciągiem będzie ? Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych .
Przypomnijmy, że zmienne losowe są niezależne, jeśli
(warto zauważyć, że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych).
Rozszerzając naszą konwencję zapisową, będziemy skracać do .
Lemat
Dowód
Wniosek [Niezależność symboli]
Dowód

Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne i w większości wypadków nie możemy go użyć. Okazuje się, że można je zastąpić czymś znacznie słabszym:
Twierdzenie
Bezstanowość
Brak feedbacku
Wtedy niezależność symboli jest zachowana.
Dowód
jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek jest trywialny. Krok indukcyjny uzyskujemy łącząc bezstanowość:
i włączając założenie indukcyjne:

Komentarz Od tej pory domyślnie będziemy przyjmować, że niezależność symboli jest zachowana za każdym razem, gdy wielokrotnie używamy kanału BSC.