Teoria informacji/TI Wykład 8: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Stromy (dyskusja | edycje)
Nie podano opisu zmian
m Zastępowanie tekstu – „<math> ” na „<math>”
 
(Nie pokazano 4 wersji utworzonych przez 2 użytkowników)
Linia 1: Linia 1:
===Reguły decyzyjne===
===Reguły decyzyjne===


Przypuśćmy że na wyjściu z kanału <math>\Gamma</math> otrzymujemy sekwencję znaków <math> b_{i_1}, \ldots , b_{i_k}</math>. Znając mapowanie <math>P(a \to b)</math> dla <math>a \in \mathcal{A}, b \in \mathcal{B}</math>, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?
Przypuśćmy, że na wyjściu z kanału <math>\Gamma</math> otrzymujemy sekwencję znaków <math>b_{i_1}, \ldots , b_{i_k}</math>. Znając mapowanie <math>P(a \to b)</math> dla <math>a \in \mathcal{A}, b \in \mathcal{B}</math>, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?


W niektórych przypadkach jest to oczywiste. Przykładowo dla [[Teoria informacji/TI Wykład 7#odwracajacy_kanal|wiernego kanału odwracającego]], wystarczy że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo dla [[Teoria informacji/TI Wykład 7#maszyna_kanal|wadliwej maszyny do pisania]] tekst wynikowy ''afu'' mógł pochodzić z tekstu ''zet'', ale również z tekstu ''aft'', i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).  
W niektórych przypadkach jest to oczywiste. Przykładowo dla [[Teoria informacji/TI Wykład 7#odwracajacy_kanal|wiernego kanału odwracającego]] wystarczy, że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo, dla [[Teoria informacji/TI Wykład 7#maszyna_kanal|wadliwej maszyny do pisania]] tekst wynikowy ''afu'' mógł pochodzić z tekstu ''zet'', ale również z tekstu ''aft'' i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia, które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).  




Linia 9: Linia 9:


'''Jakość reguły''' mierzymy przez
'''Jakość reguły''' mierzymy przez
<center><math> Pr_C ( \Delta , A ) \stackrel{def}{=} p ( \Delta \circ B = A)</math></center>
<center><math>Pr_C ( \Delta , A ) \stackrel{def}{=} p ( \Delta \circ B = A)</math></center>


gdzie (A,B) są parą wejście-wyjście (zauważmy że B jest tu jednoznacznie określone, więc definicja jest spójna).}}
gdzie (A,B) są parą wejście-wyjście (zauważmy że B jest tu jednoznacznie określone, więc definicja jest spójna).}}
Linia 15: Linia 15:
Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.:
Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.:


<center><math>\aligned
<center><math>\begin{align}
p( \Delta \circ B = A) & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) = a ) \\  
p( \Delta \circ B = A) & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) = a ) \\  
& = \sum_{b \in {\mathcal B}} p ( B = b \wedge A = \Delta (b) )\\
& = \sum_{b \in {\mathcal B}} p ( B = b \wedge A = \Delta (b) )\\
& = \sum_{b \in {\mathcal B}}  p(A = \Delta (b)) \cdot (B = b | A = \Delta (b) )\\
& = \sum_{b \in {\mathcal B}}  p(A = \Delta (b)) \cdot (B = b | A = \Delta (b) )\\
& = \sum_{b \in {\mathcal B}}  p(A = \Delta (b)) \cdot P (\Delta (b) \to b)
& = \sum_{b \in {\mathcal B}}  p(A = \Delta (b)) \cdot P (\Delta (b) \to b)
\endaligned
\end{align}
</math></center>
</math></center>




Dualnie, '''prawdopodobieństwo błędu reguły <math>\Delta</math>''', definiujemy jako  
Dualnie, '''prawdopodobieństwo błędu reguły <math>\Delta</math>''', definiujemy jako  
<center><math>\aligned
<center><math>\begin{align}
Pr_E ( \Delta , A ) & = 1 - Pr_C ( \Delta , A ) \\
Pr_E ( \Delta , A ) & = 1 - Pr_C ( \Delta , A ) \\
& =  \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) \neq  a )\\
& =  \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) \neq  a )\\
& = \sum_{a \in {\mathcal A}} p (A = a) \cdot p (\Delta \circ B \neq a | A = a)
& = \sum_{a \in {\mathcal A}} p (A = a) \cdot p (\Delta \circ B \neq a | A = a)
\endaligned
\end{align}
</math></center>
</math></center>


Linia 38: Linia 38:




{{definicja|[Reguła idealnego obserwatora]|idealny_obs|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_o (b)=a</math>, takie że <math>p(a|b)</math> jest maksymalne. <math>p(a|b)</math> możemy wyznaczyć (znając rozkład A), ze wzoru:
{{definicja|[Reguła idealnego obserwatora]|idealny_obs|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_o (b)=a</math>, takie że <math>p(a|b)</math> jest maksymalne. <math>p(a|b)</math> możemy wyznaczyć (znając rozkład A) ze wzoru:
<center><math>
<center><math>
p(a|b) = \frac{ p(a \wedge b)}{p(b)} =
p(a|b) = \frac{ p(a \wedge b)}{p(b)} =
Linia 45: Linia 45:
</math></center>}}
</math></center>}}


Z definicji wynika że
Z definicji wynika, że
<center><math>Pr_C ( \Delta_o , A ) \geq Pr_C ( \Delta , A )</math></center>
<center><math>Pr_C ( \Delta_o , A ) \geq Pr_C ( \Delta , A )</math></center>
dla dowolnej reguły decyzyjnej <math>\Delta</math>.
dla dowolnej reguły decyzyjnej <math>\Delta</math>.
Linia 52: Linia 52:
Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest
Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest


{{definicja|[Reguła maksymalnego podobieństwa]|maks_podob|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_{max}(b)=a</math>, w taki sposób że <math>p(a \to b)=p(b|a)</math> jest maksymalne.}}
{{definicja|[Reguła maksymalnego podobieństwa]|maks_podob|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_{max}(b)=a</math> w taki sposób, że <math>p(a \to b)=p(b|a)</math> jest maksymalne.}}




Linia 64: Linia 64:
Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa <math>\textbf{p}</math>. Średnią (globalną) jakością reguły <math>\Delta</math> niech będzie
Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa <math>\textbf{p}</math>. Średnią (globalną) jakością reguły <math>\Delta</math> niech będzie


<center><math>\aligned
<center><math>\begin{align}
\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta  , {\textbf p})\, d {\textbf p}
\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta  , {\textbf p})\, d {\textbf p}
& = \int_{{\textbf p} \in {\mathcal P}} \sum_{b \in {\mathcal B}} {\textbf p} (\Delta (b))  \cdot p (\Delta (b) \to b)\, d {\textbf p}\\
& = \int_{{\textbf p} \in {\mathcal P}} \sum_{b \in {\mathcal B}} {\textbf p} (\Delta (b))  \cdot p (\Delta (b) \to b)\, d {\textbf p}\\
& = \sum_{b \in {\mathcal B}} p (\Delta (b) \to b) \cdot \int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta (b)) \, d {\textbf p}
& = \sum_{b \in {\mathcal B}} p (\Delta (b) \to b) \cdot \int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta (b)) \, d {\textbf p}
\endaligned
\end{align}
</math></center>
</math></center>




Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue), że <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (a)\, d {\textbf p}</math> nie zależy od wyboru a. Zatem <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta(b))\, d {\textbf p}</math> jest zawsze takie samo, i żeby zmaksymalizować <math>\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta  , {\textbf p})\, d {\textbf p}</math>, musimy maksymalizować <math>\sum_{b \in {\mathcal B}} p (\Delta (b) \to b)</math>, co realizuje właśnie reguła maksymalnego podobieństwa.
Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue'a), że <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (a)\, d {\textbf p}</math> nie zależy od wyboru a. Zatem <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta(b))\, d {\textbf p}</math> jest zawsze takie samo, i żeby zmaksymalizować <math>\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta  , {\textbf p})\, d {\textbf p}</math>, musimy maksymalizować <math>\sum_{b \in {\mathcal B}} p (\Delta (b) \to b)</math>, co realizuje właśnie reguła maksymalnego podobieństwa.




===Wielokrotne używanie kanału===
===Wielokrotne używanie kanału===


Przypuśćmy że wysyłamy przez kanał ciąg symboli <math>a_1, a_2, \ldots, a_k</math>. Jakie jest prawdopodobieństwo że wyjściowym ciągiem będzie <math>b_1, b_2, \ldots, b_k</math>. Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych <math>P(a \to b)</math>.  
Przypuśćmy, że wysyłamy przez kanał ciąg symboli <math>a_1, a_2, \ldots, a_k</math>. Jakie jest prawdopodobieństwo, że wyjściowym ciągiem będzie <math>b_1, b_2, \ldots, b_k</math>? Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych <math>P(a \to b)</math>.  


Przypomnijmy że zmienne losowe <math>X_1, X_2, \ldots, X_k</math> są niezależne jeśli  
Przypomnijmy, że zmienne losowe <math>X_1, X_2, \ldots, X_k</math> są niezależne, jeśli  
<center><math> P(X_1=x_1 \wedge \ldots \wedge X_k = x_k ) = p (X_1 = x_1) \cdot \ldots \cdot p (X_k = x_k )</math></center>
<center><math>P(X_1=x_1 \wedge \ldots \wedge X_k = x_k ) = p (X_1 = x_1) \cdot \ldots \cdot p (X_k = x_k )</math></center>
(warto zauważyć że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych).
(warto zauważyć, że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych).


Rozszerzając naszą konwencję zapisową, będziemy skracać <math>p (X_1 = x_1 \wedge \ldots \wedge X_k = x_k )</math> do <math>p (x_1\ldots x_k ) </math>.
Rozszerzając naszą konwencję zapisową, będziemy skracać <math>p (X_1 = x_1 \wedge \ldots \wedge X_k = x_k )</math> do <math>p (x_1\ldots x_k )</math>.


{{lemat||wielokrotne|Jeśli zmienne losowe (X,Y) oraz (X',Y') są niezależne, to
{{lemat||wielokrotne|Jeśli zmienne losowe (X,Y) oraz (X',Y') są niezależne, to
Linia 90: Linia 90:




{{dowod||dw_wielokrotnie|Zauważmy po pierwsze że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'.
{{dowod||dw_wielokrotnie|Po pierwsze, zauważmy, że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'.
<center><math>p (x \wedge x') = p \left( (x \wedge \bigvee {\mathcal Y}) \wedge (x' \wedge \bigvee {\mathcal Y}') \right) = \sum_{y,y'} p (x \wedge y) \cdot p(x' \wedge y') = p(x) \cdot p(x')</math></center>
<center><math>p (x \wedge x') = p \left( (x \wedge \bigvee {\mathcal Y}) \wedge (x' \wedge \bigvee {\mathcal Y}') \right) = \sum_{y,y'} p (x \wedge y) \cdot p(x' \wedge y') = p(x) \cdot p(x')</math></center>


Linia 97: Linia 97:




{{wniosek|[Niezależność symboli]|niez_symboli|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para <math>(A_i,B_i)</math> jest parą wejście-wyjście dla kanału <math>\Gamma</math>. Wtedy
{{wniosek|[Niezależność symboli]|niez_symboli|Załóżmy, że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para <math>(A_i,B_i)</math> jest parą wejście-wyjście dla kanału <math>\Gamma</math>. Wtedy
<center><math>p( b_1 \ldots b_k | a_1 \ldots a_k ) = p( b_1| a_1) \cdot \ldots  \cdot p( b_k | a_k )</math></center>}}
<center><math>p( b_1 \ldots b_k | a_1 \ldots a_k ) = p( b_1| a_1) \cdot \ldots  \cdot p( b_k | a_k )</math></center>}}


{{dowod||dw_niez_symboli|Niezależność <math>(A_1,B_1), \ldots, (A_k,B_k)</math> implikuje że <math>(A_i,B_i)</math> jest niezależne od <math>(A_2,B_2), \ldots, (A_k,B_k)</math>. Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego Lematu.}}
{{dowod||dw_niez_symboli|Niezależność <math>(A_1,B_1), \ldots, (A_k,B_k)</math> implikuje, że <math>(A_i,B_i)</math> jest niezależne od <math>(A_2,B_2), \ldots, (A_k,B_k)</math>. Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego lematu.}}


Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne, i w większości wypadków nie możemy go użyć. Okazuje się że można je zastąpić czymś znacznie słabszym:
Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne i w większości wypadków nie możemy go użyć. Okazuje się, że można je zastąpić czymś znacznie słabszym:




{{twierdzenie||bezstan|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> spełniają poniższe wymagania:}}
{{twierdzenie||bezstan|Załóżmy, że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> spełniają poniższe wymagania:}}


{{kotwica|bezstanowosc|'''Bezstanowość'''}}
{{kotwica|bezstanowosc|'''Bezstanowość'''}}
<center><math> p( b_k | a_1 \ldots a_k, b_1\ldots b_{k-1}) = p( b_k | a_k)</math></center>
<center><math>p( b_k | a_1 \ldots a_k, b_1\ldots b_{k-1}) = p( b_k | a_k)</math></center>


{{kotwica|brak feedbacku|'''Brak feedbacku'''}}
{{kotwica|brak feedbacku|'''Brak feedbacku'''}}
Linia 116: Linia 116:




{{dowod||dw_bezstan|Przez indukcję możemy pokazać że
{{dowod||dw_bezstan|Przez indukcję możemy pokazać, że
<center><math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = p (b_1 | a_1) \cdot \ldots \cdot p (b_k | a_k) \cdot p (a_1 \wedge \ldots \wedge a_k) </math></center>
<center><math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = p (b_1 | a_1) \cdot \ldots \cdot p (b_k | a_k) \cdot p (a_1 \wedge \ldots \wedge a_k)</math></center>


jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek <math>k=1</math> jest trywialny.  
jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek <math>k=1</math> jest trywialny.  
Krok indukcyjny uzyskujemy łącząc [[Teoria informacji/TI Wykład 8#bezstanowosc|bezstanowość]]:
Krok indukcyjny uzyskujemy łącząc [[Teoria informacji/TI Wykład 8#bezstanowosc|bezstanowość]]:
<center><math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) =
<center><math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) =
p( b_k | a_k) \cdot p (a_1 \ldots a_k, b_1\ldots b_{k-1}) </math></center>
p( b_k | a_k) \cdot p (a_1 \ldots a_k, b_1\ldots b_{k-1})</math></center>
z [[Teoria informacji/TI Wykład 8#brak feedbacku|brakiem feedbacku]]:
z [[Teoria informacji/TI Wykład 8#brak feedbacku|brakiem feedbacku]]:
<center><math> p (a_1 \ldots a_k, b_1\ldots b_{k-1}) = p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} ) \cdot \frac{p (a_1 \wedge \ldots \wedge a_k )}{p (a_1 \wedge \ldots \wedge a_{k-1})}</math></center>
<center><math>p (a_1 \ldots a_k, b_1\ldots b_{k-1}) = p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} ) \cdot \frac{p (a_1 \wedge \ldots \wedge a_k )}{p (a_1 \wedge \ldots \wedge a_{k-1})}</math></center>


i włączając założenie indukcyjne:
i włączając założenie indukcyjne:
Linia 132: Linia 132:




'''Komentarz''' Od tej pory domyślnie będziemy przyjmować że  [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana za każdym razem gdy wielokrotnie używamy kanału BSC.
'''Komentarz''' Od tej pory domyślnie będziemy przyjmować, że  [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana za każdym razem, gdy wielokrotnie używamy kanału BSC.

Aktualna wersja na dzień 22:17, 11 wrz 2023

Reguły decyzyjne

Przypuśćmy, że na wyjściu z kanału Γ otrzymujemy sekwencję znaków bi1,,bik. Znając mapowanie P(ab) dla a𝒜,b, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?

W niektórych przypadkach jest to oczywiste. Przykładowo dla wiernego kanału odwracającego wystarczy, że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo, dla wadliwej maszyny do pisania tekst wynikowy afu mógł pochodzić z tekstu zet, ale również z tekstu aft i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia, które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).


Definicja [Reguła decyzyjna}

Regułą decyzyjną nazwiemy każde mapowanie Δ:𝒜.

Jakość reguły mierzymy przez

PrC(Δ,A)=defp(ΔB=A)
gdzie (A,B) są parą wejście-wyjście (zauważmy że B jest tu jednoznacznie określone, więc definicja jest spójna).

Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.:

p(ΔB=A)=a𝒜,bp(A=aB=bΔ(b)=a)=bp(B=bA=Δ(b))=bp(A=Δ(b))(B=b|A=Δ(b))=bp(A=Δ(b))P(Δ(b)b)


Dualnie, prawdopodobieństwo błędu reguły Δ, definiujemy jako

PrE(Δ,A)=1PrC(Δ,A)=a𝒜,bp(A=aB=bΔ(b)a)=a𝒜p(A=a)p(ΔBa|A=a)


Interesuje nas maksymalizacja PrC(Δ,A), a więc minimalizacja PrE(Δ,A).

Jeśli rozkład prawdopodobieństwa na A jest znany, możemy taką regułę jednoznacznie wyznaczyć:


Definicja [Reguła idealnego obserwatora]

Ta reguła odwzorowuje b na Δo(b)=a, takie że p(a|b) jest maksymalne. p(a|b) możemy wyznaczyć (znając rozkład A) ze wzoru:
p(a|b)=p(ab)p(b)=p(ab)p(a)Σa𝒜p(ab)p(a)

Z definicji wynika, że

PrC(Δo,A)PrC(Δ,A)

dla dowolnej reguły decyzyjnej Δ.


Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest

Definicja [Reguła maksymalnego podobieństwa]

Ta reguła odwzorowuje b na Δmax(b)=a w taki sposób, że p(ab)=p(b|a) jest maksymalne.


Jeśli rozkład na A jest jednostajny (p(a)=1𝒜), to reguła ta odpowiada regule Δo.

Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna. Jest jednak w pewnym sensie „globalnie optymalna”. Przedstawimy tutaj szkic dowodu:

Niech 𝒜={a1,,am}, i niech 𝒫 będzie zbiorem wszystkich rozkładów prawdopodobieństwa na 𝒜,

𝒫={p:a𝒜p(a)=1}

Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa p. Średnią (globalną) jakością reguły Δ niech będzie

p𝒫PrC(Δ,p)dp=p𝒫bp(Δ(b))p(Δ(b)b)dp=bp(Δ(b)b)p𝒫p(Δ(b))dp


Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue'a), że p𝒫p(a)dp nie zależy od wyboru a. Zatem p𝒫p(Δ(b))dp jest zawsze takie samo, i żeby zmaksymalizować p𝒫PrC(Δ,p)dp, musimy maksymalizować bp(Δ(b)b), co realizuje właśnie reguła maksymalnego podobieństwa.


Wielokrotne używanie kanału

Przypuśćmy, że wysyłamy przez kanał ciąg symboli a1,a2,,ak. Jakie jest prawdopodobieństwo, że wyjściowym ciągiem będzie b1,b2,,bk? Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych P(ab).

Przypomnijmy, że zmienne losowe X1,X2,,Xk są niezależne, jeśli

P(X1=x1Xk=xk)=p(X1=x1)p(Xk=xk)

(warto zauważyć, że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych).

Rozszerzając naszą konwencję zapisową, będziemy skracać p(X1=x1Xk=xk) do p(x1xk).

Lemat

Jeśli zmienne losowe (X,Y) oraz (X',Y') są niezależne, to
p(Y=yY=y|X=xX=x)=p(Y=y|X=x)p(Y=y|X=x)
o ile zachodzi zachodzi p(X=xX=x)>0.


Dowód

Po pierwsze, zauważmy, że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'.
p(xx)=p((x𝒴)(x𝒴))=y,yp(xy)p(xy)=p(x)p(x)

Zatem

p(yy|xx)=p(yyxx)p(xx)=p(yx)p(yx)p(x)p(x)=p(y|x)p(y|x)


Wniosek [Niezależność symboli]

Załóżmy, że (A1,B1),,(Ak,Bk) są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para (Ai,Bi) jest parą wejście-wyjście dla kanału Γ. Wtedy
p(b1bk|a1ak)=p(b1|a1)p(bk|ak)

Dowód

Niezależność (A1,B1),,(Ak,Bk) implikuje, że (Ai,Bi) jest niezależne od (A2,B2),,(Ak,Bk). Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego lematu.

Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne i w większości wypadków nie możemy go użyć. Okazuje się, że można je zastąpić czymś znacznie słabszym:


Twierdzenie

Załóżmy, że (A1,B1),,(Ak,Bk) spełniają poniższe wymagania:

Bezstanowość

p(bk|a1ak,b1bk1)=p(bk|ak)

Brak feedbacku

p(ak|a1ak1,b1bk1)=p(ak|a1ak1)

Wtedy niezależność symboli jest zachowana.


Dowód

Przez indukcję możemy pokazać, że
p(a1akb1bk)=p(b1|a1)p(bk|ak)p(a1ak)

jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek k=1 jest trywialny. Krok indukcyjny uzyskujemy łącząc bezstanowość:

p(a1akb1bk)=p(bk|ak)p(a1ak,b1bk1)

z brakiem feedbacku:

p(a1ak,b1bk1)=p(a1ak1b1bk1)p(a1ak)p(a1ak1)

i włączając założenie indukcyjne:

p(a1ak1b1bk1)p(a1ak1)=p(b1|a1)p(bk1|ak1)
co kończy dowód.


Komentarz Od tej pory domyślnie będziemy przyjmować, że niezależność symboli jest zachowana za każdym razem, gdy wielokrotnie używamy kanału BSC.