Teoria informacji/TI Wykład 8: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Stromy (dyskusja | edycje)
Nie podano opisu zmian
Dorota (dyskusja | edycje)
Nie podano opisu zmian
Linia 1: Linia 1:
===Reguły decyzyjne===
===Reguły decyzyjne===


Przypuśćmy że na wyjściu z kanału <math>\Gamma</math> otrzymujemy sekwencję znaków <math> b_{i_1}, \ldots , b_{i_k}</math>. Znając mapowanie <math>P(a \to b)</math> dla <math>a \in \mathcal{A}, b \in \mathcal{B}</math>, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?
Przypuśćmy, że na wyjściu z kanału <math>\Gamma</math> otrzymujemy sekwencję znaków <math> b_{i_1}, \ldots , b_{i_k}</math>. Znając mapowanie <math>P(a \to b)</math> dla <math>a \in \mathcal{A}, b \in \mathcal{B}</math>, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?


W niektórych przypadkach jest to oczywiste. Przykładowo dla [[Teoria informacji/TI Wykład 7#odwracajacy_kanal|wiernego kanału odwracającego]], wystarczy że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo dla [[Teoria informacji/TI Wykład 7#maszyna_kanal|wadliwej maszyny do pisania]] tekst wynikowy ''afu'' mógł pochodzić z tekstu ''zet'', ale również z tekstu ''aft'', i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).  
W niektórych przypadkach jest to oczywiste. Przykładowo dla [[Teoria informacji/TI Wykład 7#odwracajacy_kanal|wiernego kanału odwracającego]] wystarczy, że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo, dla [[Teoria informacji/TI Wykład 7#maszyna_kanal|wadliwej maszyny do pisania]] tekst wynikowy ''afu'' mógł pochodzić z tekstu ''zet'', ale również z tekstu ''aft'' i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia, które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).  




Linia 38: Linia 38:




{{definicja|[Reguła idealnego obserwatora]|idealny_obs|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_o (b)=a</math>, takie że <math>p(a|b)</math> jest maksymalne. <math>p(a|b)</math> możemy wyznaczyć (znając rozkład A), ze wzoru:
{{definicja|[Reguła idealnego obserwatora]|idealny_obs|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_o (b)=a</math>, takie że <math>p(a|b)</math> jest maksymalne. <math>p(a|b)</math> możemy wyznaczyć (znając rozkład A) ze wzoru:
<center><math>
<center><math>
p(a|b) = \frac{ p(a \wedge b)}{p(b)} =
p(a|b) = \frac{ p(a \wedge b)}{p(b)} =
Linia 45: Linia 45:
</math></center>}}
</math></center>}}


Z definicji wynika że
Z definicji wynika, że
<center><math>Pr_C ( \Delta_o , A ) \geq Pr_C ( \Delta , A )</math></center>
<center><math>Pr_C ( \Delta_o , A ) \geq Pr_C ( \Delta , A )</math></center>
dla dowolnej reguły decyzyjnej <math>\Delta</math>.
dla dowolnej reguły decyzyjnej <math>\Delta</math>.
Linia 52: Linia 52:
Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest
Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest


{{definicja|[Reguła maksymalnego podobieństwa]|maks_podob|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_{max}(b)=a</math>, w taki sposób że <math>p(a \to b)=p(b|a)</math> jest maksymalne.}}
{{definicja|[Reguła maksymalnego podobieństwa]|maks_podob|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_{max}(b)=a</math> w taki sposób, że <math>p(a \to b)=p(b|a)</math> jest maksymalne.}}




Linia 72: Linia 72:




Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue), że <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (a)\, d {\textbf p}</math> nie zależy od wyboru a. Zatem <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta(b))\, d {\textbf p}</math> jest zawsze takie samo, i żeby zmaksymalizować <math>\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta  , {\textbf p})\, d {\textbf p}</math>, musimy maksymalizować <math>\sum_{b \in {\mathcal B}} p (\Delta (b) \to b)</math>, co realizuje właśnie reguła maksymalnego podobieństwa.
Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue'a), że <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (a)\, d {\textbf p}</math> nie zależy od wyboru a. Zatem <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta(b))\, d {\textbf p}</math> jest zawsze takie samo, i żeby zmaksymalizować <math>\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta  , {\textbf p})\, d {\textbf p}</math>, musimy maksymalizować <math>\sum_{b \in {\mathcal B}} p (\Delta (b) \to b)</math>, co realizuje właśnie reguła maksymalnego podobieństwa.




===Wielokrotne używanie kanału===
===Wielokrotne używanie kanału===


Przypuśćmy że wysyłamy przez kanał ciąg symboli <math>a_1, a_2, \ldots, a_k</math>. Jakie jest prawdopodobieństwo że wyjściowym ciągiem będzie <math>b_1, b_2, \ldots, b_k</math>. Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych <math>P(a \to b)</math>.  
Przypuśćmy, że wysyłamy przez kanał ciąg symboli <math>a_1, a_2, \ldots, a_k</math>. Jakie jest prawdopodobieństwo, że wyjściowym ciągiem będzie <math>b_1, b_2, \ldots, b_k</math>? Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych <math>P(a \to b)</math>.  


Przypomnijmy że zmienne losowe <math>X_1, X_2, \ldots, X_k</math> są niezależne jeśli  
Przypomnijmy, że zmienne losowe <math>X_1, X_2, \ldots, X_k</math> są niezależne, jeśli  
<center><math> P(X_1=x_1 \wedge \ldots \wedge X_k = x_k ) = p (X_1 = x_1) \cdot \ldots \cdot p (X_k = x_k )</math></center>
<center><math> P(X_1=x_1 \wedge \ldots \wedge X_k = x_k ) = p (X_1 = x_1) \cdot \ldots \cdot p (X_k = x_k )</math></center>
(warto zauważyć że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych).
(warto zauważyć, że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych).


Rozszerzając naszą konwencję zapisową, będziemy skracać <math>p (X_1 = x_1 \wedge \ldots \wedge X_k = x_k )</math> do <math>p (x_1\ldots x_k ) </math>.
Rozszerzając naszą konwencję zapisową, będziemy skracać <math>p (X_1 = x_1 \wedge \ldots \wedge X_k = x_k )</math> do <math>p (x_1\ldots x_k ) </math>.
Linia 90: Linia 90:




{{dowod||dw_wielokrotnie|Zauważmy po pierwsze że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'.
{{dowod||dw_wielokrotnie|Po pierwsze, zauważmy, że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'.
<center><math>p (x \wedge x') = p \left( (x \wedge \bigvee {\mathcal Y}) \wedge (x' \wedge \bigvee {\mathcal Y}') \right) = \sum_{y,y'} p (x \wedge y) \cdot p(x' \wedge y') = p(x) \cdot p(x')</math></center>
<center><math>p (x \wedge x') = p \left( (x \wedge \bigvee {\mathcal Y}) \wedge (x' \wedge \bigvee {\mathcal Y}') \right) = \sum_{y,y'} p (x \wedge y) \cdot p(x' \wedge y') = p(x) \cdot p(x')</math></center>


Linia 97: Linia 97:




{{wniosek|[Niezależność symboli]|niez_symboli|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para <math>(A_i,B_i)</math> jest parą wejście-wyjście dla kanału <math>\Gamma</math>. Wtedy
{{wniosek|[Niezależność symboli]|niez_symboli|Załóżmy, że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para <math>(A_i,B_i)</math> jest parą wejście-wyjście dla kanału <math>\Gamma</math>. Wtedy
<center><math>p( b_1 \ldots b_k | a_1 \ldots a_k ) = p( b_1| a_1) \cdot \ldots  \cdot p( b_k | a_k )</math></center>}}
<center><math>p( b_1 \ldots b_k | a_1 \ldots a_k ) = p( b_1| a_1) \cdot \ldots  \cdot p( b_k | a_k )</math></center>}}


{{dowod||dw_niez_symboli|Niezależność <math>(A_1,B_1), \ldots, (A_k,B_k)</math> implikuje że <math>(A_i,B_i)</math> jest niezależne od <math>(A_2,B_2), \ldots, (A_k,B_k)</math>. Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego Lematu.}}
{{dowod||dw_niez_symboli|Niezależność <math>(A_1,B_1), \ldots, (A_k,B_k)</math> implikuje, że <math>(A_i,B_i)</math> jest niezależne od <math>(A_2,B_2), \ldots, (A_k,B_k)</math>. Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego lematu.}}


Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne, i w większości wypadków nie możemy go użyć. Okazuje się że można je zastąpić czymś znacznie słabszym:
Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne i w większości wypadków nie możemy go użyć. Okazuje się, że można je zastąpić czymś znacznie słabszym:




{{twierdzenie||bezstan|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> spełniają poniższe wymagania:}}
{{twierdzenie||bezstan|Załóżmy, że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> spełniają poniższe wymagania:}}


{{kotwica|bezstanowosc|'''Bezstanowość'''}}
{{kotwica|bezstanowosc|'''Bezstanowość'''}}
Linia 116: Linia 116:




{{dowod||dw_bezstan|Przez indukcję możemy pokazać że
{{dowod||dw_bezstan|Przez indukcję możemy pokazać, że
<center><math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = p (b_1 | a_1) \cdot \ldots \cdot p (b_k | a_k) \cdot p (a_1 \wedge \ldots \wedge a_k) </math></center>
<center><math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = p (b_1 | a_1) \cdot \ldots \cdot p (b_k | a_k) \cdot p (a_1 \wedge \ldots \wedge a_k) </math></center>


Linia 132: Linia 132:




'''Komentarz''' Od tej pory domyślnie będziemy przyjmować że  [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana za każdym razem gdy wielokrotnie używamy kanału BSC.
'''Komentarz''' Od tej pory domyślnie będziemy przyjmować, że  [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana za każdym razem, gdy wielokrotnie używamy kanału BSC.

Wersja z 09:08, 20 wrz 2006

Reguły decyzyjne

Przypuśćmy, że na wyjściu z kanału Γ otrzymujemy sekwencję znaków bi1,,bik. Znając mapowanie P(ab) dla a𝒜,b, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?

W niektórych przypadkach jest to oczywiste. Przykładowo dla wiernego kanału odwracającego wystarczy, że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo, dla wadliwej maszyny do pisania tekst wynikowy afu mógł pochodzić z tekstu zet, ale również z tekstu aft i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia, które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).


Definicja [Reguła decyzyjna}

Regułą decyzyjną nazwiemy każde mapowanie Δ:𝒜.

Jakość reguły mierzymy przez

PrC(Δ,A)=defp(ΔB=A)
gdzie (A,B) są parą wejście-wyjście (zauważmy że B jest tu jednoznacznie określone, więc definicja jest spójna).

Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.:

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned p( \Delta \circ B = A) & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) = a ) \\ & = \sum_{b \in {\mathcal B}} p ( B = b \wedge A = \Delta (b) )\\ & = \sum_{b \in {\mathcal B}} p(A = \Delta (b)) \cdot (B = b | A = \Delta (b) )\\ & = \sum_{b \in {\mathcal B}} p(A = \Delta (b)) \cdot P (\Delta (b) \to b) \endaligned }


Dualnie, prawdopodobieństwo błędu reguły Δ, definiujemy jako

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned Pr_E ( \Delta , A ) & = 1 - Pr_C ( \Delta , A ) \\ & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) \neq a )\\ & = \sum_{a \in {\mathcal A}} p (A = a) \cdot p (\Delta \circ B \neq a | A = a) \endaligned }


Interesuje nas maksymalizacja PrC(Δ,A), a więc minimalizacja PrE(Δ,A).

Jeśli rozkład prawdopodobieństwa na A jest znany, możemy taką regułę jednoznacznie wyznaczyć:


Definicja [Reguła idealnego obserwatora]

Ta reguła odwzorowuje b na Δo(b)=a, takie że p(a|b) jest maksymalne. p(a|b) możemy wyznaczyć (znając rozkład A) ze wzoru:
p(a|b)=p(ab)p(b)=p(ab)p(a)Σa𝒜p(ab)p(a)

Z definicji wynika, że

PrC(Δo,A)PrC(Δ,A)

dla dowolnej reguły decyzyjnej Δ.


Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest

Definicja [Reguła maksymalnego podobieństwa]

Ta reguła odwzorowuje b na Δmax(b)=a w taki sposób, że p(ab)=p(b|a) jest maksymalne.


Jeśli rozkład na A jest jednostajny (p(a)=1𝒜), to reguła ta odpowiada regule Δo.

Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna. Jest jednak w pewnym sensie „globalnie optymalna”. Przedstawimy tutaj szkic dowodu:

Niech 𝒜={a1,,am}, i niech 𝒫 będzie zbiorem wszystkich rozkładów prawdopodobieństwa na 𝒜,

𝒫={p:a𝒜p(a)=1}

Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa p. Średnią (globalną) jakością reguły Δ niech będzie

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned \int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta , {\textbf p})\, d {\textbf p} & = \int_{{\textbf p} \in {\mathcal P}} \sum_{b \in {\mathcal B}} {\textbf p} (\Delta (b)) \cdot p (\Delta (b) \to b)\, d {\textbf p}\\ & = \sum_{b \in {\mathcal B}} p (\Delta (b) \to b) \cdot \int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta (b)) \, d {\textbf p} \endaligned }


Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue'a), że p𝒫p(a)dp nie zależy od wyboru a. Zatem p𝒫p(Δ(b))dp jest zawsze takie samo, i żeby zmaksymalizować p𝒫PrC(Δ,p)dp, musimy maksymalizować bp(Δ(b)b), co realizuje właśnie reguła maksymalnego podobieństwa.


Wielokrotne używanie kanału

Przypuśćmy, że wysyłamy przez kanał ciąg symboli a1,a2,,ak. Jakie jest prawdopodobieństwo, że wyjściowym ciągiem będzie b1,b2,,bk? Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych P(ab).

Przypomnijmy, że zmienne losowe X1,X2,,Xk są niezależne, jeśli

P(X1=x1Xk=xk)=p(X1=x1)p(Xk=xk)

(warto zauważyć, że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych).

Rozszerzając naszą konwencję zapisową, będziemy skracać p(X1=x1Xk=xk) do p(x1xk).

Lemat

Jeśli zmienne losowe (X,Y) oraz (X',Y') są niezależne, to
p(Y=yY=y|X=xX=x)=p(Y=y|X=x)p(Y=y|X=x)
o ile zachodzi zachodzi p(X=xX=x)>0.


Dowód

Po pierwsze, zauważmy, że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'.
p(xx)=p((x𝒴)(x𝒴))=y,yp(xy)p(xy)=p(x)p(x)

Zatem

p(yy|xx)=p(yyxx)p(xx)=p(yx)p(yx)p(x)p(x)=p(y|x)p(y|x)


Wniosek [Niezależność symboli]

Załóżmy, że (A1,B1),,(Ak,Bk) są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para (Ai,Bi) jest parą wejście-wyjście dla kanału Γ. Wtedy
p(b1bk|a1ak)=p(b1|a1)p(bk|ak)

Dowód

Niezależność (A1,B1),,(Ak,Bk) implikuje, że (Ai,Bi) jest niezależne od (A2,B2),,(Ak,Bk). Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego lematu.

Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne i w większości wypadków nie możemy go użyć. Okazuje się, że można je zastąpić czymś znacznie słabszym:


Twierdzenie

Załóżmy, że (A1,B1),,(Ak,Bk) spełniają poniższe wymagania:

Bezstanowość

p(bk|a1ak,b1bk1)=p(bk|ak)

Brak feedbacku

p(ak|a1ak1,b1bk1)=p(ak|a1ak1)

Wtedy niezależność symboli jest zachowana.


Dowód

Przez indukcję możemy pokazać, że
p(a1akb1bk)=p(b1|a1)p(bk|ak)p(a1ak)

jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek k=1 jest trywialny. Krok indukcyjny uzyskujemy łącząc bezstanowość:

p(a1akb1bk)=p(bk|ak)p(a1ak,b1bk1)

z brakiem feedbacku:

p(a1ak,b1bk1)=p(a1ak1b1bk1)p(a1ak)p(a1ak1)

i włączając założenie indukcyjne:

p(a1ak1b1bk1)p(a1ak1)=p(b1|a1)p(bk1|ak1)
co kończy dowód.


Komentarz Od tej pory domyślnie będziemy przyjmować, że niezależność symboli jest zachowana za każdym razem, gdy wielokrotnie używamy kanału BSC.