Teoria informacji/TI Wykład 8: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Stromy (dyskusja | edycje)
Nie podano opisu zmian
 
Stromy (dyskusja | edycje)
Nie podano opisu zmian
Linia 3: Linia 3:
Przypuśćmy że na wyjściu z kanału <math>\Gamma</math> otrzymujemy sekwencję znaków <math> b_{i_1}, \ldots , b_{i_k}</math>. Znając mapowanie <math>P(a \to b)</math> dla <math>a \in \mathcal{A}, b \in \mathcal{B}</math>, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?
Przypuśćmy że na wyjściu z kanału <math>\Gamma</math> otrzymujemy sekwencję znaków <math> b_{i_1}, \ldots , b_{i_k}</math>. Znając mapowanie <math>P(a \to b)</math> dla <math>a \in \mathcal{A}, b \in \mathcal{B}</math>, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?


W niektórych przypadkach jest to oczywiste. Przykładowo dla wiernego kanału odwracającego (TODO link), wystarczy że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo dla wadliwej maszyny do pisania (TODO link) tekst wynikowy ''afu'' mógł pochodzić z tekstu ''zet'', ale również z tekstu ''aft'', i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).  
W niektórych przypadkach jest to oczywiste. Przykładowo dla [[Teoria informacji/TI Wykład 7#odwracajacy_kanal|wiernego kanału odwracającego]], wystarczy że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo dla [[Teoria informacji/TI Wykład 7#maszyna_kanal|wadliwej maszyny do pisania]] tekst wynikowy ''afu'' mógł pochodzić z tekstu ''zet'', ale również z tekstu ''aft'', i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).  




Linia 93: Linia 93:




{{twierdzenie||bezstan|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> spełniają poniższe wymagania:
{{twierdzenie||bezstan|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> spełniają poniższe wymagania:}}


'''Bezstanowość'''
{{kotwica|bezstanowosc|'''Bezstanowość'''}}
:<math> p( b_k | a_1 \ldots a_k, b_1\ldots b_{k-1}) = p( b_k | a_k)</math>
:<math> p( b_k | a_1 \ldots a_k, b_1\ldots b_{k-1}) = p( b_k | a_k)</math>


'''Brak feedbacku'''
{{kotwica|brak feedbacku|'''Brak feedbacku'''}}
:<math>p( a_k | a_1 \ldots a_{k-1}, b_1\ldots b_{k-1}) = p( a_k | a_1 \ldots a_{k-1})</math>
:<math>p( a_k | a_1 \ldots a_{k-1}, b_1\ldots b_{k-1}) = p( a_k | a_1 \ldots a_{k-1})</math>


Wtedy [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana.}}
Wtedy [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana.
 


{{dowod||dw_bezstan|Przez indukcję możemy pokazać że
{{dowod||dw_bezstan|Przez indukcję możemy pokazać że
:<math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = p (b_1 | a_1) \cdot \ldots \cdot p (b_k | a_k) \cdot p (a_1 \wedge \ldots \wedge a_k) </math>
:<math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = p (b_1 | a_1) \cdot \ldots \cdot p (b_k | a_k) \cdot p (a_1 \wedge \ldots \wedge a_k) </math>


jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek <math>k=1</math> jest trywialny. Krok indukcyjny uzyskujemy porównując (link TODO)
jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek <math>k=1</math> jest trywialny.  
Krok indukcyjny uzyskujemy łącząc [[Teoria informacji/TI Wykład 8#bezstanowosc|bezstanowość]]:
:<math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) =
:<math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) =
p( b_k | a_k) \cdot p (a_1 \ldots a_k, b_1\ldots b_{k-1}) </math>
p( b_k | a_k) \cdot p (a_1 \ldots a_k, b_1\ldots b_{k-1}) </math>
z (link TODO)
z [[Teoria informacji/TI Wykład 8#brak feedbacku|brakiem feedbacku]]:
:<math> p (a_1 \ldots a_k, b_1\ldots b_{k-1}) = p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} ) \cdot \frac{p (a_1 \wedge \ldots \wedge a_k )}{p (a_1 \wedge \ldots \wedge a_{k-1})}</math>.
:<math> p (a_1 \ldots a_k, b_1\ldots b_{k-1}) = p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} ) \cdot \frac{p (a_1 \wedge \ldots \wedge a_k )}{p (a_1 \wedge \ldots \wedge a_{k-1})}</math>.


Ale korzystając z założenia indukcyjnego
i włączając założenie indukcyjne:
:<math>\frac{p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} )}{p (a_1 \wedge \ldots \wedge a_{k-1})} = p (b_1 | a_1) \cdot \ldots \cdot p (b_{k-1} | a_{k-1})</math>
:<math>\frac{p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} )}{p (a_1 \wedge \ldots \wedge a_{k-1})} = p (b_1 | a_1) \cdot \ldots \cdot p (b_{k-1} | a_{k-1})</math>



Wersja z 08:35, 2 sie 2006

Reguły decyzyjne

Przypuśćmy że na wyjściu z kanału Γ otrzymujemy sekwencję znaków bi1,,bik. Znając mapowanie P(ab) dla a𝒜,b, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?

W niektórych przypadkach jest to oczywiste. Przykładowo dla wiernego kanału odwracającego, wystarczy że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo dla wadliwej maszyny do pisania tekst wynikowy afu mógł pochodzić z tekstu zet, ale również z tekstu aft, i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).


Definicja [Reguła decyzyjna}

Regułą decyzyjną nazwiemy każde mapowanie Δ:𝒜.

Jakość reguły mierzymy przez

PrC(Δ,A)=defp(ΔB=A)
gdzie (A,B) są parą wejście-wyjście (zauważmy że B jest tu jednoznacznie określone, więc definicja jest spójna).

Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.:

Parser nie mógł rozpoznać (błąd składni): {\displaystyle p ( \Delta \circ B = A) & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) = a ) }

=bp(B=bA=Δ(b))
=bp(A=Δ(b))(B=b|A=Δ(b))
=bp(A=Δ(b))P(Δ(b)b)


Dualnie, prawdopodobieństwo błędu reguły Δ, definiujemy jako

PrE(Δ,A)=1PrC(Δ,A)

=a𝒜,bp(A=aB=bΔ(b)a)
=a𝒜p(A=a)p(ΔBa|A=a)


Interesuje nas maksymalizacja PrC(Δ,A), a więc minimalizacja PrE(Δ,A).

Jeśli rozkład prawdopodobieństwa na A jest znany, możemy taką regułę jednoznacznie wyznaczyć:


Definicja [Reguła idealnego obserwatora]

Ta reguła odwzorowuje b na Δo(b)=a, takie że p(a|b) jest maksymalne. p(a|b) możemy wyznaczyć (znając rozkład A), ze wzoru:
p(a|b)=p(ab)p(b)=p(ab)p(a)a𝒜p(ab)p(a)

Z definicji wynika że

PrC(Δo,A)PrC(Δ,A)

dla dowolnej reguły decyzyjnej Δ.


Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest

Definicja [Reguła maksymalnego podobieństwa]

Ta reguła odwzorowuje b na Δmax(b)=a, w taki sposób że p(ab)=p(b|a) jest maksymalne.


Jeśli rozkład na A jest jednostajny (p(a)=1𝒜), to reguła ta odpowiada regule Δo.

Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna (TODO ćwiczenie). Jest jednak w pewnym sensie „globalnie optymalna”. Przedstawimy tutaj szkic dowodu:

Niech 𝒜={a1,,am}, i niech 𝒫 będzie zbiorem wszystkich rozkładów prawdopodobieństwa na 𝒜,

𝒫={p:a𝒜p(a)=1}

Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa p. Średnią (globalną) jakością reguły Δ niech będzie

p𝒫PrC(Δ,p)dp=p𝒫bp(Δ(b))p(Δ(b)b)dp

=bp(Δ(b)b)p𝒫p(Δ(b))dp

Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue), że p𝒫p(a)dp nie zależy od wyboru a. Zatem p𝒫p(Δ(b))dp jest zawsze takie samo, i żeby zmaksymalizować p𝒫PrC(Δ,p)dp, musimy maksymalizować bp(Δ(b)b), co realizuje właśnie reguła maksymalnego podobieństwa.


Wielokrotne używanie kanału

Przypuśćmy że wysyłamy przez kanał ciąg symboli a1,a2,,ak. Jakie jest prawdopodobieństwo że wyjściowym ciągiem będzie b1,b2,,bk. Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych P(ab).

Przypomnijmy że zmienne losowe X1,X2,,Xk są niezależne jeśli

P(X1=x1Xk=xk)=p(X1=x1)p(Xk=xk)

(warto zauważyć że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych TODO ćwiczenie).

Rozszerzając naszą konwencję zapisową, będziemy skracać p(X1=x1Xk=xk) do p(x1xk).

Lemat

Jeśli zmienne losowe (X,Y) oraz (X',Y') są niezależne, to
p(Y=yY=y|X=xX=x)=p(Y=y|X=x)p(Y=y|X=x)
o ile zachodzi zachodzi p(X=xX=x)>0.


Dowód

Zauważmy po pierwsze że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'.
p(xx)=p((x𝒴)(x𝒴))=y,yp(xy)p(xy)=p(x)p(x).

Zatem

p(yy|xx)=p(yyxx)p(xx)=p(yx)p(yx)p(x)p(x)=p(y|x)p(y|x)}}

Wniosek [Niezależność symboli]

Załóżmy że (A1,B1),,(Ak,Bk) są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para (Ai,Bi) jest parą wejście-wyjście dla kanału Γ. Wtedy
p(b1bk|a1ak)=p(b1|a1)p(bk|ak)

Dowód

Niezależność (A1,B1),,(Ak,Bk) implikuje że (Ai,Bi) jest niezależne od (A2,B2),,(Ak,Bk). Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego Lematu.

Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne, i w większości wypadków nie możemy go użyć. Okazuje się że można je zastąpić czymś znacznie słabszym:


Twierdzenie

Załóżmy że (A1,B1),,(Ak,Bk) spełniają poniższe wymagania:

Bezstanowość

p(bk|a1ak,b1bk1)=p(bk|ak)

Brak feedbacku

p(ak|a1ak1,b1bk1)=p(ak|a1ak1)

Wtedy niezależność symboli jest zachowana.


Dowód

Przez indukcję możemy pokazać że
p(a1akb1bk)=p(b1|a1)p(bk|ak)p(a1ak)

jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek k=1 jest trywialny. Krok indukcyjny uzyskujemy łącząc bezstanowość:

p(a1akb1bk)=p(bk|ak)p(a1ak,b1bk1)

z brakiem feedbacku:

p(a1ak,b1bk1)=p(a1ak1b1bk1)p(a1ak)p(a1ak1).

i włączając założenie indukcyjne:

p(a1ak1b1bk1)p(a1ak1)=p(b1|a1)p(bk1|ak1)
co kończy dowód.


Komentarz Od tej pory domyślnie będziemy przyjmować że niezależność symboli jest zachowana za każdym razem gdy wielokrotnie używamy kanału BSC.