Teoria informacji/TI Wykład 8

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Reguły decyzyjne

Przypuśćmy że na wyjściu z kanału Γ otrzymujemy sekwencję znaków bi1,,bik. Znając mapowanie P(ab) dla a𝒜,b, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?

W niektórych przypadkach jest to oczywiste. Przykładowo dla wiernego kanału odwracającego, wystarczy że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo dla wadliwej maszyny do pisania tekst wynikowy afu mógł pochodzić z tekstu zet, ale również z tekstu aft, i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).


Definicja [Reguła decyzyjna}

Regułą decyzyjną nazwiemy każde mapowanie Δ:𝒜.

Jakość reguły mierzymy przez

PrC(Δ,A)=defp(ΔB=A)
gdzie (A,B) są parą wejście-wyjście (zauważmy że B jest tu jednoznacznie określone, więc definicja jest spójna).

Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.:

Parser nie mógł rozpoznać (błąd składni): {\displaystyle p ( \Delta \circ B = A) & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) = a ) }

=bp(B=bA=Δ(b))
=bp(A=Δ(b))(B=b|A=Δ(b))
=bp(A=Δ(b))P(Δ(b)b)


Dualnie, prawdopodobieństwo błędu reguły Δ, definiujemy jako

PrE(Δ,A)=1PrC(Δ,A)

=a𝒜,bp(A=aB=bΔ(b)a)
=a𝒜p(A=a)p(ΔBa|A=a)


Interesuje nas maksymalizacja PrC(Δ,A), a więc minimalizacja PrE(Δ,A).

Jeśli rozkład prawdopodobieństwa na A jest znany, możemy taką regułę jednoznacznie wyznaczyć:


Definicja [Reguła idealnego obserwatora]

Ta reguła odwzorowuje b na Δo(b)=a, takie że p(a|b) jest maksymalne. p(a|b) możemy wyznaczyć (znając rozkład A), ze wzoru:
p(a|b)=p(ab)p(b)=p(ab)p(a)a𝒜p(ab)p(a)

Z definicji wynika że

PrC(Δo,A)PrC(Δ,A)

dla dowolnej reguły decyzyjnej Δ.


Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest

Definicja [Reguła maksymalnego podobieństwa]

Ta reguła odwzorowuje b na Δmax(b)=a, w taki sposób że p(ab)=p(b|a) jest maksymalne.


Jeśli rozkład na A jest jednostajny (p(a)=1𝒜), to reguła ta odpowiada regule Δo.

Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna (TODO ćwiczenie). Jest jednak w pewnym sensie „globalnie optymalna”. Przedstawimy tutaj szkic dowodu:

Niech 𝒜={a1,,am}, i niech 𝒫 będzie zbiorem wszystkich rozkładów prawdopodobieństwa na 𝒜,

𝒫={p:a𝒜p(a)=1}

Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa p. Średnią (globalną) jakością reguły Δ niech będzie

p𝒫PrC(Δ,p)dp=p𝒫bp(Δ(b))p(Δ(b)b)dp

=bp(Δ(b)b)p𝒫p(Δ(b))dp

Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue), że p𝒫p(a)dp nie zależy od wyboru a. Zatem p𝒫p(Δ(b))dp jest zawsze takie samo, i żeby zmaksymalizować p𝒫PrC(Δ,p)dp, musimy maksymalizować bp(Δ(b)b), co realizuje właśnie reguła maksymalnego podobieństwa.


Wielokrotne używanie kanału

Przypuśćmy że wysyłamy przez kanał ciąg symboli a1,a2,,ak. Jakie jest prawdopodobieństwo że wyjściowym ciągiem będzie b1,b2,,bk. Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych P(ab).

Przypomnijmy że zmienne losowe X1,X2,,Xk są niezależne jeśli

P(X1=x1Xk=xk)=p(X1=x1)p(Xk=xk)

(warto zauważyć że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych TODO ćwiczenie).

Rozszerzając naszą konwencję zapisową, będziemy skracać p(X1=x1Xk=xk) do p(x1xk).

Lemat

Jeśli zmienne losowe (X,Y) oraz (X',Y') są niezależne, to
p(Y=yY=y|X=xX=x)=p(Y=y|X=x)p(Y=y|X=x)
o ile zachodzi zachodzi p(X=xX=x)>0.


Dowód

Zauważmy po pierwsze że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'.
p(xx)=p((x𝒴)(x𝒴))=y,yp(xy)p(xy)=p(x)p(x).

Zatem

p(yy|xx)=p(yyxx)p(xx)=p(yx)p(yx)p(x)p(x)=p(y|x)p(y|x)}}

Wniosek [Niezależność symboli]

Załóżmy że (A1,B1),,(Ak,Bk) są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para (Ai,Bi) jest parą wejście-wyjście dla kanału Γ. Wtedy
p(b1bk|a1ak)=p(b1|a1)p(bk|ak)

Dowód

Niezależność (A1,B1),,(Ak,Bk) implikuje że (Ai,Bi) jest niezależne od (A2,B2),,(Ak,Bk). Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego Lematu.

Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne, i w większości wypadków nie możemy go użyć. Okazuje się że można je zastąpić czymś znacznie słabszym:


Twierdzenie

Załóżmy że (A1,B1),,(Ak,Bk) spełniają poniższe wymagania:

Bezstanowość

p(bk|a1ak,b1bk1)=p(bk|ak)

Brak feedbacku

p(ak|a1ak1,b1bk1)=p(ak|a1ak1)

Wtedy niezależność symboli jest zachowana.


Dowód

Przez indukcję możemy pokazać że
p(a1akb1bk)=p(b1|a1)p(bk|ak)p(a1ak)

jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek k=1 jest trywialny. Krok indukcyjny uzyskujemy łącząc bezstanowość:

p(a1akb1bk)=p(bk|ak)p(a1ak,b1bk1)

z brakiem feedbacku:

p(a1ak,b1bk1)=p(a1ak1b1bk1)p(a1ak)p(a1ak1).

i włączając założenie indukcyjne:

p(a1ak1b1bk1)p(a1ak1)=p(b1|a1)p(bk1|ak1)
co kończy dowód.


Komentarz Od tej pory domyślnie będziemy przyjmować że niezależność symboli jest zachowana za każdym razem gdy wielokrotnie używamy kanału BSC.