Teoria informacji/TI Wykład 8

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Reguły decyzyjne

Przypuśćmy, że na wyjściu z kanału Γ otrzymujemy sekwencję znaków bi1,,bik. Znając mapowanie P(ab) dla a𝒜,b, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?

W niektórych przypadkach jest to oczywiste. Przykładowo dla wiernego kanału odwracającego wystarczy, że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo, dla wadliwej maszyny do pisania tekst wynikowy afu mógł pochodzić z tekstu zet, ale również z tekstu aft i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia, które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).


Definicja [Reguła decyzyjna}

Regułą decyzyjną nazwiemy każde mapowanie Δ:𝒜.

Jakość reguły mierzymy przez

PrC(Δ,A)=defp(ΔB=A)
gdzie (A,B) są parą wejście-wyjście (zauważmy że B jest tu jednoznacznie określone, więc definicja jest spójna).

Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.:

p(ΔB=A)=a𝒜,bp(A=aB=bΔ(b)=a)=bp(B=bA=Δ(b))=bp(A=Δ(b))(B=b|A=Δ(b))=bp(A=Δ(b))P(Δ(b)b)


Dualnie, prawdopodobieństwo błędu reguły Δ, definiujemy jako

PrE(Δ,A)=1PrC(Δ,A)=a𝒜,bp(A=aB=bΔ(b)a)=a𝒜p(A=a)p(ΔBa|A=a)


Interesuje nas maksymalizacja PrC(Δ,A), a więc minimalizacja PrE(Δ,A).

Jeśli rozkład prawdopodobieństwa na A jest znany, możemy taką regułę jednoznacznie wyznaczyć:


Definicja [Reguła idealnego obserwatora]

Ta reguła odwzorowuje b na Δo(b)=a, takie że p(a|b) jest maksymalne. p(a|b) możemy wyznaczyć (znając rozkład A) ze wzoru:
p(a|b)=p(ab)p(b)=p(ab)p(a)Σa𝒜p(ab)p(a)

Z definicji wynika, że

PrC(Δo,A)PrC(Δ,A)

dla dowolnej reguły decyzyjnej Δ.


Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest

Definicja [Reguła maksymalnego podobieństwa]

Ta reguła odwzorowuje b na Δmax(b)=a w taki sposób, że p(ab)=p(b|a) jest maksymalne.


Jeśli rozkład na A jest jednostajny (p(a)=1𝒜), to reguła ta odpowiada regule Δo.

Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna. Jest jednak w pewnym sensie „globalnie optymalna”. Przedstawimy tutaj szkic dowodu:

Niech 𝒜={a1,,am}, i niech 𝒫 będzie zbiorem wszystkich rozkładów prawdopodobieństwa na 𝒜,

𝒫={p:a𝒜p(a)=1}

Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa p. Średnią (globalną) jakością reguły Δ niech będzie

p𝒫PrC(Δ,p)dp=p𝒫bp(Δ(b))p(Δ(b)b)dp=bp(Δ(b)b)p𝒫p(Δ(b))dp


Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue'a), że p𝒫p(a)dp nie zależy od wyboru a. Zatem p𝒫p(Δ(b))dp jest zawsze takie samo, i żeby zmaksymalizować p𝒫PrC(Δ,p)dp, musimy maksymalizować bp(Δ(b)b), co realizuje właśnie reguła maksymalnego podobieństwa.


Wielokrotne używanie kanału

Przypuśćmy, że wysyłamy przez kanał ciąg symboli a1,a2,,ak. Jakie jest prawdopodobieństwo, że wyjściowym ciągiem będzie b1,b2,,bk? Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych P(ab).

Przypomnijmy, że zmienne losowe X1,X2,,Xk są niezależne, jeśli

P(X1=x1Xk=xk)=p(X1=x1)p(Xk=xk)

(warto zauważyć, że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych).

Rozszerzając naszą konwencję zapisową, będziemy skracać p(X1=x1Xk=xk) do p(x1xk).

Lemat

Jeśli zmienne losowe (X,Y) oraz (X',Y') są niezależne, to
p(Y=yY=y|X=xX=x)=p(Y=y|X=x)p(Y=y|X=x)
o ile zachodzi zachodzi p(X=xX=x)>0.


Dowód

Po pierwsze, zauważmy, że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'.
p(xx)=p((x𝒴)(x𝒴))=y,yp(xy)p(xy)=p(x)p(x)

Zatem

p(yy|xx)=p(yyxx)p(xx)=p(yx)p(yx)p(x)p(x)=p(y|x)p(y|x)


Wniosek [Niezależność symboli]

Załóżmy, że (A1,B1),,(Ak,Bk) są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para (Ai,Bi) jest parą wejście-wyjście dla kanału Γ. Wtedy
p(b1bk|a1ak)=p(b1|a1)p(bk|ak)

Dowód

Niezależność (A1,B1),,(Ak,Bk) implikuje, że (Ai,Bi) jest niezależne od (A2,B2),,(Ak,Bk). Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego lematu.

Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne i w większości wypadków nie możemy go użyć. Okazuje się, że można je zastąpić czymś znacznie słabszym:


Twierdzenie

Załóżmy, że (A1,B1),,(Ak,Bk) spełniają poniższe wymagania:

Bezstanowość

p(bk|a1ak,b1bk1)=p(bk|ak)

Brak feedbacku

p(ak|a1ak1,b1bk1)=p(ak|a1ak1)

Wtedy niezależność symboli jest zachowana.


Dowód

Przez indukcję możemy pokazać, że
p(a1akb1bk)=p(b1|a1)p(bk|ak)p(a1ak)

jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek k=1 jest trywialny. Krok indukcyjny uzyskujemy łącząc bezstanowość:

p(a1akb1bk)=p(bk|ak)p(a1ak,b1bk1)

z brakiem feedbacku:

p(a1ak,b1bk1)=p(a1ak1b1bk1)p(a1ak)p(a1ak1)

i włączając założenie indukcyjne:

p(a1ak1b1bk1)p(a1ak1)=p(b1|a1)p(bk1|ak1)
co kończy dowód.


Komentarz Od tej pory domyślnie będziemy przyjmować, że niezależność symboli jest zachowana za każdym razem, gdy wielokrotnie używamy kanału BSC.