Teoria informacji/TI Wykład 5

Z Studia Informatyczne
Wersja z dnia 09:48, 16 lip 2006 autorstwa Stromy (dyskusja | edycje)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacjiPrzejdź do wyszukiwania

Entropia zależna i informacja wzajemna

Definicja [Entropia zmiennej losowej]

Jeśli X:S𝒳 jest zmienną losową, określamy jej entropię jako

Hr(X)=t𝒳p(X=t)logr1p(X=t)


Innymi słowy, Hr(X) jest równe wartości oczekiwanej

Hr(X)=E(logr1p(X))

gdzie p(X) jest zmienną losową na S zdefiniowaną jako p(X):sp(X=X(s))

t𝒳p(X=t)logr1p(X=t)=t𝒳X(s)=tp(s)1p(X=t)=sSp(s)1p(X=X(s))


Umowa notacyjna Jeśli zmienne losowe o których mowa będą wynikały z kontekstu, często będziemy omijać zapis X=a i pisać po prostu a. Przykładowo będziemy pisać p(x|y) zamiast p(X=x|Y=y), p(xy) zamiast p((X=x)(Y=y)) itp.


Definicja [Entropia zależna]

Niech A:S𝒜,B:S będą dwiema zmiennymi losowymi. Dla b określamy
Hr(A|b)=a𝒜p(a|b)logr1p(a|b)

i ogólnie

Hr(A|B)=bp(b)Hr(A|b).
Powyższą wartość nazywamy entopią zależną A od B


Zauważmy że jeśli A i B są niezależne, to w powyższej formule p(a|b)=a a więc Hr(A|B)=A. Z drugiej strony Hr(A|A)=0. Ogólnie dla dowolnej funkcji φ:𝒜 mamy

Hr(φ(A)|A)=0

Rzeczywiście, jeśli p(A=a)>0 to p(φ(A)=φ(a)|A=a)=1, i w konsekwencji logr1p(φ(A)=φ(a)|A=a)=0.

Entropia produktowa Będziemy również rozważać pary (A,B) jako jedną zmienną losową (A,B):S𝒜×,

(A,B)(s)=(A(s),B(s))

Prawdopodobieństwo że ta zmienna przyjmie wartość (a,b) wynosi p((A,B)=(a,b))=p((A=a)(B=b)), co zapisujemy w skrócie jako p(ab). To prawdopodobieństwo w ogólności jest inne niż p(a)p(b). Jeśli dla dowolnych a𝒜,b

p(ab)=p(a)p(b),

zmienne losowe A i B są niezależne.

Entropia Hr(A,B) wprost z definicji wynosi

Hr(A,B)=a𝒜,bp(ab)logr1p(ab)

Jeśli A i B są niezależne, to

logr1p(A,B)=logr1p(A)+logr1p(B)

Z liniowości wartości oczekiwanej dostajemy wtedy

Hr(A,B)=Hr(A)+Hr(B)


W ogólnym przypadku możemy udowodnić:


Twierdzenie

Hr(A,B)Hr(A)+Hr(B)
i równość zachodzi jedynie gdy A i B są niezależne.

Dowód Rozpiszemy prawą stronę tak żebyśmy mogli użyć Złotego Lematu. Użyjemy w tym celu oczywistych równości p(a)=bp(ab) i p(b)=a𝒜p(ab). Hr(A)+Hr(B)=a𝒜p(a)logr1p(a)+bp(b)logr1p(b)

=a𝒜bp(ab)logr1p(a)+ba𝒜p(ab)logr1p(b)
=a𝒜,bp(ab)logr1p(a)p(b)

Ważne że powyższe wyrażenie jest dobrze zdefiniowane, bo gdy p(a)=0 lub p(b)=0, to również p(ab)=0.

Oznaczmy chwilowo

(𝒜×)+={(a,b):p(a)>0 i p(b)>0}

Mamy wtedy

(a,b)(𝒜×)+p(ab)=(a,b)(𝒜×)+p(a)p(b)=1.

Używając Złotego Lematu dla x=p(ab), y=p(a)p(b) dla wszystkich (a,b)(𝒜×)+ otrzymujemy Hr(A,B)=(a,b)(𝒜×)+p(ab)logr1p(ab)

(a,b)(𝒜×)+p(ab)logr1p(a)p(b)
=Hr(A)+Hr(B)

Dodatkowo równość zachodzi wyłącznie gdy p(ab)=p(a)p(b) dla wszystkich (a,b)(𝒜×)+ (czyli w ogóle dla wszystkich a𝒜,b. W drugą stronę, wiemy już że niezależność A i B implikuje tutaj równość. QED.


Definicja [Informacja]

Wartość

I(A;B)=Hr(A)+Hr(B)Hr(A,B)

nazywamy informacją wzajemną zmiennych A i B.


Komentarz Powyższę definicję łatwo zrozumieć w odniesieniu do Gry w 20 pytań. Przypuścmy że mamy zidentyfikować obiekt który jest parą (a,b) gdzie a i b są wartościami zmiennych losowych A i B. Jeśli A i B są niezależne, najlepsze co możemy zrobić to zidentyfikować niezależnie a i b. Tym samym gramy w dwie niezależne gry „pytania o a” i „pytania o b” (co odpowiada równości Hr(A,B)=Hr(A)+Hr(B)). Jeśli jednak A i B są zależne, możemy wykorzystać tę wzajemną informację do zmniejszenia liczby pytań.


Dla zwiększenia czytelności tekstu, od tej poty będziemy zwykle omijać dolny indeks r, pisząc H, I, itp. Wszędzie tam gdzie nie napisano inaczej, wszystkie twierdzenia odnoszą się do przypadku dowolnego r>1. Bez utraty ogólności czytelnik może założyć r=2.

Komentarz Przekształcając definicję informacji analogicznie jak w ostatnim dowodzie, otrzymujemy:

I(A;B)=a𝒜,bp(ab)(log1p(a)p(b)log1p(ab))

W takiej postaci widać że informacja jest pewną miarą odległości pomiędzy faktycznym rozkładem zmiennej (A;B), a jej rozkładem gdyby A i B były niezależne.

Warto zauważyć że powyższa suma jest nieujemna, choć niektóre składniki (log1p(a)p(b)log1p(ab)) mogą być ujemne.


Istnieje odpowiednik równości H(A,B)=H(A)+H(B), który stosuje się do zmiennych zależnych:


Fakt [Zasada łańcuchowa]

H(A,B)=H(A|B)+H(B)

Dowód Obliczamy:

H(A,B)=a𝒜,bp(ab)log1p(ab)

=a𝒜bp(a|b)p(b)log1p(a|b)p(b)
=a𝒜bp(a|b)p(b)(log1p(a|b)+log1p(b))
=bp(b)a𝒜p(a|b)log1p(a|b)+bp(b)log1p(b)a𝒜p(a|b)
=H(A|B)+H(B)

QED.


Używając zasady łańcuchowej, możemy wyliczać informację na różne sposoby: I(A;B)=H(A)H(A|B)=H(B)H(B|A)

Kolejną rzeczą jaką możemy zauważyć to I(A;B)min{H(A),H(B)}

Łatwo możemy też uogólnić zasadę łańcuchową na przypadek n2 zmiennych A1,A2,,An

H(A1,,An)=H(A1|A2,,An)+H(A2,,An)

=H(A1|A2,,An)+H(A2|A3,,An)+H(A3,,An)
=i=1nH(Ai|Ai+1,,An)

(przyjmujemy konwencję H(A|)=A)


Bardziej wyrafinowane uogólnienie możemy uzyskać stosując entropię zależną:


Fakt [Zależna zasada łańcuchowa]

H(A,B|C)=H(A|B,C)+H(B|C)

Dowód Mamy:

H(A,B|c)=a𝒜,bp(ab|c)log1p(ab|c)

=a,bp(a|bc)p(b|c)(log1p(a|bc)+log1p(b|c))
=bp(b|c)ap(a|bc)log1p(a|bc)+bp(b|c)log1p(b|c)ap(a|bc)1

W powyższym wyliczeniu sumy po a i b obejmują te wartości, dla których odpowiednie prawdopodobieństwa zależne są zdefiniowane (p(x|y) nie jest określone jeśli p(y)=0). Używamy tu łatwego faktu, że jeśli p(ab|c)>0, to

p(ab|c)=p(abc)p(c)=p(abc)p(bc)p(bc)p(c)=p(a|bc)p(b|c)

Uśredniając po p(c) dostajemy:

H(A,B|C)=c𝒞p(c)H(A,B|c)

=cp(c)bp(b|c)ap(a|bc)log1p(a|bc)+cp(c)bp(b|c)log1p(b|c)
=b,cp(bc)ap(a|bc)log1p(a|bc)H(A|B,C)+cp(c)bp(b|c)log1p(b|c)H(B|C)

QED.


Czytelnik może teraz łatwo pokazać że:

H(A,B|C)H(A|C)+H(B|C)

i równość zachodzi wtedy i tylko wtedy gdy A i B są niezależne w odniesieniu do C, czyli

p(A=aB=b|C=c)=p(A=a|C=c)p(B=b|C=c)

(dowód na ćwiczeniach)


Definicja [Informacja zależna]

Definiujemy informację wzajemną A i B w odniesieniu do C jako

I(A;B|C)=H(A|C)+H(B|C)H(A,B|C)H(A|B,C)+H(B|C)

=H(A|C)H(A|B,C)

I wreszcie, informacją wzajemną A, B i C definiujemy jako:

R(A;B;C)=I(A;B)I(A;B)|C)

Łatwo sprawdzimy że ta definicja jest rzeczywiście symetryczna, tzn nie zależy od kolejności A, B i C:

I(A;C)I(A;C|B)=H(A)H(A|C)(H(A|B)H(A|B,C))

=H(A)H(A|B)I(A;B)H(A|C)H(A|B,C)I(A;B|C)

Należy jednak pamiętać że w przeciwieństwie do I(A;B) i I(A;B|C), zdefiniowana powyżej R(A;B;C) może mieć ujemną wartość.


Zależności pomiędzy wartościami H(X), H(Y), H(Z), H(X,Y), H(X,Y|Z), I(X;Y), I(X;Y|Z), R(X;Y;Z) itd. można przedstawić w postaci diagramu: