Entropia warunkowa i informacja wzajemna
Definicja [Entropia zmiennej losowej]
Jeśli jest zmienną losową, określamy jej entropię jako
Innymi słowy, jest równe wartości oczekiwanej
gdzie p(X) jest zmienną losową na S zdefiniowaną jako
Umowa notacyjna. Jeśli zmienne losowe, o których mowa, będą wynikały z kontekstu, często będziemy omijać zapis i pisać po prostu a. Przykładowo będziemy pisać p(x|y) zamiast , zamiast itp.
Definicja [Entropia warunkowa]
Niech
,
będą dwiema zmiennymi losowymi. Dla
określamy
i ogólnie
.
Powyższą wartość nazywamy
entropią warunkową A od B
Zauważmy, że jeśli A i B są niezależne, to w powyższej formule , a więc . Z drugiej strony, . Ogólnie dla dowolnej funkcji mamy
Rzeczywiście, jeśli to , i w konsekwencji .
Entropia łączna.
Będziemy również rozważać pary (A,B) jako jedną zmienną losową ,
Prawdopodobieństwo, że ta zmienna przyjmie wartość (a,b), wynosi , co zapisujemy w skrócie jako . To prawdopodobieństwo w ogólności jest inne niż . Jeśli dla dowolnych
, mówimy że zmienne losowe A i B są niezależne.
Entropia wprost z definicji wynosi
Jeśli A i B są niezależne, to
Z liniowości wartości oczekiwanej dostajemy wtedy
W ogólnym przypadku możemy udowodnić:
Twierdzenie
Dla dowolnych A i B zachodzi
i równość zachodzi jedynie gdy A i B są niezależne.
Dowód
Rozpiszemy prawą stronę tak, żebyśmy mogli użyć Złotego Lematu. Użyjemy w tym celu oczywistych równości
i .
Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned H_r (A) + H_r (B) & = \sum_{a \in {\mathcal A}} p (a) \log_r \frac{1}{p(a)} + \sum_{b \in {\mathcal B}} p(b) \log_r \frac{1}{p(b)}\\ & = \sum_{a \in {\mathcal A}} \sum_{b \in {\mathcal B}} p( a \wedge b) \log_r \frac{1}{p(a)} + \sum_{b \in {\mathcal B}} \sum_{a \in {\mathcal A}} p( a \wedge b) \log_r \frac{1}{p(b)}\\ & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p( a \wedge b) \log_r \frac{1}{p(a)p(b)} \endaligned }
Ważne, że powyższe wyrażenie jest dobrze zdefiniowane, bo gdy lub , to również .
Oznaczmy chwilowo
Mamy wtedy
.
Używając Złotego Lematu dla , dla wszystkich otrzymujemy
Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned H_r (A,B) & = \sum_{ (a,b) \in ({\mathcal A} \times {\mathcal B})^{+}} p( a \wedge b) \log_r \frac{1}{p( a \wedge b)}\\ & \leq \sum_{ (a,b) \in ({\mathcal A} \times {\mathcal B})^{+}} p( a \wedge b) \log_r \frac{1}{p(a)p(b) }\\ & = H_r (A) + H_r (B) \endaligned }
Dodatkowo równość zachodzi wyłącznie wtedy, gdy
dla wszystkich
(czyli w ogóle dla wszystkich
. Inaczej - wiemy już, że niezależność A i B implikuje tutaj równość.

Definicja [Informacja]
Wartość
nazywamy informacją wzajemną zmiennych A i B.
Komentarz Powyższą definicję łatwo zrozumieć w odniesieniu do Gry w 20 pytań. Przypuścmy, że mamy zidentyfikować obiekt, który jest parą (a,b), gdzie a i b są wartościami zmiennych losowych A i B. Jeśli A i B są niezależne, najlepsze co możemy zrobić to zidentyfikować niezależnie a i b. Tym samym gramy w dwie niezależne gry „pytania o a” i „pytania o b” (co odpowiada równości ). Jeśli jednak A i B są zależne, możemy wykorzystać tę wzajemną informację do zmniejszenia liczby pytań.
Dla zwiększenia czytelności tekstu, od tej pory będziemy zwykle omijać dolny indeks r, pisząc H, I, itp. Wszędzie tam, gdzie nie napisano inaczej, wszystkie twierdzenia odnoszą się do przypadku dowolnego . Bez utraty ogólności czytelnik może założyć r=2.
Komentarz Przekształcając definicję informacji analogicznie jak w ostatnim dowodzie, otrzymujemy:
W takiej postaci widać, że informacja jest pewną miarą odległości pomiędzy faktycznym rozkładem zmiennej (A;B), a jej rozkładem gdyby A i B były niezależne.
Warto zauważyć, że powyższa suma jest nieujemna, choć niektóre składniki mogą być ujemne.
Istnieje odpowiednik równości , który stosuje się do zmiennych zależnych:
Fakt [Zasada łańcuchowa]
Dla dowolnych A i B zachodzi
Dowód
Obliczamy:
Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned H(A,B) & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p ( a \wedge b) \cdot \log \frac{1}{p( a \wedge b)}\\ & = \sum_{a \in {\mathcal A}} \sum_{b \in {\mathcal B}} p(a|b) p(b) \cdot \log \frac{1}{p(a|b) p(b)} \\ & = \sum_{a \in {\mathcal A}} \sum_{b \in {\mathcal B}} p(a|b) p(b) \cdot \left( \log \frac{1}{p(a|b)} + \log \frac{1}{p(b)} \right)\\ & = \sum_{b \in {\mathcal B}} p(b) \cdot \sum_{a \in {\mathcal A}} p(a|b) \cdot \log \frac{1}{p(a|b)} + \sum_{b \in {\mathcal B}} p(b) \log \frac{1}{p(b)} \cdot \sum_{a \in {\mathcal A}} p(a|b) \\ & = H(A|B) + H(B) \endaligned }

Używając zasady łańcuchowej, możemy wyliczać informację na różne sposoby:
Kolejną rzeczą, jaką możemy zauważyć, to że
Łatwo możemy też uogólnić zasadę łańcuchową na przypadek zmiennych
Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned H(A_1, \ldots , A_n ) & = H(A_1 | A_2, \ldots , A_n ) + H(A_2, \ldots , A_n ) \\ & = H(A_1 | A_2, \ldots , A_n ) + H(A_2 | A_3 , \ldots , A_n) + H(A_3, \ldots , A_n)\\ & = \sum_{i = 1}^n H(A_i | A_{i+1} , \ldots , A_n) \endaligned }
(przyjmujemy konwencję )
Bardziej wyrafinowane uogólnienie możemy uzyskać stosując entropię warunkową:
Fakt [Warunkowa zasada łańcuchowa]
Dla dowolnych A, B i C zachodzi
Dowód
Dla dowolnego
rozwijamy
Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned H(A,B| c) & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p ( a \wedge b | c) \cdot \log \frac{1}{p( a \wedge b| c )}\\ & = \sum_{a, b} p (a | b \wedge c) \cdot p(b|c) \cdot \left( \log \frac{1}{p (a | b \wedge c)} + \log \frac{1}{p (b|c) } \right)\\ & = \sum_{b} p(b|c) \cdot \sum_{a} p (a | b \wedge c) \cdot \log \frac{1}{p (a | b \wedge c)} + \sum_{b} p(b|c) \cdot \log \frac{1}{p (b|c) } \cdot \underbrace{\sum_{a} p (a | b \wedge c)}_{=1} \endaligned }
W powyższym wyliczeniu sumy po a i b obejmują te wartości, dla których odpowiednie prawdopodobieństwa zależne są zdefiniowane ( (nie jest określone jeśli ).
Używamy tu łatwego faktu, że jeśli , to
Uśredniając po dostajemy:
Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned H(A,B|C) & = \sum_{c \in {\mathcal C}} p(c) \cdot H (A,B | c)\\ & = \sum_{c} p(c) \cdot \sum_{b} p(b|c) \cdot \sum_{a} p (a | b \wedge c) \cdot \log \frac{1}{p (a | b \wedge c)} + \sum_{c} p(c) \cdot \sum_{b} p(b|c) \cdot \log \frac{1}{p (b|c) }\\ & = \underbrace{\sum_{b,c} p(b \wedge c) \cdot \sum_{a} p (a | b \wedge c) \cdot \log \frac{1}{p (a | b \wedge c)}}_{=H(A| B,C)} + \underbrace{\sum_{c} p(c) \cdot \sum_{b} p(b|c) \cdot \log \frac{1}{p (b|c) }}_{=H (B | C)} \endaligned }

Definicja [Informacja warunkowa]
Definiujemy informację wzajemną A i B warunkowaną przez C jako
Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned I(A;B |C) & = H(A |C) + H(B|C) - \underbrace{H(A,B|C)}_{=H(A|B,C) + H(B|C)} \\ & = H(A |C) - H(A|B,C) \endaligned }
I wreszcie, informację wzajemną A, B i C definiujemy jako:
Łatwo sprawdzimy, że ta definicja jest rzeczywiście symetryczna, tzn. nie zależy od kolejności A, B i C:
Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned I(A;C) - I(A;C|B) = H(A) - H(A|C) - \left( H (A|B) - H(A| B,C) \right) \\ & = \underbrace{H(A) - H (A|B)}_{=I(A;B)} - \underbrace{ H(A|C) - H(A| B,C)}_{=I(A;B |C)} \endaligned }
Należy jednak pamiętać, że w przeciwieństwie do i , zdefiniowana powyżej może mieć ujemną wartość.
Zależności pomiędzy wartościami itd. można przedstawić w postaci diagramu: