Teoria informacji/TI Wykład 3: Różnice pomiędzy wersjami

Aktualna wersja na dzień 22:16, 11 wrz 2023

Minimalna długość kodu

Jak widzieliśmy w analizie przykładu gry w zgadywanie, jeśli wszystkie prawdopodobieństwa są potęgami $\frac{1}{2}$ , to entropia jest równa średniej długości optymalnego kodu. Udowodnimy, że zawsze stanowi ona dolne ograniczenie:

Definicja [długość kodu]

Dla danego kodu

φ

, średnią długość kodu definiujemy jako

L (φ) = \sum_{s \in S} p (s) \cdot | φ (s) |

Dla danego S i parametru $r > 1$ niech $L_{r} (S)$ będzie minimum ze wszystkich $L (φ)$ dla dowolnego kodu $φ : S \to Σ^{*}$ , gdzie $| Σ | = r$ . Zauważmy, że na mocy Twierdzenia McMillana wystarczy, że znajdziemy minimum dla wszystkich kodów bezprefiksowych.

Twierdzenie

Dla dowolnej skończonej przestrzeni probabilistycznej S

H_{r} (S) \leq L_{r} (S)

i równość zachodzi wtedy i tylko wtedy, gdy wszystkie prawdopodobieństwa p(s) są potęgami

\frac{1}{r}

Dowód

Rozważmy dowolny kod $φ : S \to Σ^{*}$ gdzie $| Σ | = r$ . Pokażmy, że

H_{r} (S) \leq L (φ)

Wystarczy w tym celu użyć Złotego Lematu dla $x_{i} = p (s_{i})$ i $y_{i} = \frac{1}{r^{| φ (s_{i}) |}}$ .

Pozostało jedynie pokazać drugą część twierdzenia. Jeśli $H_{r} (S) = L_{r} (S)$ , to znaczy, że $H_{r} (S) = L (φ)$ dla pewnego kodu $φ$ . Znów na podstawie Złotego Lematu dostajemy $p (s) = \frac{1}{r^{| φ (s) |}}$ dla wszystkich $s \in S$ .

Z drugiej strony, jeśli wszystkie prawdopodobieństwa są postaci

\frac{1}{r^{ℓ (s)}}

, to na mocy nierówności Krafta istnieje kod

φ

z

| φ (s) | = ℓ (s)

, i dla tego kodu

L (φ) = H_{r} (S)

. A zatem

L_{r} (S) \leq H_{r} (S)

, czyli musi zachodzić równość.

Znalezienie optymalnego kodu bezprefiksowego dla danego rozkładu prawdopodobieństwa nie jest wcale trudnym zadaniem. Algorytm rozwiązujący ten problem podał amerykański inżynier David A. Huffman (1925-1999).

Algorytm Huffmana
(dla zbioru kodowanego S i alfabetu  $Σ$ )
Jeśli  $| S | \leq | Σ |$ , przypisz po prostu jakieś symbole obiektom z S. W przeciwnym wypadku:
1. Jeśli  $| Σ | > 2$ , w razie konieczności uzupełnij S symbolami o prawdopodobieństwie 0, 
   tak aby  $| S | mod (| Σ | - 1) = 1$ .
2. Wybierz  $k = | Σ |$  symboli  $t_{1}, \dots, t_{k} \in S$  o minimalnych prawdopodobieństwach.
3. Uruchom rekurencyjnie ten algorytm dla zbioru  $S^{'} = S - {t_{1}, \dots, t_{k}} + {#}$  z prawdopodobieństwami 
    $q_{s} = p_{s}$  dla  $s \in S$  i  $q_{#} = p_{t_{1}} + \dots + p_{t_{k}}$ .
4. Mając dane drzewo  $T_{S^{'}}$  z poprzedniego punktu skonstruuj drzewo  $T_{S}$  w następujący sposób: 
   Dodaj k synów do słowa  $T_{S^{'}} (#)$  i oznacz ich jako  $t_{1}, \dots, t_{k}$ .

Dla przedstawionej powyżej definicji kodu problem mamy zatem rozwiązany. Niestety, w większości wypadków długość takiego optymalnego kodu będzie się różniła od dolnej granicy $H_{r} (S)$ . Na szczęście możemy ten problem obejść. Okazuje się, że dla dowolnego zadanego S i p można uzyskiwać mniejszą średnią długość kodu, dowolnie zbliżając się do $H_{r} (S)$ . Uzyskuje się to przez lekkie poszerzenie samego pojęcia kodu.

Przykład [Kodowanie par]

Niech $S = {s_{1}, s_{2}}$ z $p (s_{1}) = \frac{3}{4}, p (s_{2}) = \frac{1}{4}$ . Oczywiście $L_{2} (S) = 1$ . (Jednocześnie łatwo oszacować, że $H_{2} (S) < 1$ ). Oznacza to, że nie możemy zakodować wiadomości $α \in Σ^{*}$ w postaci krótszej niż sama $α$ . Wyobraźmy sobie jednak następujące kodowanie par:

\begin{aligned} s_{1} s_{1} & \mapsto 0 \\ s_{1} s_{2} & \mapsto 10 \\ s_{2} s_{1} & \mapsto 110 \\ s_{2} s_{2} & \mapsto 111 \end{aligned}

Nie jest to w dosłownym sensie kod dla S, ale wygląda na to, że możemy go użyć do zakodowania dowolnych wiadomości o parzystej długości. Faktycznie, zgodnie z definicją to jest kod dla $S^{2}$ . Rozważmy $S^{2} = S \times S$ jako produkt (probabilistyczny) przestrzeni, w którym

p (s_{i}, s_{j}) = p (s_{i}) \cdot p (s_{j})

Średnia długość naszego kodowania dwuznakowych bloków będzie wynosić

{(\frac{3}{4})}^{2} \cdot 1 + \frac{3}{4} \cdot \frac{1}{4} \cdot (2 + 3) + {(\frac{1}{4})}^{2} \cdot 3 = \frac{9}{16} + \frac{15}{16} + \frac{3}{16} = \frac{27}{16} < 2

Jak można się spodziewać, podążając tym tropem dla kodów złożonych z trzech, czterech i więcej znaków, będziemy mogli otrzymać coraz efektywniejsze kodowania. Czy jednak możemy zejść poniżej granicy entropii, czyli uzyskać

\frac{L_{r} (S^{n})}{n} < H_{r} (S)

dla pewnego n?

Udowodnimy później, że to jest niemożliwe, ale Pierwsze Twierdzenie Shannona pokaże, że możemy zbliżyć się do niej dowolnie blisko dla $n \to \infty$ .

Najpierw jednak policzmy entropię $H (S^{n})$ przestrzeni $S^{n}$ interpretowanej jako przestrzeń produktowa.

Entropia przestrzeni produktowej

Entropię $H (S^{n})$ możemy znaleźć przez nieco żmudne elementarne wyliczenia, ale wygodniej będzie skorzystać z ogólnych własności zmiennych losowych opisanych w wykładzie 7 z Rachunku prawdopodobieństwa i statystyki.

Przypomnijmy, że wartość oczekiwaną (zwaną też nadzieją matematyczną) zmiennej losowej $X : S \to ℝ$ można przedstawić na dwa równoważne sposoby:

E X = \sum_{s \in S} p (s) \cdot X (s) = \sum_{t \in X (S) \subseteq ℝ} t \cdot p (X = t)

Drugi sposób często zapisuje się prościej jako

\sum_{t \in ℝ} t \cdot p (X = t)

przyjmując, że suma dowolnie wielu zer daje 0.

Używana tutaj notacja $p (X = t)$ jest szczególnym przypadkiem notacji $p (ψ (X))$ , określającej prawdopodobieństwo że zachodzi zdarzenie $ψ (X)$ , czyli sumę p(s) po wszystkich $s \in S$ , dla których zdanie $ψ (X (S))$ jest spełnione.

Przypominamy z Rachunku Prawdopodobieństwa (por. wspomniany wykład 7):

Fakt [Liniowość wartości oczekiwanej]

Jeśli X i Y są dowolnymi zmiennymi losowymi (określonymi na tej samej przestrzeni probabilistycznej), to dla dowolnych

α, β \in ℝ

:

E (α X + β Y) = α E X + β E Y

Rozważmy teraz przypadek, gdy mamy dwie przestrzenie probabilistyczne S i Q. (Zwyczajowo, jeśli nie powoduje to niejasności, będziemy używać tej samej litery p na określenie prawdopodobieństwa we wszystkich przestrzeniach).

Niech $S \times Q$ będzie przestrzenią produktową z prawdopodobieństwem określonym następująco

p (s, q) = p (s) \cdot p (q)

.

Dla zmiennych losowych $X : S \to ℝ$ i $Y : Q \to ℝ$ , definiujemy zmienne $\hat{X}$ , $\hat{Y}$ na $S \times Q$ jako

\hat{X} (s, q) = X (s)

\hat{Y} (s, q) = Y (q)

Oczywiście mamy:

p (\hat{X} = t) = \sum_{\hat{X} (s, q) = t} p (s, q) = \sum_{X (s) = t} \sum_{q \in Q} p (s) \cdot p (q)

= \sum_{X (s) = t} p (s) = P (X = t)

i analogicznie $p (\hat{Y} = t) = p (Y = t)$ . Zatem $E \hat{X} = E X$ i $E \hat{Y} = E Y$ . Z liniowości wartości oczekiwanej

E (\hat{X} + \hat{Y}) = E \hat{X} + E \hat{Y} = E X + E Y

Niech teraz $X : s \mapsto \log_{r} \frac{1}{p (s)}$ i $Y : q \mapsto \log_{r} \frac{1}{p (q)}$ . Zgodnie z definicją entropii, mamy więc $H_{r} (S) = E X = E \hat{X}$ , $H_{r} (Q) = E Y = E \hat{Y}$ . Z przyjętych definicji i własności funkcji $\log$ otrzymujemy

(\hat{X} + \hat{Y}) (s, q) = \log_{r} \frac{1}{p (s)} + \log_{r} \frac{1}{p (q)} = \log_{r} \frac{1}{p (s)} \cdot \frac{1}{p (q)} = \log_{r} \frac{1}{p (s, q)}

A zatem $(\hat{X} + \hat{Y})$ jest dokładnie tą zmienną losową na $S \times Q$ , której wartość oczekiwana jest entropią $S \times Q$ . Czyli

H_{r} (S \times Q) = E (\hat{X} + \hat{Y}) = H_{r} (S) + H_{r} (Q)

.

W konsekwencji:

Fakt

Niech

S^{n}

będzie n-tą potęgą przestrzeni S z prawdopodobieństwem

p (s_{1}, \dots, s_{n}) = p (s_{1}) \cdot \dots \cdot p (s_{n})

. Wtedy

H_{r} S^{n} = n \cdot H_{r} S

.

@@ Linia 1: / Linia 1: @@
-Jak widzieliśmy na przykładzie z grą, jeśli wszystkie prawdopodobieństwa są potęgami <math>\frac{1}{2}</math>, to entropia jest równa średniej długości optymalnego kodu. Udowodnimy że zawsze stanowi ona dolne ograniczenie:
+===Minimalna długość kodu===
-{{definicja|[długość kodu]|długość_kodu|Dla danego kodu <math>\varphi</math>, '''długość kodu''' definiujemy jako
+Jak widzieliśmy w [[Teoria informacji/TI Wykład 2#analiza_gry|analizie przykładu]] gry w zgadywanie, jeśli wszystkie prawdopodobieństwa są potęgami <math>\frac{1}{2}</math>, to entropia jest równa średniej długości optymalnego kodu. Udowodnimy, że zawsze stanowi ona dolne ograniczenie:
-:<math>L(\varphi ) = \sum_{s \in S} p(s) \cdot |\varphi (s)|</math>}}
+{{definicja|[długość kodu]|długość_kodu|Dla danego kodu <math>\varphi</math>, '''średnią długość kodu''' definiujemy jako
+<center><math>L(\varphi ) = \sum_{s \in S} p(s) \cdot |\varphi (s)|</math></center>}}
 Dla danego S i parametru <math>r>1</math> niech <math>L_r(S)</math> będzie minimum ze wszystkich <math>L(\varphi)</math> dla dowolnego kodu <math>\varphi:S \to \Sigma^*</math>, gdzie <math>|\Sigma|=r</math>.
-Zauważmy że na mocy Twierdzenia Mcmillana wystarczy że znajdziemy minimum dla wszystkich kodów bezprefiksowych.
+Zauważmy, że na mocy Twierdzenia McMillana wystarczy, że znajdziemy minimum dla wszystkich kodów bezprefiksowych.
 {{twierdzenie||kod_entropia|Dla dowolnej skończonej przestrzeni probabilistycznej ''S''
-:<math>H_r(S) \le L_r(S)</math>
+<center><math>H_r(S) \le L_r(S)</math></center>
-i równość zachodzi wtedy i tylko wtedy gdy wszystkie prawdopodobieństwa ''p(s)'' są potęgami <math>\frac{1}{r}</math>}}
+i równość zachodzi wtedy i tylko wtedy, gdy wszystkie prawdopodobieństwa ''p(s)'' są potęgami <math>\frac{1}{r}</math>}}
 {{dowod||do_kod_entropia|
-Rozważmy dowolny kod <math>\varphi:S \to \Sigma^*</math> gdzie <math>|\Sigma|=r</math>. Pokażmy że
+Rozważmy dowolny kod <math>\varphi:S \to \Sigma^*</math> gdzie <math>|\Sigma|=r</math>. Pokażmy, że
-:<math>H_r(S) \le L(\varphi)</math>
+<center><math>H_r(S) \le L(\varphi)</math></center>
 Wystarczy w tym celu użyć Złotego Lematu dla <math>x_i=p(s_i)</math> i <math>y_i=\frac{1}{r^{|\varphi(s_i)|}}</math>.
-Pozostało jedynie pokazać drugą część twierdzenie. Jeśli <math>H_r(S)=L_r(S)</math>, to znaczy że <math>H_r(S)=L(\varphi)</math> dla pewnego kodu <math>\varphi</math>. Znów na podstawie Złotego Lematu dostajemy <math>p(s) = \frac{1}{r^{|\varphi (s)|}}</math> dla wszystkich <math>s \in S</math>.
+Pozostało jedynie pokazać drugą część twierdzenia. Jeśli <math>H_r(S)=L_r(S)</math>, to znaczy, że <math>H_r(S)=L(\varphi)</math> dla pewnego kodu <math>\varphi</math>. Znów na podstawie Złotego Lematu dostajemy <math>p(s) = \frac{1}{r^{|\varphi (s)|}}</math> dla wszystkich <math>s \in S</math>.
-Z drugiej strony, jeśli wszystkie prawdopodobieństwa są postaci <math>\frac{1}{r^{\ell(s)}}</math>, to na mocy nierówności Krafta, istnieje kod <math>\varphi</math> z <math>|\varphi(s)|=\ell(s)</math>, i dla tego kodu <math>L(\varphi)=H_r(S)</math>. A zatem <math>L_r(S) \le H_r(S)</math>, czyli musi zachodzić równość.}}
+Z drugiej strony, jeśli wszystkie prawdopodobieństwa są postaci <math>\frac{1}{r^{\ell(s)}}</math>, to na mocy nierówności Krafta istnieje kod <math>\varphi</math> z <math>|\varphi(s)|=\ell(s)</math>, i dla tego kodu <math>L(\varphi)=H_r(S)</math>. A zatem <math>L_r(S) \le H_r(S)</math>, czyli musi zachodzić równość.}}
-Znalezienie optymalnego kodu bezprefiksowego dla danego rozkładu prawdopodobieństwa nie jest wcale trudnym zadaniem. Prosty algorytm rozwiązujący ten problem podał Huffman. Wygląda on następująco:
+Znalezienie optymalnego kodu bezprefiksowego dla danego rozkładu prawdopodobieństwa nie jest wcale trudnym zadaniem. Algorytm rozwiązujący ten problem podał amerykański inżynier '''David A. Huffman (1925-1999)'''.
+{{kotwica|huffman|}}
   '''Algorytm Huffmana'''
   (dla zbioru kodowanego S i alfabetu <math>\Sigma</math>)
-  Jeśli <math>|S| \le |\Sigma|</math> to przypisz po prostu jakieś symbole obiektom z S. W przeciwnym wypadku
+  Jeśli <math>|S| \le |\Sigma|</math>, przypisz po prostu jakieś symbole obiektom z S. W przeciwnym wypadku:
-. Uzupełnij S symbolami o prawdopodobieństwie 0 tak aby <math>|S| \mod (\Sigma -1) = 1</math>
+. Jeśli <math>|\Sigma| > 2</math>, w razie konieczności uzupełnij S symbolami o prawdopodobieństwie 0,
-. Wybierz <math>k=|\Sigma|</math> symboli <math>t_1, \ldots, t_k \in S</math> o minimalnych prawdopodobieństwach
+    tak aby <math>|S| \mod (|\Sigma| -1) = 1</math>.
+. Wybierz <math>k=|\Sigma|</math> symboli <math>t_1, \ldots, t_k \in S</math> o minimalnych prawdopodobieństwach.
 . Uruchom rekurencyjnie ten algorytm dla zbioru <math>S'=S-\{t_1, \ldots, t_k\}+\{\#\}</math> z prawdopodobieństwami
- <math>q_s=p_s</math> dla <math>s \in S</math> i <math>q_\# = p_{t_1} + \ldots + p_{t_k}</math>.
+    <math>q_s=p_s</math> dla <math>s \in S</math> i <math>q_\# = p_{t_1} + \ldots + p_{t_k}</math>.
 . Mając dane drzewo <math>T_{S'}</math> z poprzedniego punktu skonstruuj drzewo <math>T_S</math> w następujący sposób:
- Dodaj k synów do słowa <math> T_{S'}(\#)</math> i oznacz je jako <math> t_1, \ldots, t_k</math>.
+    Dodaj k synów do słowa <math>T_{S'}(\#)</math> i oznacz ich jako <math>t_1, \ldots, t_k</math>.
-Dla przedstawionej powyżej definicji kodu problem mamy zatem rozwiązany. Niestety w większości wypadków długość takiego
+Dla przedstawionej powyżej definicji kodu problem mamy zatem rozwiązany. Niestety, w większości wypadków długość takiego
 optymalnego kodu będzie się różniła od dolnej granicy <math>H_r(S)</math>. Na szczęście możemy ten problem obejść.
-Okazuje się że dla dowolnego zadanego ''S'' i ''p'' można uzyskiwać mniejszą średnią długość kodu, dowolnie zbliżając się do <math>H_r(S)</math>. Uzyskuje się to przez lekkie poszerzenie samego pojęcia kodu.
+Okazuje się, że dla dowolnego zadanego ''S'' i ''p'' można uzyskiwać mniejszą średnią długość kodu, dowolnie zbliżając się do <math>H_r(S)</math>. Uzyskuje się to przez lekkie poszerzenie samego pojęcia kodu.
 {{przyklad|[Kodowanie par]|kodowanie par|
-Niech <math>S=\{s_1,s_2\}</math> z <math>p(s_1)=\frac{3}{4}, p(s_2)=\frac{1}{4}</math>. Oczywiście <math>L_2(S)=1</math>. (Jednocześnie łatwo oszacować że <math>H_2(S)<1</math>).
+Niech <math>S=\{s_1,s_2\}</math> z <math>p(s_1)=\frac{3}{4}, p(s_2)=\frac{1}{4}</math>. Oczywiście <math>L_2(S)=1</math>. (Jednocześnie łatwo oszacować, że <math>H_2(S)<1</math>).
-Oznacza to że nie możemy zakodować wiadomości <math>\alpha \in \Sigma^*</math> w postaci krótszej niż sama <math>\alpha</math>. Wyobraźmy sobie jednak następujące kodowanie par:
+Oznacza to, że nie możemy zakodować wiadomości <math>\alpha \in \Sigma^*</math> w postaci krótszej niż sama <math>\alpha</math>. Wyobraźmy sobie jednak następujące kodowanie par:
-:<math> s_1 s_1 \mapsto 0</math>
+<center><math>\begin{align}
-:<math> s_1 s_2 \mapsto 10</math>
+ s_1 s_1 & \mapsto 0 \\
-:<math> s_2 s_1 \mapsto 110</math>
+ s_1 s_2 & \mapsto 10\\
-:<math> s_2 s_2 \mapsto 111</math>
+ s_2 s_1 & \mapsto 110\\
+ s_2 s_2 & \mapsto 111
+\end{align}
+</math></center>
-Nie jest to w dosłownym sensie kod dla ''S'', ale wygląda na to że możemy go użyć do zakodowania dowolnych wiadomości o parzystej długości. Faktycznie, zgodnie z definicją to ''jest'' kod dla <math>S^2</math>. Rozważmy <math>S^2 = S \times  S</math> jako produkt (probabilistyczny) przestrzeni, w którym
+Nie jest to w dosłownym sensie kod dla ''S'', ale wygląda na to, że możemy go użyć do zakodowania dowolnych wiadomości o parzystej długości. Faktycznie, zgodnie z definicją to ''jest'' kod dla <math>S^2</math>. Rozważmy <math>S^2 = S \times  S</math> jako produkt (probabilistyczny) przestrzeni, w którym
-:<math>p \left(  s_i, s_j \right) = p(s_i) \cdot p(s_j)</math>
+<center><math>p \left(  s_i, s_j \right) = p(s_i) \cdot p(s_j)</math></center>
 Średnia długość naszego kodowania dwuznakowych bloków będzie wynosić
-:<math>\left( \frac{3}{4} \right)^2 \cdot 1 + \frac{3}{4} \cdot \frac{1}{4}\cdot (2 + 3) + \left( \frac{1}{4} \right)^2 \cdot 3 = \frac{9}{16} + \frac{15}{16} + \frac{3}{16} = \frac{27}{16} < 2</math>}}
+<center><math>\left( \frac{3}{4} \right)^2 \cdot 1 + \frac{3}{4} \cdot \frac{1}{4}\cdot (2 + 3) + \left( \frac{1}{4} \right)^2 \cdot 3 = \frac{9}{16} + \frac{15}{16} + \frac{3}{16} = \frac{27}{16} < 2</math></center>}}
-Jak można się spodziewać, podążając tym tropem dla kodów złożonych z trzech, czterech i więcej znaków będziemy mogli otrzymać coraz efektywniejsze kodowania. Czy jednak możemy zejść poniżej granicy entropii, czyli uzyskać
+Jak można się spodziewać, podążając tym tropem dla kodów złożonych z trzech, czterech i więcej znaków, będziemy mogli otrzymać coraz efektywniejsze kodowania. Czy jednak możemy zejść poniżej granicy entropii, czyli uzyskać
-:<math>\frac{L_r (S^n )}{n} < H_r (S)</math>
+<center><math>\frac{L_r (S^n )}{n} < H_r (S)</math></center>
+dla pewnego n?
-dla pewnego n?
+Udowodnimy później, że to jest niemożliwe, ale Pierwsze Twierdzenie Shannona pokaże, że możemy zbliżyć się do niej dowolnie blisko dla <math>n \to \infty</math>.
+Najpierw jednak policzmy entropię <math>H(S^n)</math> przestrzeni <math>S^n</math> interpretowanej jako przestrzeń produktowa.
-Udowodnimy później że to jest niemożliwe, ale Pierwsze Twierdzenie Shannona pokaże że możemy zbliżyć się do niej dowolnie blisko, dla <math>n \to \infty</math>.
+===Entropia przestrzeni produktowej===
-Najpierw jednak policzmy entropię <math>H(S^n)</math> przestrzeni <math>S^n</math> interpretowanej jako przestrzeń produktowa. Można to zrobić przez żmudne elementarne wyliczenia, ale spróbujemy uzyskać wynik na podstawie ogólnych własności zmiennych losowych.
+Entropię <math>H(S^n)</math> możemy znaleźć przez nieco żmudne elementarne wyliczenia, ale wygodniej będzie skorzystać z ogólnych własności zmiennych losowych opisanych w
+[[Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych|wykładzie 7]]
+z [[Rachunek prawdopodobieństwa i statystyka| Rachunku prawdopodobieństwa i statystyki]].
-Przypomnijmy że wartość oczekiwana zmiennej losowej <math>X:S \to \mathbb{R}</math> można przedstawić na dwa równoważne sposoby:
+Przypomnijmy, że wartość oczekiwaną (zwaną też nadzieją matematyczną)
-:<math>E X = \sum_{s \in S} p(s) \cdot X(s) = \sum_{t \in X(S) \subseteq \mathbb(R) }  t \cdot p (X = t)</math>
+zmiennej losowej <math>X:S \to \mathbb{R}</math> można przedstawić na dwa równoważne sposoby:
+<center><math>E X = \sum_{s \in S} p(s) \cdot X(s) = \sum_{t \in X(S) \subseteq \mathbb{R} }  t \cdot p (X = t)</math></center>
 Drugi sposób często zapisuje się prościej jako
-:<math> \sum_{t \in \mathbb(R) }  t \cdot p (X = t)</math>
+<center><math>\sum_{t \in \mathbb{R} }  t \cdot p (X = t)</math></center>
+przyjmując, że suma dowolnie wielu zer daje 0.
-przyjmując że suma dowolnie wielu zer daje 0.
+Używana tutaj notacja <math>p(X=t)</math> jest szczególnym przypadkiem notacji <math>p (\psi (X))</math>, określającej ''prawdopodobieństwo że zachodzi zdarzenie <math>\psi(X)</math>'', czyli sumę ''p(s) '' po wszystkich <math>s \in S</math>, dla których zdanie <math>\psi(X(S))</math> jest spełnione.
-Używana tutaj notacja <math>p(X=t)</math> jest szczególnym przypadkiem notacji <math>p (\psi (X))</math>, określającej ''prawdopodobieństwo że zachodzi <math>\psi(X)</math>'', czyli sumę ''p(s) '' po wszystkich ''s'' dla których <math>\psi(X(S))</math> jest spełnione.
+Przypominamy z Rachunku Prawdopodobieństwa
+(por. wspomniany [[Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych|wykład 7]]):
-Przypominamy z Rachunku Prawdopodobieństwa:
+{{fakt|[Liniowość wartości oczekiwanej]|wartość_oczekiwana|Jeśli ''X'' i ''Y'' są dowolnymi zmiennymi losowymi (określonymi na tej samej przestrzeni probabilistycznej), to dla dowolnych <math>\alpha , \beta \in \mathbb{R}</math>:
+<center><math>E (\alpha X + \beta Y) = \alpha E X + \beta E Y</math></center>}}
-{{fakt|[Liniowość wartości oczekiwanej]|wartość_oczekiwana|Jeśli ''X'' i ''Y'' są dowolnymi zmiennymi losowymi (określonymi na tej samej przestrzeni probabilistycznej), to dla dowolnych <math>\alpha , \beta \in \mathbb(R)</math>:
+Rozważmy teraz przypadek, gdy mamy dwie przestrzenie probabilistyczne ''S'' i ''Q''. (Zwyczajowo, jeśli nie powoduje to niejasności, będziemy używać tej samej litery ''p'' na określenie prawdopodobieństwa we wszystkich przestrzeniach).
-:<math>E (\alpha X + \beta Y) = \alpha E X + \beta E Y</math>}}
+Niech <math>S \times Q</math> będzie przestrzenią produktową z prawdopodobieństwem określonym następująco
+<center><math>p(s,q)=p(s) \cdot p(q)</math>.</center>
-Rozważmy teraz przypadek gdy mamy dwie przestrzenie probabilistyczne ''S'' i ''Q''. (Zwyczajowo, jeśli nie powoduje to niejasności, będziemy używać tej samej litery ''p'' na określenie prawdopodobieństwa we wszystkich przestrzeniach).
+Dla zmiennych losowych <math>X : S \to \mathbb{R}</math> i <math>Y : Q \to \mathbb{R}</math>, definiujemy zmienne <math>\hat{X}</math>, <math>\hat{Y}</math> na <math>S \times Q</math> jako
-Niech <math>S \times Q</math> będzie przestrzenią produktową, z prawdopodobieństwem określonym następująco
+<center><math>\hat{X} (s,q) = X(s)</math></center>
+<center><math>\hat{Y} (s,q) = Y(q)</math></center>
-:<math>p(s,q)=p(s) \cdot p(q)</math>
+Oczywiście mamy:
-Dla zmiennych losowych <math>X : S \to \mathbb(R)</math> i <math>Y : Q \to \mathbb(R)</math>, definiujemy zmienne <math>\hat(X)</math>, <math>\hat(Y)</math> na <math> S \times Q</math> jako
+<center><math>p (\hat{X} = t) = \sum_{\hat{X}(s,q) = t} p (s,q) = \sum_{ {X}(s) = t} \;  \sum_{q \in Q}  p(s) \cdot p(q)</math></center>
-:<math> \hat{X} (s,q) = X(s)</math>
+<center><math>= \sum_{ {X}(s) = t} p(s) = P(X = t)</math></center>
-:<math> \hat{Y} (s,q) = Y(q)</math>
-Oczywiście mamy:
-:<math>p (\hat{X} = t) = \sum_{\hat{X}(s,q) = t} p (s,q) = \sum_{ {X}(s) = t} \;  \sum_{q \in Q}  p(s) \cdot p(q) = \sum_{ {X}(s) = t} p(s) = P(X = t)</math>
 i analogicznie <math>p (\hat{Y} = t) = p (Y = t)</math>.
 Zatem <math>E \hat{X} = E X</math> i <math>E \hat{Y} = E Y</math>. Z liniowości wartości oczekiwanej
-:<math>E (\hat{X} + \hat{Y}) = E \hat{X} + E \hat{Y} = EX + EY</math>
+<center><math>E (\hat{X} + \hat{Y}) = E \hat{X} + E \hat{Y} = EX + EY</math></center>
-Niech teraz <math>X: s \mapsto \log_r \frac{1}{p(s)}</math> i <math>Y: q \mapsto \log_r \frac{1}{p(q)}</math>. Rozkład sumy tych zmiennych będzie miał postać
+Niech teraz <math>X: s \mapsto \log_r \frac{1}{p(s)}</math> i <math>Y: q \mapsto \log_r \frac{1}{p(q)}</math>.
-:<math>(\hat{X} + \hat{Y}) (s,q) =  \log_r \frac{1}{p(s)} + \log_r  \frac{1}{p(q)} = \log_r \frac{1}{p(s)} \cdot \frac{1}{p(q)}= \log_r \frac{1}{p(s,q)}</math>
+Zgodnie z  [[Teoria informacji/TI Wykład 2#entropia|definicją entropii]],
+mamy więc <math>H_r(S) = E X =E \hat{X}</math>, <math>H_r(Q) = E Y = E \hat{Y}</math>. Z przyjętych definicji i własności funkcji <math>\log</math> otrzymujemy
+<center><math>(\hat{X} + \hat{Y}) (s,q) =  \log_r \frac{1}{p(s)} + \log_r  \frac{1}{p(q)} = \log_r \frac{1}{p(s)} \cdot \frac{1}{p(q)}= \log_r \frac{1}{p(s,q)}</math></center>
-Ale zgodnie z definicją, to jest dokładnie zmienna losowa na <math>S \times Q</math> której wartość oczekiwana jest entropią <math>S \times Q</math>. Czyli
+A zatem <math>(\hat{X} + \hat{Y})</math> jest dokładnie tą zmienną losową na <math>S \times Q</math>, której wartość oczekiwana jest entropią <math>S \times Q</math>. Czyli
-:<math>H_r (S \times Q) = E (\hat{X} + \hat{Y}) = H_r(S)+H_r(Q)</math>.
+<center><math>H_r (S \times Q) = E (\hat{X} + \hat{Y}) = H_r(S)+H_r(Q)</math>.</center>
 W konsekwencji:
-:<math>H_rS^n=n \cdot H_rS</math>
+{{fakt||entropia_produktowa|Niech <math>S^n</math> będzie ''n''-tą potęgą przestrzeni ''S'' z prawdopodobieństwem <math>p(s_1,\ldots ,s_n) = p(s_1) \cdot \ldots \cdot p(s_n)</math>. Wtedy
+<center><math>H_rS^n=n \cdot H_rS</math>.</center>}}

Teoria informacji/TI Wykład 3: Różnice pomiędzy wersjami

Aktualna wersja na dzień 22:16, 11 wrz 2023

Minimalna długość kodu

Entropia przestrzeni produktowej

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia