Teoria informacji/TI Wykład 3: Różnice pomiędzy wersjami

Wersja z 12:53, 1 wrz 2006

Jak widzieliśmy na przykładzie z grą, jeśli wszystkie prawdopodobieństwa są potęgami $\frac{1}{2}$ , to entropia jest równa średniej długości optymalnego kodu. Udowodnimy że zawsze stanowi ona dolne ograniczenie:

Definicja [długość kodu]

Dla danego kodu

φ

, długość kodu definiujemy jako

L (φ) = \sum_{s \in S} p (s) \cdot | φ (s) |

Dla danego S i parametru $r > 1$ niech $L_{r} (S)$ będzie minimum ze wszystkich $L (φ)$ dla dowolnego kodu $φ : S \to Σ^{*}$ , gdzie $| Σ | = r$ . Zauważmy że na mocy Twierdzenia Mcmillana wystarczy że znajdziemy minimum dla wszystkich kodów bezprefiksowych.

Twierdzenie

Dla dowolnej skończonej przestrzeni probabilistycznej S

H_{r} (S) \leq L_{r} (S)

i równość zachodzi wtedy i tylko wtedy gdy wszystkie prawdopodobieństwa p(s) są potęgami

\frac{1}{r}

Dowód

Rozważmy dowolny kod $φ : S \to Σ^{*}$ gdzie $| Σ | = r$ . Pokażmy że

H_{r} (S) \leq L (φ)

Wystarczy w tym celu użyć Złotego Lematu dla $x_{i} = p (s_{i})$ i $y_{i} = \frac{1}{r^{| φ (s_{i}) |}}$ .

Pozostało jedynie pokazać drugą część twierdzenie. Jeśli $H_{r} (S) = L_{r} (S)$ , to znaczy że $H_{r} (S) = L (φ)$ dla pewnego kodu $φ$ . Znów na podstawie Złotego Lematu dostajemy $p (s) = \frac{1}{r^{| φ (s) |}}$ dla wszystkich $s \in S$ .

Z drugiej strony, jeśli wszystkie prawdopodobieństwa są postaci

\frac{1}{r^{ℓ (s)}}

, to na mocy nierówności Krafta, istnieje kod

φ

z

| φ (s) | = ℓ (s)

, i dla tego kodu

L (φ) = H_{r} (S)

. A zatem

L_{r} (S) \leq H_{r} (S)

, czyli musi zachodzić równość.

Znalezienie optymalnego kodu bezprefiksowego dla danego rozkładu prawdopodobieństwa nie jest wcale trudnym zadaniem. Prosty algorytm rozwiązujący ten problem podał Huffman. Wygląda on następująco:

Algorytm Huffmana
(dla zbioru kodowanego S i alfabetu  $Σ$ )
Jeśli  $| S | \leq | Σ |$  to przypisz po prostu jakieś symbole obiektom z S. W przeciwnym wypadku
1. Jeśli  $| Σ | > 2$ , w razie konieczności uzupełnij S symbolami o prawdopodobieństwie 0, 
   tak aby  $| S | mod (| Σ | - 1) = 1$ 
2. Wybierz  $k = | Σ |$  symboli  $t_{1}, \dots, t_{k} \in S$  o minimalnych prawdopodobieństwach
3. Uruchom rekurencyjnie ten algorytm dla zbioru  $S^{'} = S - {t_{1}, \dots, t_{k}} + {#}$  z prawdopodobieństwami 
    $q_{s} = p_{s}$  dla  $s \in S$  i  $q_{#} = p_{t_{1}} + \dots + p_{t_{k}}$ .
4. Mając dane drzewo  $T_{S^{'}}$  z poprzedniego punktu skonstruuj drzewo  $T_{S}$  w następujący sposób: 
   Dodaj k synów do słowa  $T_{S^{'}} (#)$  i oznacz ich jako  $t_{1}, \dots, t_{k}$ .

Dla przedstawionej powyżej definicji kodu problem mamy zatem rozwiązany. Niestety w większości wypadków długość takiego optymalnego kodu będzie się różniła od dolnej granicy $H_{r} (S)$ . Na szczęście możemy ten problem obejść. Okazuje się że dla dowolnego zadanego S i p można uzyskiwać mniejszą średnią długość kodu, dowolnie zbliżając się do $H_{r} (S)$ . Uzyskuje się to przez lekkie poszerzenie samego pojęcia kodu.

Przykład [Kodowanie par]

Niech $S = {s_{1}, s_{2}}$ z $p (s_{1}) = \frac{3}{4}, p (s_{2}) = \frac{1}{4}$ . Oczywiście $L_{2} (S) = 1$ . (Jednocześnie łatwo oszacować że $H_{2} (S) < 1$ ). Oznacza to że nie możemy zakodować wiadomości $α \in Σ^{*}$ w postaci krótszej niż sama $α$ . Wyobraźmy sobie jednak następujące kodowanie par:

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned s_1 s_1 & \mapsto 0 \\ s_1 s_2 & \mapsto 10\\ s_2 s_1 & \mapsto 110\\ s_2 s_2 & \mapsto 111 \endaligned }

Nie jest to w dosłownym sensie kod dla S, ale wygląda na to że możemy go użyć do zakodowania dowolnych wiadomości o parzystej długości. Faktycznie, zgodnie z definicją to jest kod dla $S^{2}$ . Rozważmy $S^{2} = S \times S$ jako produkt (probabilistyczny) przestrzeni, w którym

p (s_{i}, s_{j}) = p (s_{i}) \cdot p (s_{j})

Średnia długość naszego kodowania dwuznakowych bloków będzie wynosić

{(\frac{3}{4})}^{2} \cdot 1 + \frac{3}{4} \cdot \frac{1}{4} \cdot (2 + 3) + {(\frac{1}{4})}^{2} \cdot 3 = \frac{9}{16} + \frac{15}{16} + \frac{3}{16} = \frac{27}{16} < 2

Jak można się spodziewać, podążając tym tropem dla kodów złożonych z trzech, czterech i więcej znaków będziemy mogli otrzymać coraz efektywniejsze kodowania. Czy jednak możemy zejść poniżej granicy entropii, czyli uzyskać

\frac{L_{r} (S^{n})}{n} < H_{r} (S)

dla pewnego n?

Udowodnimy później że to jest niemożliwe, ale Pierwsze Twierdzenie Shannona pokaże że możemy zbliżyć się do niej dowolnie blisko, dla $n \to \infty$ .

Najpierw jednak policzmy entropię $H (S^{n})$ przestrzeni $S^{n}$ interpretowanej jako przestrzeń produktowa. Można to zrobić przez żmudne elementarne wyliczenia, ale spróbujemy uzyskać wynik na podstawie ogólnych własności zmiennych losowych.

Przypomnijmy że wartość oczekiwana zmiennej losowej $X : S \to ℝ$ można przedstawić na dwa równoważne sposoby:

E X = \sum_{s \in S} p (s) \cdot X (s) = \sum_{t \in X (S) \subseteq (R)} t \cdot p (X = t)

Drugi sposób często zapisuje się prościej jako

\sum_{t \in (R)} t \cdot p (X = t)

przyjmując że suma dowolnie wielu zer daje 0.

Używana tutaj notacja $p (X = t)$ jest szczególnym przypadkiem notacji $p (ψ (X))$ , określającej prawdopodobieństwo że zachodzi $ψ (X)$ , czyli sumę p(s) po wszystkich s dla których $ψ (X (S))$ jest spełnione.

Przypominamy z Rachunku Prawdopodobieństwa:

Fakt [Liniowość wartości oczekiwanej]

Jeśli X i Y są dowolnymi zmiennymi losowymi (określonymi na tej samej przestrzeni probabilistycznej), to dla dowolnych

α, β \in (R)

:

E (α X + β Y) = α E X + β E Y

Rozważmy teraz przypadek gdy mamy dwie przestrzenie probabilistyczne S i Q. (Zwyczajowo, jeśli nie powoduje to niejasności, będziemy używać tej samej litery p na określenie prawdopodobieństwa we wszystkich przestrzeniach).

Niech $S \times Q$ będzie przestrzenią produktową, z prawdopodobieństwem określonym następująco

p (s, q) = p (s) \cdot p (q)

Dla zmiennych losowych $X : S \to (R)$ i $Y : Q \to (R)$ , definiujemy zmienne $\hat{(} X)$ , $\hat{(} Y)$ na $S \times Q$ jako

\hat{X} (s, q) = X (s)

\hat{Y} (s, q) = Y (q)

Oczywiście mamy:

p (\hat{X} = t) = \sum_{\hat{X} (s, q) = t} p (s, q) = \sum_{X (s) = t} \sum_{q \in Q} p (s) \cdot p (q) = \sum_{X (s) = t} p (s) = P (X = t)

i analogicznie $p (\hat{Y} = t) = p (Y = t)$ . Zatem $E \hat{X} = E X$ i $E \hat{Y} = E Y$ . Z liniowości wartości oczekiwanej

E (\hat{X} + \hat{Y}) = E \hat{X} + E \hat{Y} = E X + E Y

Niech teraz $X : s \mapsto \log_{r} \frac{1}{p (s)}$ i $Y : q \mapsto \log_{r} \frac{1}{p (q)}$ . Rozkład sumy tych zmiennych będzie miał postać

(\hat{X} + \hat{Y}) (s, q) = \log_{r} \frac{1}{p (s)} + \log_{r} \frac{1}{p (q)} = \log_{r} \frac{1}{p (s)} \cdot \frac{1}{p (q)} = \log_{r} \frac{1}{p (s, q)}

Ale zgodnie z definicją, to jest dokładnie zmienna losowa na $S \times Q$ której wartość oczekiwana jest entropią $S \times Q$ . Czyli

H_{r} (S \times Q) = E (\hat{X} + \hat{Y}) = H_{r} (S) + H_{r} (Q)

.

W konsekwencji:

H_{r} S^{n} = n \cdot H_{r} S

@@ Linia 26: / Linia 26: @@
 Znalezienie optymalnego kodu bezprefiksowego dla danego rozkładu prawdopodobieństwa nie jest wcale trudnym zadaniem. Prosty algorytm rozwiązujący ten problem podał Huffman. Wygląda on następująco:
-{{kotwica|algorytm huffmana|}}
+{{kotwica|huffman|}}
   '''Algorytm Huffmana'''
   (dla zbioru kodowanego S i alfabetu <math>\Sigma</math>)

Teoria informacji/TI Wykład 3: Różnice pomiędzy wersjami

Wersja z 12:53, 1 wrz 2006

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia