Wersja z 14:36, 5 sie 2006

Ćwiczenia

Poniższe ćwiczenia służą oswojeniu się z własnościami entropii warunkowej i łącznej.

Ćwiczenie [Warunkowa entropia łączna]

Udowodnij że $H (A, B | C) \leq H (A | C) + H (B | C)$ ,

i równość zachodzi wtedy i tylko wtedy gdy A i B są niezależne w odniesieniu do C, czyli

p (a \land b | c) = p (a | c) \cdot p (b | c)

.

Rozwiązanie

{{{3}}}

Ćwiczenie [Warunkowa entropia dla bliskich rozkładów]

Niech $X^{'}$ i $X$ będą dwiema zmiennymi losowymi takimi że $P r (X^{'} \neq X) \leq ε$ (dla pewnego małego $ε$ ).

Pokaż że

H (X^{'} | X)

może być dowolnie duże.

Rozwiązanie

{{{3}}}

Ćwiczenie [Wąskie gardło]

Rozważmy zmienne losowe X, Y, Z tworzące łańcuch Markowa $X \to Y \to Z$ (czyli $P r (Z = z | X, Y) = P r (Z = z | Y)$ ).

Udowodnij że $I (X; Z | Y) = 0$ (czyli cała wspólna informacja między X i Z musi zawierać się w Y).

Udowodnij własność wąskiego gardła, mówiącą że

I (X; Z) \leq H (Y)

.

Rozwiązanie

{{{3}}}

Laboratorium

Zadanie 1

Treść

Rozważmy trzy warianty kompresji pliku tekstowego, które wykorzystują korelację między sąsiednimi symbolami do osiągnięcia większego stopnia kompresji:

Kodowanie Huffmana zastosowane do bloków 2 symboli.
Kodowanie kolejnego symbolu pliku, $a_{n + 1}$ , za pomocą kodu Huffmana, który zależy od symbolu poprzedniego, $a_{n}$ .
W algorytmie tym, dla każdego symbolu $a$ występującego w pliku, obliczany jest warunkowy rozkład prawdopodobieństwa następnego symbolu, $b$ , pod warunkiem $a$ : $p (b | a)$ . Dla takiego rozkładu symboli $b$ (przy ustalonym $a$ ) obliczany jest kod Huffmana $φ_{a}$ . Kody są generowane dla wszystkich symboli $a$ .
Symbole pliku są kodowane kolejno, od pierwszego do ostatniego, przy czym symbol $a_{n + 1}$ kodowany jest za pomocą kodu $φ_{a_{n}}$ . Tak zakodowana wiadomość jest możliwa do odkodowania, ponieważ w chwili dekodowania $a_{n + 1}$ symbol $a_{n}$ jest już znany.
Kodowanie analogiczne do (2), jednak przebiegające od końca pliku do początku, zatem korzystające z kodu $φ_{a_{n + 1}}$ do zakodowania $a_{n}$ . W tym przypadku $φ_{b}$ jest kodem wygenerowanym dla rozkładu $p (a | b)$ symboli $a$ poprzedzających ustalony symbol $b$ .

Polecenie

Porównaj warianty (1) i (2) oraz (2) i (3) pod względem osiąganego stopnia kompresji:
- Który z wariantów pozwoli uzyskać większy stopień kompresji? Czy zależy to od charakterystyki danych wejściowych? Jeśli to możliwe, podaj ścisły dowód.
- Czy fakt, że znaki w pliku tekstowym są zapisane w "naturalnej" kolejności, czyli w takiej, w jakiej są odczytywane przez człowieka, pozwala na uzyskanie większego stopnia kompresji za pomocą metody (2) niż (3)?
- Oprócz wariantów (1)-(3) rozważ też sytuację, gdy zamiast kodu Huffmana stosowany jest kod, którego średnia długość jest dokładnie równa entropii odpowiedniego rozkładu (dla zainteresowanych: kodowanie arytmetyczne jest metodą, która w pewnym sensie pozwala osiągnąć średnią długość kodu równą entropii; zob. arithmetic coding).
Jaka jest złożoność pamięciowa i czasowa metod (1)-(3)?
Napisz programy kompresuj1, kompresuj2 i kompresuj3, implementujące algorytmy (1)-(3). Wykonaj eksperymenty, które potwierdzą poprawność Twoich odpowiedzi na powyższe pytania.

Wskazówki

Wskazówka I:

{{{3}}}

Wskazówka II:

{{{3}}}

Rozwiązanie

Rozwiązanie zadania powinno zawierać:

wykonywalne programy,
kody źródłowe programów,
dane wejściowe wykorzystane do eksperymentów,
raport zawierający:
- odpowiedzi na pytania, być może z dowodami,
- opis wykonanych eksperymentów i wykorzystanych danych wejściowych,
- interpretację wyników eksperymentów.

Pliki źródłowe i raport należy podpisać imieniem i nazwiskiem autora.

Ocenie podlegać będzie: poprawność i ścisłość rozumowania, poprawność implementacji, umiejętność zaplanowania eksperymentów i interpretacji ich wyników. Nie będzie brana pod uwagę efektywność czasowa i pamięciowa programów.

Zadanie 2

Treść

Dane wejściowe mają postać ciągu ${a_{i}}_{1}^{n}$ symboli nad alfabetem $A = A_{0} \cup A_{1} \cup A_{2}$ , gdzie $A_{0} = {s p a c j a}$ , $A_{1} = {^{'} a^{'}, . . .,^{'} z^{'}}$ , $A_{2} = {^{'} 0^{'}, . . .,^{'} 9^{'}}$ . Kolejne znaki tego ciągu są generowane losowo z następującego rozkładu prawdopodobieństwa:

symbol $a_{1}$ jest generowany z rozkładu $(μ_{1} + μ_{2}) / 2$ ,
jeśli $a_{n} \in A_{0}$ , to $a_{n + 1}$ jest generowany z rozkładu $(μ_{1} + μ_{2}) / 2$ ,
jeśli $a_{n} \in A_{1}$ , to $a_{n + 1}$ jest generowany z rozkładu $(μ_{0} + μ_{1}) / 2$ ,
jeśli $a_{n} \in A_{2}$ , to $a_{n + 1}$ jest generowany z rozkładu $(μ_{0} + μ_{2}) / 2$ ,

gdzie $μ_{0}$ , $μ_{1}$ i $μ_{2}$ to rozkłady prawdopodobieństwa na zbiorze $A$ takie, że:

$μ_{0} (A_{0}) = 1$ (czyli rozkład $μ_{0}$ jest skupiony na zbiorze $A_{0}$ ),
$μ_{1} (A_{1}) = 1$ ,
$μ_{2} (A_{2}) = 1$ .

Polecenie

Opracuj możliwie najskuteczniejszą metodę kompresji danych o powyższej charakterystyce, opartą na kodowaniu Huffmana. Zaimplementuj ją.
Oszacuj teoretycznie ile średnio bitów $L$ pliku skompresowanego będzie przypadało na jeden symbol pliku wejściowego. Przyjmij, że znana jest entropia rozkładów $μ_{1}$ i $μ_{2}$ .
Wykonaj eksperymenty, aby sprawdzić swoje przewidywania. Wygeneruj kilka ciągów o podanej wyżej charakterystyce, dla różnych wyborów rozkładów $μ_{1}$ i $μ_{2}$ , skompresuj je Twoją metodą i porównaj rozmiary plików wejściowych i wynikowych.
Oszacuj teoretycznie wartość $L$ dla zwykłej kompresji Huffmana zastosowanej do danych o podanej charakterystyce. Czy Twój algorytm osiąga lepszą kompresję?
Jaka dodatkowa informacja musiałaby być zapisana w skompresowanym pliku, aby umożliwić jego dekompresję? Oszacuj jej rozmiar.

Wskazówka:

@@ Linia 1: / Linia 1: @@
+= Ćwiczenia =
+Poniższe ćwiczenia służą oswojeniu się z własnościami entropii warunkowej i łącznej.
+{{cwiczenie|[Warunkowa entropia łączna]|Ćwiczenie 1|
+Udowodnij że <math>H(A,B|C) \leq H(A|C) + H(B|C)</math>,
+i równość zachodzi wtedy i tylko wtedy gdy A i B są ''niezależne w odniesieniu do C'', czyli
+<math>p (a \wedge b|c) = p(a|c) \cdot p(b|c)</math>.}}
+{{rozwiazanie|||<div class="mw-collapsible mw-made=collapsible mw-collapsed">
+<div class="mw-collapsible-content" style="display:none">
+Przeprowadzimy dowód identyczny jak w [[Teoria informacji/TI Wykład 5#do łącznej|twierdzeniu o entropii łącznej]].
+<center><math>\aligned
+H(A|C) + H(B|C) & = \sum_{a,c} p(a \wedge c) \log \frac{1}{p(a|c)} + \sum_{b,c} p(b \wedge c) \log \frac{1}{p(b|c)}\\
+& = \sum_{a,b,c} p(a \wedge b|c) \log \frac{1}{p(a|c)}+ \sum_{a,b,c} p(a \wedge b|c) \log \frac{1}{p(b|c)}\\
+& = \sum_{a,b,c} p(a \wedge b \wedge c) \log \frac{1}{p(a|c) \cdot p(b|c)}
+\endaligned
+</math></center>
+Z drugiej strony mamy z definicji
+<center><math>H(A,B|C) & = \sum_{a,b,c} p(a \wedge b \wedge c)\log \frac{1}{p(a \wedge b|c)}</math></center>
+Dowodzona równość sprowadza się zatem do prostego faktu że dla dowolnych wartości a, b i c:<math>p (a \wedge b|c) \ge p(a|c) \cdot p(b|c)</math>. Dodatkowo równość zachodzi wtedy i tylko wtedy gdy dla każdej trójki a, b, c wartości te są równe, czyli A i B są niezależne w odniesieniu do C.
+</div>
+</div>
+}}
+{{cwiczenie|[Warunkowa entropia dla bliskich rozkładów]|Ćwiczenie 2|
+Niech <math>X'</math> i <math>X</math> będą dwiema zmiennymi losowymi takimi że <math>Pr(X' \neq X) \le \varepsilon</math> (dla pewnego małego <math>\varepsilon</math>).
+Pokaż że <math>H(X'|X)</math> może być dowolnie duże.}}
+{{rozwiazanie|||<div class="mw-collapsible mw-made=collapsible mw-collapsed">
+<div class="mw-collapsible-content" style="display:none">
+Dla dowolnego n i zmiennej losowej X możemy skonstruować rozkład X' taki że <math>Pr(X' \neq X) \le \varepsilon</math> i<math>H(X'|X) \ge n</math>.
+W tym celu definiujemy zbiór Z rozłączny ze zbiorem wartości X i taki że <math>|Z|= \lceil 2^\frac{n}{\varepsilon}\rceil</math>. Rozkład X' niech będzie następujący:
+<center><math>X'=\bigg\{
+\begin{matrix}
+X & \mbox{z prawd.} & 1-\varepsilon & &\\
+z \in Z & \mbox{z prawd.} & \frac{\varepsilon}{\lceil 2^\frac{n}{\varepsilon}\rceil} & \mbox{ dla każdego } & z \in Z
+\end{matrix}</math></center>
+Pierwszy warunek jest oczywiście spełniony. Aby sprawdzić drugi obliczamy:
+<center><math>\aligned
+H(X'|X) & = \sum_{x',x} p(x,x')\log \frac{1}{p(x'|x)}\\
+& = (1-\varepsilon) \cdot \log 1 + \sum_{z\in Z} p(z) \log \frac{1}{p(z)}\\
+& = 0 + \varepsilon \cdot \log \frac{\lceil 2^\frac{n}{\varepsilon}\rceil}{\varepsilon}\\
+& \ge n + \varepsilon \log \frac{1}{\varepsilon} \ge n.
+\endaligned
+</math></center>
+</div>
+</div>
+}}
+{{cwiczenie|[Wąskie gardło]|Ćwiczenie 3|
+Rozważmy zmienne losowe X, Y, Z tworzące łańcuch Markowa <math> X \to Y \to Z</math>
+(czyli <math>Pr(Z=z|X,Y)=Pr(Z=z|Y)</math>).
+Udowodnij że <math>I(X;Z|Y)=0</math> (czyli cała wspólna informacja między X i Z musi zawierać się w Y).
+Udowodnij własność '''wąskiego gardła''', mówiącą że <math>I(X;Z)\le H(Y)</math>.}}
+{{rozwiazanie|||<div class="mw-collapsible mw-made=collapsible mw-collapsed">
+<div class="mw-collapsible-content" style="display:none">
+Wprost z definicji
+<center><math>\aligned
+I(X;Z|Y) & = H(Z|Y)-H(Z|X,Y)\\
+& = \sum_{x,y,z} p(x \wedge y \wedge z) \bigg(\log \frac{1}{p(z|y)} - \log \frac{1}{p(z|x,y)}\bigg)\\
+\endaligned
+</math></center>
+Skoro powyższe zmienne tworzą łańcuch Markowa, to wszystkie różnice mają tu zerowe wartości, a więc <math>I(X;Z|Y)=0</math>.
+Aby udowodnić drugą część ćwiczenia wystarczy zauważyć że
+:<math>I(X;Z)=\underbrace{I(X;Z|Y)}_{=0}+\underbrace{R(X;Y;Z)}_{\le H(Y)}</math>
+</div>
+</div>}}
 = Laboratorium =

Teoria informacji/TI Ćwiczenia 5: Różnice pomiędzy wersjami

Wersja z 14:36, 5 sie 2006

Spis treści

Ćwiczenia

Laboratorium

Zadanie 1

Treść

Polecenie

Wskazówki

Rozwiązanie

Zadanie 2

Treść

Polecenie

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia