Ćwiczenia

Poniższe ćwiczenia służą oswojeniu się z własnościami entropii warunkowej i łącznej.

Ćwiczenie [Warunkowa entropia łączna]

Udowodnij że $H (A, B | C) \leq H (A | C) + H (B | C)$ ,

i równość zachodzi wtedy i tylko wtedy gdy A i B są niezależne w odniesieniu do C, czyli

p (a \land b | c) = p (a | c) \cdot p (b | c)

.

Rozwiązanie

{{{3}}}

Ćwiczenie [Warunkowa entropia dla bliskich rozkładów]

Niech $X^{'}$ i $X$ będą dwiema zmiennymi losowymi takimi że $P r (X^{'} \neq X) \leq ε$ (dla pewnego małego $ε$ ).

Pokaż że

H (X^{'} | X)

może być dowolnie duże.

Rozwiązanie

{{{3}}}

Ćwiczenie [Wąskie gardło]

Rozważmy zmienne losowe X, Y, Z tworzące łańcuch Markowa $X \to Y \to Z$ (czyli $P r (Z = z | X, Y) = P r (Z = z | Y)$ ).

Udowodnij że $I (X; Z | Y) = 0$ (czyli cała wspólna informacja między X i Z musi zawierać się w Y).

Udowodnij własność wąskiego gardła, mówiącą że

I (X; Z) \leq H (Y)

.

Rozwiązanie

{{{3}}}

Laboratorium

Zadanie 1

Treść

Rozważmy trzy warianty kompresji pliku tekstowego, które wykorzystują korelację między sąsiednimi symbolami do osiągnięcia większego stopnia kompresji:

Kodowanie Huffmana zastosowane do bloków 2 symboli.
Kodowanie kolejnego symbolu pliku, $a_{n + 1}$ , za pomocą kodu Huffmana, który zależy od symbolu poprzedniego, $a_{n}$ .
W algorytmie tym, dla każdego symbolu $a$ występującego w pliku, obliczany jest warunkowy rozkład prawdopodobieństwa następnego symbolu, $b$ , pod warunkiem $a$ : $p (b | a)$ . Dla takiego rozkładu symboli $b$ (przy ustalonym $a$ ) obliczany jest kod Huffmana $φ_{a}$ . Kody są generowane dla wszystkich symboli $a$ .
Symbole pliku są kodowane kolejno, od pierwszego do ostatniego, przy czym symbol $a_{n + 1}$ kodowany jest za pomocą kodu $φ_{a_{n}}$ . Tak zakodowana wiadomość jest możliwa do odkodowania, ponieważ w chwili dekodowania $a_{n + 1}$ symbol $a_{n}$ jest już znany.
Kodowanie analogiczne do (2), jednak przebiegające od końca pliku do początku, zatem korzystające z kodu $φ_{a_{n + 1}}$ do zakodowania $a_{n}$ . W tym przypadku $φ_{b}$ jest kodem wygenerowanym dla rozkładu $p (a | b)$ symboli $a$ poprzedzających ustalony symbol $b$ .

Polecenie

Porównaj warianty (1) i (2) oraz (2) i (3) pod względem osiąganego stopnia kompresji:
- Który z wariantów pozwoli uzyskać większy stopień kompresji? Czy zależy to od charakterystyki danych wejściowych? Jeśli to możliwe, podaj ścisły dowód.
- Czy fakt, że znaki w pliku tekstowym są zapisane w "naturalnej" kolejności, czyli w takiej, w jakiej są odczytywane przez człowieka, pozwala na uzyskanie większego stopnia kompresji za pomocą metody (2) niż (3)?
- Oprócz wariantów (1)-(3) rozważ też sytuację, gdy zamiast kodu Huffmana stosowany jest kod, którego średnia długość jest dokładnie równa entropii odpowiedniego rozkładu (dla zainteresowanych: kodowanie arytmetyczne jest metodą, która w pewnym sensie pozwala osiągnąć średnią długość kodu równą entropii; zob. arithmetic coding).
Jaka jest złożoność pamięciowa i czasowa metod (1)-(3)?
Napisz programy kompresuj1, kompresuj2 i kompresuj3, implementujące algorytmy (1)-(3). Wykonaj eksperymenty, które potwierdzą poprawność Twoich odpowiedzi na powyższe pytania.

Wskazówki

Wskazówka I:

{{{3}}}

Wskazówka II:

{{{3}}}

Rozwiązanie

Rozwiązanie zadania powinno zawierać:

wykonywalne programy,
kody źródłowe programów,
dane wejściowe wykorzystane do eksperymentów,
raport zawierający:
- odpowiedzi na pytania, być może z dowodami,
- opis wykonanych eksperymentów i wykorzystanych danych wejściowych,
- interpretację wyników eksperymentów.

Pliki źródłowe i raport należy podpisać imieniem i nazwiskiem autora.

Ocenie podlegać będzie: poprawność i ścisłość rozumowania, poprawność implementacji, umiejętność zaplanowania eksperymentów i interpretacji ich wyników. Nie będzie brana pod uwagę efektywność czasowa i pamięciowa programów.

Zadanie 2

Treść

Dane wejściowe mają postać ciągu ${a_{i}}_{1}^{n}$ symboli nad alfabetem $A = A_{0} \cup A_{1} \cup A_{2}$ , gdzie $A_{0} = {s p a c j a}$ , $A_{1} = {^{'} a^{'}, . . .,^{'} z^{'}}$ , $A_{2} = {^{'} 0^{'}, . . .,^{'} 9^{'}}$ . Kolejne znaki tego ciągu są generowane losowo z następującego rozkładu prawdopodobieństwa:

symbol $a_{1}$ jest generowany z rozkładu $(μ_{1} + μ_{2}) / 2$ ,
jeśli $a_{n} \in A_{0}$ , to $a_{n + 1}$ jest generowany z rozkładu $(μ_{1} + μ_{2}) / 2$ ,
jeśli $a_{n} \in A_{1}$ , to $a_{n + 1}$ jest generowany z rozkładu $(μ_{0} + μ_{1}) / 2$ ,
jeśli $a_{n} \in A_{2}$ , to $a_{n + 1}$ jest generowany z rozkładu $(μ_{0} + μ_{2}) / 2$ ,

gdzie $μ_{0}$ , $μ_{1}$ i $μ_{2}$ to rozkłady prawdopodobieństwa na zbiorze $A$ takie, że:

$μ_{0} (A_{0}) = 1$ (czyli rozkład $μ_{0}$ jest skupiony na zbiorze $A_{0}$ ),
$μ_{1} (A_{1}) = 1$ ,
$μ_{2} (A_{2}) = 1$ .

Polecenie

Opracuj możliwie najskuteczniejszą metodę kompresji danych o powyższej charakterystyce, opartą na kodowaniu Huffmana. Zaimplementuj ją.
Oszacuj teoretycznie ile średnio bitów $L$ pliku skompresowanego będzie przypadało na jeden symbol pliku wejściowego. Przyjmij, że znana jest entropia rozkładów $μ_{1}$ i $μ_{2}$ .
Wykonaj eksperymenty, aby sprawdzić swoje przewidywania. Wygeneruj kilka ciągów o podanej wyżej charakterystyce, dla różnych wyborów rozkładów $μ_{1}$ i $μ_{2}$ , skompresuj je Twoją metodą i porównaj rozmiary plików wejściowych i wynikowych.
Oszacuj teoretycznie wartość $L$ dla zwykłej kompresji Huffmana zastosowanej do danych o podanej charakterystyce. Czy Twój algorytm osiąga lepszą kompresję?
Jaka dodatkowa informacja musiałaby być zapisana w skompresowanym pliku, aby umożliwić jego dekompresję? Oszacuj jej rozmiar.

Wskazówka:

Zadanie 3 (konkurs)

Wstęp

Prowadzący powinien przygotować dwa pliki, dane1 i dane2, zawierające dane o pewnej szczególnej charakterystyce (takiej samej w obu plikach). Plik dane1 zostanie udostępniony studentom, którzy na jego podstawie będą musieli określić typ redundacji występującej w danych i opracować możliwie najskuteczniejszy algorytm kompresji oparty na kodowaniu Huffmana.

Każdy student zaimplementuje swój algorytm w postaci dwóch programów, kompresuj i dekompresuj, wykonujących kompresję i dekompresję. Programy zostaną przesłane do prowadzącego, który wykona za ich pomocą następujące czynności:

skompresuje plik dane2, otrzymując plik skompresowany,
zdekompresuje plik skompresowany, otrzymując plik zdekompresowany,
jeśli pliki dane2 i zdekompresowany będą identyczne, przyzna autorowi danego programu liczbę punktów równą: <rozmiar_pliku_dane2> / <rozmiar_pliku_skompresowany>,
w przeciwnym przypadku (gdy pliki się różnią), przyzna 0 punktów.

Wygra student, który otrzyma najwięcej punktów, czyli ten, którego program poprawnie skompresuje i zdekompresuje plik dane2, uzyskując przy tym największy stopień kompresji. Prowadzący może też osobno przyznawać punkty za pomysłowość w opracowaniu algorytmu, wówczas punkty może otrzymać też student, którego implementacja okazała się niepoprawna.

Można podać, skąd pochodzą dane zawarte w plikach, może to ułatwić studentom opracowanie skuteczniejszej metody kompresji.

Teoria informacji/TI Ćwiczenia 5

Spis treści

Ćwiczenia

Laboratorium

Zadanie 1

Treść

Polecenie

Wskazówki

Rozwiązanie

Zadanie 2

Treść

Polecenie

Zadanie 3 (konkurs)

Wstęp

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia