Teoria informacji/TI Ćwiczenia 4: Różnice pomiędzy wersjami
Nie podano opisu zmian |
Nie podano opisu zmian |
||
Linia 36: | Linia 36: | ||
Wykonaj następujący eksperyment: | Wykonaj następujący eksperyment: | ||
# Przygotuj plik | # Przygotuj plik <tt>dane.txt</tt> zawierający tekst w języku naturalnym (polskim lub angielskim) o długości przynajmniej 50000 znaków. | ||
# Skompresuj <tt>dane.txt</tt> algorytmem Huffmana, zapisując zakodowaną informację do pliku <tt>wynik.huf</tt>. Dla ułatwienia możesz każdy wynikowy bit zapisywać na oddzielnym bajcie, jako znak "0" lub "1". | # Skompresuj <tt>dane.txt</tt> algorytmem Huffmana, zapisując zakodowaną informację do pliku <tt>wynik.huf</tt>. Dla ułatwienia możesz każdy wynikowy bit zapisywać na oddzielnym bajcie, jako znak "0" lub "1". | ||
# Wynikowy ciąg bitów skompresuj algorytmem Huffmana, zastosowanym do grup 1, 2, 4, 8 i 16 bitów, otrzymując pięć kolejnych plików: <tt>wynik01.huf</tt>, <tt>wynik02.huf</tt>, <tt>wynik04.huf</tt>, <tt>wynik08.huf</tt>, <tt>wynik16.huf</tt>. | # Wynikowy ciąg bitów skompresuj algorytmem Huffmana, zastosowanym do grup 1, 2, 4, 8 i 16 bitów, otrzymując pięć kolejnych plików: <tt>wynik01.huf</tt>, <tt>wynik02.huf</tt>, <tt>wynik04.huf</tt>, <tt>wynik08.huf</tt>, <tt>wynik16.huf</tt>. | ||
Linia 46: | Linia 46: | ||
Wykonaj następujący eksperyment: | Wykonaj następujący eksperyment: | ||
# Przygotuj plik | # Przygotuj plik <tt>dane.txt</tt> zawierający tekst w języku naturalnym (polskim lub angielskim) o długości przynajmniej 50000 znaków. | ||
# Wygeneruj kody Huffmana <math>\varphi_1</math>, <math>\varphi_2</math> i <math>\varphi_3</math> dla grup 1, 2 i 3 symboli pliku <tt>dane.txt</tt>. | # Wygeneruj kody Huffmana <math>\varphi_1</math>, <math>\varphi_2</math> i <math>\varphi_3</math> dla grup 1, 2 i 3 symboli pliku <tt>dane.txt</tt>. | ||
# Wygeneruj losowy ciąg 10000 bitów i zapisz do pliku <tt>kod.huf</tt>. | # Wygeneruj losowy ciąg 10000 bitów i zapisz do pliku <tt>kod.huf</tt>. |
Wersja z 08:31, 1 sie 2006
Laboratorium
Zadanie 1
Polecenie
- Przygotuj trzy pliki, zawierające tekst w trzech różnych językach: polskim, angielskim i trzecim dowolnie wybranym. Każdy plik powinien zawierać przynajmniej 50000 znaków. Duży wybór tekstów w różnych językach można znaleźć na przykład na stronie Projektu Gutenberg.
- Napisz program litery, który czyta plik tekstowy o podanej nazwie (przekazanej jako parametr wywołania programu) i wypisuje wszystkie symbole występujące w pliku wraz z ich częstością, w formie: A 0.134 <nowa_linia> b 0.126 ... Nie musi poprawnie wypisywać znaków narodowych. Program powinien wypisać też entropię binarną obliczonego rozkładu prawdopodobieństwa. Uruchom program dla trzech przygotowanych wcześniej plików, porównaj otrzymane wyniki.
- Napisz program huffman, który czyta plik tekstowy o podanej nazwie i oblicza kod Huffmana dla rozkładu symboli występujących w tym pliku. Program powinien wypisać otrzymany kod w formie: A 001 <nowa_linia> b 0001010 ...
Napisz program shannon, który oblicza kod Shannona-Fano. - Napisz program kompresuj, który koduje podany plik tekstowy plik.txt za pomocą kodu Huffmana i Shannona-Fano. Wynik kodowania powinien zostać zapisany do plików plik.huf i plik.sf. Dla ułatwienia można każdy wynikowy bit zapisywać na oddzielnym bajcie, jako znak "0" lub "1".
- Uruchom program kompresuj dla trzech przygotowanych plików tekstowych. Dla każdego z nich porównaj następujące wielkości:
- liczbę bitów oryginalnego pliku,
- liczbę znaków "0"/"1" w plikach .huf i .sf,
- entropię rozkładu prawdopodobieństwa symboli w oryginalnym pliku.
Czy te wielkości zależą od języka kompresowanego tekstu?
- Napisz program kompresujbloki, który kompresuje podany plik metodą Huffmana i Shannona-Fano, zastosowanymi do bloków długości 2, 3, 4 lub więcej (tzn. kod jest generowany nie dla pojedynczych symboli, lecz dla par, trójek, czwórek ... sąsiednich symboli). Porównaj efektywność kompresji pojedynczych symboli i bloków, pod względem:
- rozmiaru zakodowanego pliku,
- rozmiaru kodu (aby móc wykonać dekompresję, kod musi być zapisany razem z zakodowaną informacją),
- złożoności czasowej i pamięciowej algorytmu.
Prowadzący laboratorium może zrezygnować z części zadania, np. z implementacji kodowania Shannona-Fano.
Rozwiązanie
Rozwiązanie zadania powinno zawierać:
- wykonywalne programy,
- kody źródłowe programów,
- pliki tekstowe wykorzystane do eksperymentów,
- raport z analizą otrzymanych wyników i odpowiedziami na postawione wyżej pytania.
Pliki źródłowe i raport należy podpisać imieniem i nazwiskiem autora.
Ocenie podlegać będzie poprawność implementacji oraz umiejętność analizy i interpretacji wyników eksperymentalnych. Dodatkowe programy, eksperymenty, komentarze będą mile widziane. Nie będzie natomiast brana pod uwagę efektywność czasowa i pamięciowa programów.
Zadanie 2
Wykonaj następujący eksperyment:
- Przygotuj plik dane.txt zawierający tekst w języku naturalnym (polskim lub angielskim) o długości przynajmniej 50000 znaków.
- Skompresuj dane.txt algorytmem Huffmana, zapisując zakodowaną informację do pliku wynik.huf. Dla ułatwienia możesz każdy wynikowy bit zapisywać na oddzielnym bajcie, jako znak "0" lub "1".
- Wynikowy ciąg bitów skompresuj algorytmem Huffmana, zastosowanym do grup 1, 2, 4, 8 i 16 bitów, otrzymując pięć kolejnych plików: wynik01.huf, wynik02.huf, wynik04.huf, wynik08.huf, wynik16.huf.
- Porównaj liczbę bitów w plikach wynik.huf oraz wynik??.huf.
Co możesz powiedzieć o możliwości kompresji pliku już skompresowanego? Czy poprzez kilkakrotne zastosowanie kompresji można osiągnąć mniejszy rozmiar pliku? Jeśli tak, to w jakiej sytuacji? Uwzględnij fakt, że aby móc wykonać dekompresję, w wynikowym pliku musi być też zapisany kod, użyty do zakodowania wiadomości.
Zadanie 3
Wykonaj następujący eksperyment:
- Przygotuj plik dane.txt zawierający tekst w języku naturalnym (polskim lub angielskim) o długości przynajmniej 50000 znaków.
- Wygeneruj kody Huffmana , i dla grup 1, 2 i 3 symboli pliku dane.txt.
- Wygeneruj losowy ciąg 10000 bitów i zapisz do pliku kod.huf.
- Odczytaj 1000 symboli poprzez "zdekodowanie" pliku kod.huf (tak jakby był to plik skompresowany), używając każdego z kodów , i . Wynik dekodowania zapisz do plików dekod1.txt, dekod2.txt i dekod3.txt.
Odpowiedz na pytania:
- Czy każdy ciąg bitów można zdekodować za pomocą kodów Huffmana ? A za pomocą dowolnego kodu, niekoniecznie będącego kodem Huffmana?
- Ile bitów pliku kod.huf musiałeś zdekodować w każdym z 3 przypadków, aby uzyskać 1000 symboli? W którym przypadku liczba bitów była największa, a w którym najmniejsza? Dlaczego są one różne dla każdego przypadku?
- Jak można przewidzieć te wartości bez wykonywania eksperymentu, znając jedynie kod ?
- Który z plików dekod*.txt jest najbardziej podobny do pliku dane.txt?