Teoria informacji/TI Wykład 2: Różnice pomiędzy wersjami
Nie podano opisu zmian |
Nie podano opisu zmian |
||
Linia 48: | Linia 48: | ||
Bez utraty ogólności możemy założyć żę <math>p_m<1</math> Niech <math>p_i' = \frac{p_i}{1-p_m}</math> dla <math>i = 1,\ldots ,m-1</math>. Wtedy | Bez utraty ogólności możemy założyć żę <math>p_m<1</math> Niech <math>p_i' = \frac{p_i}{1-p_m}</math> dla <math>i = 1,\ldots ,m-1</math>. Wtedy | ||
<math>\sum_{i=1}^{m} p_i \, f(x_i) = p_m f (x_m) + (1 - p_m) \sum_{i=1}^{m-1} p_i' f(x_i)</math> | <math>\sum_{i=1}^{m} p_i \, f(x_i) = p_m f (x_m) + (1 - p_m) \sum_{i=1}^{m-1} p_i' f(x_i)</math> | ||
:::<math>\geq p_m f (x_m) + (1 - p_m) f \left( \sum_{i=1}^{m-1} p_i' \, x_i \right)</math> | :::<math>\geq p_m f (x_m) + (1 - p_m) f \left( \sum_{i=1}^{m-1} p_i' \, x_i \right)</math> | ||
:::<math> \geq f \left( p_m x_m + (1 - p_m) \sum_{i=1}^{m-1} p_i'\, x_i \right)</math> | :::<math> \geq f \left( p_m x_m + (1 - p_m) \sum_{i=1}^{m-1} p_i'\, x_i \right)</math> | ||
:::<math> = f \left( \sum_{i=1}^{m} p_i x_i \right) </math> | :::<math> = f \left( \sum_{i=1}^{m} p_i x_i \right) </math> | ||
Linia 60: | Linia 57: | ||
'''Konwencja''' Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję | {{kotwica|konwencja_log|'''Konwencja'''}} Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję | ||
:<math> 0 \log_r 0 = 0 \log_r \frac{1}{0} = 0</math> | :<math> 0 \log_r 0 = 0 \log_r \frac{1}{0} = 0</math> | ||
Wersja z 08:20, 2 sie 2006
Własności funkcji wypukłych
Do dalszego opisu własności kodów, będziemy potrzebowali przypomnienia pewnych informacji z analizy matematycznej:
Definicja [Funkcja wypukła]
Funkcja jest ściśle wypukła jeśli powyższa nierówność jest ścisła dla i . Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.
Lemat
Dowód
Niech . Przekształcając naszą formułę, mamy pokazać
Używając ponownie twierdzenia Lagrange’a, tym razem dla f, upraszczamy to do
gdzie jest jakimś punktem w przedziale , a w przedziale . Korzystając z tego że otrzymujemy

W ramach tego kursu będziemy zajmować się głównie skończonymi przestrzeniami probabilistycznymi. Określając X jako zmienną losową na S, zawsze będziemy zakładać że S jest dana razem z rozkładem prawdopodobieństwa (a więc ), i . Przypomnijmy że wartość oczekiwana X to
Jeśli , będziemy używać notacji , . W takim zapisie . Od razu zauważmy że E X nie zależy od tych dla których . Mówimy że X jest stała, jeśli tylko dla jednej wartości i zachodzi
Twierdzenie (Nierówność Jensena)
- .
Dowód
co jest dokładnie definicją (ścisłej) wypukłości.
Niech , i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad S’ o ile . Bez utraty ogólności możemy założyć żę Niech dla . Wtedy
Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa i wartości , po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa , i wartości .
Załóżmy teraz że f jest ściśle wypukła, i w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego że obie zmienne losowe dla których użyliśmy hipotezy indukcyjnej są stałe. Po pierwsze dla wszystkich dla których , i ponadto jeśli to - a więc X jest stała.
Konwencja Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję
Jest to uzasadnione przejściami granicznymi: .
W dalszej części wykładu przydatna będzie funkcja . Na podstawie lematu powyżej łatwo pokazać że dla funkcja ta jest ściśle rosnąca na przedziale :
Lemat [Złoty]
Dowód
Załóżmy najpierw że . Wtedy
Korzystając z nierówności Jensena dla funkcji (na ), i zmiennej losowej która przyjmuje wartości z prawdopodobieństwami dostajemy
Ponieważ funkcja jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ i , implikuje to że dla
Założmy teraz że . Dodajmy oraz . Analogicznie do poprzedniego przypadku uzyskamy

Entropia
Wróćmy do przykładu z Grą w 20 pytań. Liczba pytań potrzebnych do zidentyfikowania obiektu wynosi co najmniej . Oczekiwana liczba pytań jakie musimy zadać to .
Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań jest optymalna. Rozważmy w tym celu strategię dla której liczba pytań dla każdego wynosi . Z nierówności Krafta mamy . Aplikując Złoty Lemat dla oraz dostajemy
Jesteśmy gotowi do wprowadzenia jednego z głównych pojęć Teorii Informacji:
Definicja [Entropia Shannona]
Innymi słowy, jest wartością oczekiwaną zmiennej losowej zdefiniowanej na S jako .
Z oczywistych przyczyn zwykle w informatyce przyjmuje się , dlatego będziemy często korzystać ze skrótu
Komentarz: Zauważmy że definicja entropii łączy dwa pomysły:
- wyliczenie wartości oczekiwanej jakiejś funkcji przy zadanym prawdopodobieństwie
- wybranie tej funkcji jako log, co być może jest najistotniejsze
Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Finchera głosi że odbierana przez nasze zmysły (P) zmiana bodźca (S) jest proporcjonalna nie do absolutnej, ale do procentowej zmiany tego bodźca
Co po scałkowaniu daje
To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności jak i wysokości), a nawet bogactwa. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.
Jakie wartości może przyjmować entropia, w zależności od |S| i p? Z definicji wynika że , i równość zachodzi jedynie gdy całe prawdopodobieństwo jest skupione w jednym punkcie. Z drugiej strony, mamy
Fakt
Dowód