Teoria informacji/TI Wykład 2: Różnice pomiędzy wersjami
Linia 129: | Linia 129: | ||
* wybranie jako tej funkcji <math> f = \log </math>, co zapewne jest najistotniejsze. | * wybranie jako tej funkcji <math> f = \log </math>, co zapewne jest najistotniejsze. | ||
Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Fechnera w naukach kognitywnych głosi, że odbierana przez nasze zmysły percepcja (P) zmiany bodźca (S, od słowa stimuli) jest proporcjonalna nie do absolutnej, ale do względnej zmiany tego bodźca | Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Fechnera w naukach kognitywnych głosi, że odbierana przez nasze zmysły percepcja (P) zmiany bodźca (S, od słowa ''stimuli'') jest proporcjonalna nie do absolutnej, ale do względnej zmiany tego bodźca | ||
<center><math> \partial P \approx \frac{ \partial S}{S}</math></center> | <center><math> \partial P \approx \frac{ \partial S}{S}</math></center> | ||
Wersja z 08:53, 7 sie 2006
Własności funkcji wypukłych
Do dalszego opisu własności kodów, będziemy potrzebowali przypomnienia pewnych informacji z analizy matematycznej:
Definicja [Funkcja wypukła]
Funkcja jest ściśle wypukła, jeśli powyższa nierówność jest ścisła z wyjątkiem przypadku, gdy lub . Geometrycznie oznacza to, że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.
Lemat
Dowód
Niech . Przekształcając nieco naszą formułę, mamy pokazać
Używając ponownie twierdzenia Lagrange’a, tym razem dla f, sprowadzamy to do
gdzie jest jakimś punktem w przedziale , a w przedziale . Korzystając z tego że wystarczy nam pokazać
co jest równoważne

W ramach tego kursu będziemy zajmować się głównie skończonymi przestrzeniami probabilistycznymi. Określając X jako zmienną losową na S, zawsze będziemy zakładać że S jest dana razem z rozkładem prawdopodobieństwa (a więc ), i . Przypomnijmy że wartość oczekiwana X to
Jeśli , będziemy używać notacji , . W takim zapisie . Od razu zauważmy, że E X nie zależy od tych , dla których . Mówimy że X jest stała, jeśli zachodzi tylko dla jednej wartości i.
Twierdzenie (Nierówność Jensena)
Dowód
co jest dokładnie definicją (ścisłej) wypukłości.
Niech , i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad S’ o ile . Bez utraty ogólności możemy założyć żę Niech dla . Wtedy
Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa i wartości , po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa , i wartości .
Załóżmy teraz że f jest ściśle wypukła, i w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego że obie zmienne losowe dla których użyliśmy hipotezy indukcyjnej są stałe. Po pierwsze dla wszystkich dla których , i ponadto jeśli to - a więc X jest stała.
Konwencja Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję
Jest to uzasadnione przejściami granicznymi: .
W dalszej części wykładu przydatna będzie funkcja . Na podstawie lematu powyżej łatwo pokazać że dla funkcja ta jest ściśle rosnąca na przedziale :
Lemat [Złoty]
Dowód
Załóżmy najpierw że . Wtedy
Korzystając z nierówności Jensena dla funkcji (na ), i zmiennej losowej która przyjmuje wartości z prawdopodobieństwami dostajemy
Ponieważ funkcja jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ i , implikuje to że dla
Założmy teraz że . Dodajmy oraz . Analogicznie do poprzedniego przypadku uzyskamy

Entropia
Wróćmy do przykładu z Grą w 20 pytań. Liczba pytań potrzebnych do zidentyfikowania obiektu wynosi co najmniej . Oczekiwana liczba pytań jakie musimy zadać to .
Korzystając ze Złotego Lematu, możemy pokazać że ta liczba jest optymalna w tym sensie, że przy dowolnej strategii średnia liczba pytań nie może być mniejsza. Rozważmy w tym celu strategię, dla której liczba pytań dla każdego wynosi . Z nierówności Krafta mamy . Aplikując Złoty Lemat dla oraz dostajemy
Jesteśmy gotowi do wprowadzenia jednego z głównych pojęć Teorii Informacji:
Definicja [Entropia Shannona]
Innymi słowy, jest wartością oczekiwaną zmiennej losowej zdefiniowanej na S jako .
Z oczywistych przyczyn w informatyce zwykle przyjmuje się , dlatego będziemy często pisać po prostu H na określenie .
Komentarz: Zauważmy że definicja entropii łączy dwa pomysły:
- wyliczenie wartości oczekiwanej pewnej funkcji złożonej z funkcją prawdopodobieństwa:
- wybranie jako tej funkcji , co zapewne jest najistotniejsze.
Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Fechnera w naukach kognitywnych głosi, że odbierana przez nasze zmysły percepcja (P) zmiany bodźca (S, od słowa stimuli) jest proporcjonalna nie do absolutnej, ale do względnej zmiany tego bodźca
Co po scałkowaniu daje
To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności jak i wysokości), a nawet statusu materialnego. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.
Jakie wartości może przyjmować entropia, w zależności od |S| i p? Z definicji wynika że , i równość zachodzi jedynie gdy całe prawdopodobieństwo jest skupione w jednym punkcie. Z drugiej strony, mamy
Fakt
Dowód