Teoria informacji/TI Wykład 2: Różnice pomiędzy wersjami
Linia 7: | Linia 7: | ||
<center><math>\lambda f(x_1 ) + (1 - \lambda ) f(x_2 ) \geq f (\lambda x_1 + (1 - \lambda ) x_2 )</math></center>}} | <center><math>\lambda f(x_1 ) + (1 - \lambda ) f(x_2 ) \geq f (\lambda x_1 + (1 - \lambda ) x_2 )</math></center>}} | ||
Funkcja jest '''ściśle wypukła''' jeśli powyższa nierówność jest ścisła | Funkcja jest '''ściśle wypukła''', jeśli powyższa nierówność jest ścisła z wyjątkiem przypadku, gdy | ||
<math>\lambda \in \{ 0,1\}</math> lub <math>x_1 = x_2</math>. Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu. | |||
<center>[[grafika:Wypukla.PNG|Funkcja wypukła]]</center> | <center>[[grafika:Wypukla.PNG|Funkcja wypukła]]</center> | ||
Linia 91: | Linia 92: | ||
Zauważmy że w tym przypadku nie może być równości, gdyż implikowałoby to <math>x_{q+1}=y_{q+1}</math>.}} | Zauważmy że w tym przypadku nie może być równości, gdyż implikowałoby to <math>x_{q+1}=y_{q+1}</math>.}} | ||
=== Entropia === | === Entropia === |
Wersja z 07:53, 7 sie 2006
Własności funkcji wypukłych
Do dalszego opisu własności kodów, będziemy potrzebowali przypomnienia pewnych informacji z analizy matematycznej:
Definicja [Funkcja wypukła]
Funkcja jest ściśle wypukła, jeśli powyższa nierówność jest ścisła z wyjątkiem przypadku, gdy lub . Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.
Lemat
Dowód
Niech . Przekształcając naszą formułę, mamy pokazać
Używając ponownie twierdzenia Lagrange’a, tym razem dla f, upraszczamy to do
gdzie jest jakimś punktem w przedziale , a w przedziale . Korzystając z tego że otrzymujemy

W ramach tego kursu będziemy zajmować się głównie skończonymi przestrzeniami probabilistycznymi. Określając X jako zmienną losową na S, zawsze będziemy zakładać że S jest dana razem z rozkładem prawdopodobieństwa (a więc ), i . Przypomnijmy że wartość oczekiwana X to
Jeśli , będziemy używać notacji , . W takim zapisie . Od razu zauważmy że E X nie zależy od tych dla których . Mówimy że X jest stała, jeśli tylko dla jednej wartości i zachodzi
Twierdzenie (Nierówność Jensena)
Dowód
co jest dokładnie definicją (ścisłej) wypukłości.
Niech , i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad S’ o ile . Bez utraty ogólności możemy założyć żę Niech dla . Wtedy
Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa i wartości , po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa , i wartości .
Załóżmy teraz że f jest ściśle wypukła, i w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego że obie zmienne losowe dla których użyliśmy hipotezy indukcyjnej są stałe. Po pierwsze dla wszystkich dla których , i ponadto jeśli to - a więc X jest stała.
Konwencja Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję
Jest to uzasadnione przejściami granicznymi: .
W dalszej części wykładu przydatna będzie funkcja . Na podstawie lematu powyżej łatwo pokazać że dla funkcja ta jest ściśle rosnąca na przedziale :
Lemat [Złoty]
Dowód
Załóżmy najpierw że . Wtedy
Korzystając z nierówności Jensena dla funkcji (na ), i zmiennej losowej która przyjmuje wartości z prawdopodobieństwami dostajemy
Ponieważ funkcja jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ i , implikuje to że dla
Założmy teraz że . Dodajmy oraz . Analogicznie do poprzedniego przypadku uzyskamy

Entropia
Wróćmy do przykładu z Grą w 20 pytań. Liczba pytań potrzebnych do zidentyfikowania obiektu wynosi co najmniej . Oczekiwana liczba pytań jakie musimy zadać to .
Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań jest optymalna. Rozważmy w tym celu strategię dla której liczba pytań dla każdego wynosi . Z nierówności Krafta mamy . Aplikując Złoty Lemat dla oraz dostajemy
Jesteśmy gotowi do wprowadzenia jednego z głównych pojęć Teorii Informacji:
Definicja [Entropia Shannona]
Innymi słowy, jest wartością oczekiwaną zmiennej losowej zdefiniowanej na S jako .
Z oczywistych przyczyn zwykle w informatyce przyjmuje się , dlatego będziemy często pisać po prostu H na określenie .
Komentarz: Zauważmy że definicja entropii łączy dwa pomysły:
- wyliczenie wartości oczekiwanej jakiejś funkcji przy zadanym prawdopodobieństwie
- wybranie tej funkcji jako log, co być może jest najistotniejsze
Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Fechnera głosi że odbierana przez nasze zmysły (P) zmiana bodźca (S) jest proporcjonalna nie do absolutnej, ale do procentowej zmiany tego bodźca
Co po scałkowaniu daje
To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności jak i wysokości), a nawet bogactwa. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.
Jakie wartości może przyjmować entropia, w zależności od |S| i p? Z definicji wynika że , i równość zachodzi jedynie gdy całe prawdopodobieństwo jest skupione w jednym punkcie. Z drugiej strony, mamy
Fakt
Dowód