Teoria informacji/TI Wykład 2: Różnice pomiędzy wersjami
Linia 8: | Linia 8: | ||
Funkcja jest '''ściśle wypukła''', jeśli powyższa nierówność jest ścisła z wyjątkiem przypadku, gdy | Funkcja jest '''ściśle wypukła''', jeśli powyższa nierówność jest ścisła z wyjątkiem przypadku, gdy | ||
<math>\lambda \in \{ 0,1\}</math> lub <math>x_1 = x_2</math>. Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu. | <math>\lambda \in \{ 0,1\}</math> lub <math>x_1 = x_2</math>. Geometrycznie oznacza to, że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu. | ||
<center>[[grafika:Wypukla.PNG|Funkcja wypukła]]</center> | <center>[[grafika:Wypukla.PNG|Funkcja wypukła]]</center> | ||
{{lemat||do_wypukłej|Jeśli ''f'' jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz <math>f'' \geq 0</math> (<math>f'' > 0</math>) to jest wypukła (ściśle wypukła).}} | {{lemat||do_wypukłej|Jeśli ''f'' jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz <math>f'' \geq 0</math> (<math>f'' > 0</math>), to jest wypukła (ściśle wypukła).}} | ||
{{dowod|||Załóżmy <math>f'' \geq 0</math>. Z twierdzenia Lagrange’a o wartości średniej wynika że ''f’'' jest rosnąca na ''(a,b)'' (dla <math>a<t_1<t_2<b</math> , <math>f'(t_2)-f'(t_1)=f''(\tilde{t})(t_2 - t_1) \geq 0</math>). | {{dowod|||Załóżmy <math>f'' \geq 0</math>. Z twierdzenia Lagrange’a o wartości średniej zastosowanego do funkcji ''f’'', wynika że ''f’'' jest rosnąca na ''(a,b)'' (dla <math>a<t_1<t_2<b</math> , <math>f'(t_2)-f'(t_1)=f''(\tilde{t})(t_2 - t_1) \geq 0</math>). | ||
Niech <math>{x_{\lambda }} = \lambda x_1 + (1 - \lambda ) x_2</math>. Przekształcając naszą formułę, mamy pokazać | Niech <math>{x_{\lambda }} = \lambda x_1 + (1 - \lambda ) x_2</math>. Przekształcając nieco naszą formułę, mamy pokazać | ||
<center><math>\lambda (f(x_{\lambda }) - f(x_1)) \leq (1 - \lambda ) (f (x_2) - f (x_{\lambda })) </math></center> | <center><math>\lambda (f(x_{\lambda }) - f(x_1)) \leq (1 - \lambda ) (f (x_2) - f (x_{\lambda })) </math></center> | ||
Używając ponownie twierdzenia Lagrange’a, tym razem dla ''f'', | Używając ponownie twierdzenia Lagrange’a, tym razem dla ''f'', sprowadzamy to do | ||
<center><math>\lambda f' (\tilde{x_1}) (x_{\lambda } - x_1) \leq (1 - \lambda ) f' (\tilde{x_2}) (x_2 - x_{\lambda })</math></center> | <center><math>\lambda f' (\tilde{x_1}) (x_{\lambda } - x_1) \leq (1 - \lambda ) f' (\tilde{x_2}) (x_2 - x_{\lambda })</math></center> | ||
gdzie <math>\tilde{x_1}</math> jest jakimś punktem w przedziale <math>(x_1,x_{\lambda})</math>, a <math>\tilde{x_2}</math> w przedziale <math>(x_{\lambda},x_2)</math>. Korzystając z tego że <math> x_{\lambda}-x_1= \lambda(x_2-x1)</math> | gdzie <math>\tilde{x_1}</math> jest jakimś punktem w przedziale <math>(x_1,x_{\lambda})</math>, a <math>\tilde{x_2}</math> w przedziale <math>(x_{\lambda},x_2)</math>. Korzystając z tego że <math> x_{\lambda}-x_1= \lambda(x_2-x1)</math> wystarczy nam pokazać | ||
<center><math> \lambda (1 - \lambda ) f' (\tilde{x_1}) (x_2 - x_1) \leq \lambda (1 - \lambda ) f' (\tilde{x_2}) (x_2 - x_1)</math></center> | <center><math> \lambda (1 - \lambda ) f' (\tilde{x_1}) (x_2 - x_1) \leq \lambda (1 - \lambda ) f' (\tilde{x_2}) (x_2 - x_1)</math></center> | ||
co jest równoważne | |||
<center><math> f' (\tilde{x_1}) \leq f' (\tilde{x_2}) </math></center> | <center><math> f' (\tilde{x_1}) \leq f' (\tilde{x_2}) </math></center> | ||
A to wynika z faktu że ''f’'' jest rosnąca na ''(a,b)''. Dla <math>f''>0</math> rozumowanie jest analogiczne.}} | A to już wynika z faktu, że ''f’'' jest rosnąca na ''(a,b)''. Dla <math>f''>0</math> rozumowanie jest analogiczne.}} | ||
Wersja z 08:12, 7 sie 2006
Własności funkcji wypukłych
Do dalszego opisu własności kodów, będziemy potrzebowali przypomnienia pewnych informacji z analizy matematycznej:
Definicja [Funkcja wypukła]
Funkcja jest ściśle wypukła, jeśli powyższa nierówność jest ścisła z wyjątkiem przypadku, gdy lub . Geometrycznie oznacza to, że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.
Lemat
Dowód
Niech . Przekształcając nieco naszą formułę, mamy pokazać
Używając ponownie twierdzenia Lagrange’a, tym razem dla f, sprowadzamy to do
gdzie jest jakimś punktem w przedziale , a w przedziale . Korzystając z tego że wystarczy nam pokazać
co jest równoważne

W ramach tego kursu będziemy zajmować się głównie skończonymi przestrzeniami probabilistycznymi. Określając X jako zmienną losową na S, zawsze będziemy zakładać że S jest dana razem z rozkładem prawdopodobieństwa (a więc ), i . Przypomnijmy że wartość oczekiwana X to
Jeśli , będziemy używać notacji , . W takim zapisie . Od razu zauważmy że E X nie zależy od tych dla których . Mówimy że X jest stała, jeśli tylko dla jednej wartości i zachodzi
Twierdzenie (Nierówność Jensena)
Dowód
co jest dokładnie definicją (ścisłej) wypukłości.
Niech , i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad S’ o ile . Bez utraty ogólności możemy założyć żę Niech dla . Wtedy
Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa i wartości , po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa , i wartości .
Załóżmy teraz że f jest ściśle wypukła, i w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego że obie zmienne losowe dla których użyliśmy hipotezy indukcyjnej są stałe. Po pierwsze dla wszystkich dla których , i ponadto jeśli to - a więc X jest stała.
Konwencja Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję
Jest to uzasadnione przejściami granicznymi: .
W dalszej części wykładu przydatna będzie funkcja . Na podstawie lematu powyżej łatwo pokazać że dla funkcja ta jest ściśle rosnąca na przedziale :
Lemat [Złoty]
Dowód
Załóżmy najpierw że . Wtedy
Korzystając z nierówności Jensena dla funkcji (na ), i zmiennej losowej która przyjmuje wartości z prawdopodobieństwami dostajemy
Ponieważ funkcja jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ i , implikuje to że dla
Założmy teraz że . Dodajmy oraz . Analogicznie do poprzedniego przypadku uzyskamy

Entropia
Wróćmy do przykładu z Grą w 20 pytań. Liczba pytań potrzebnych do zidentyfikowania obiektu wynosi co najmniej . Oczekiwana liczba pytań jakie musimy zadać to .
Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań jest optymalna. Rozważmy w tym celu strategię dla której liczba pytań dla każdego wynosi . Z nierówności Krafta mamy . Aplikując Złoty Lemat dla oraz dostajemy
Jesteśmy gotowi do wprowadzenia jednego z głównych pojęć Teorii Informacji:
Definicja [Entropia Shannona]
Innymi słowy, jest wartością oczekiwaną zmiennej losowej zdefiniowanej na S jako .
Z oczywistych przyczyn zwykle w informatyce przyjmuje się , dlatego będziemy często pisać po prostu H na określenie .
Komentarz: Zauważmy że definicja entropii łączy dwa pomysły:
- wyliczenie wartości oczekiwanej jakiejś funkcji przy zadanym prawdopodobieństwie
- wybranie tej funkcji jako log, co być może jest najistotniejsze
Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Fechnera głosi że odbierana przez nasze zmysły (P) zmiana bodźca (S) jest proporcjonalna nie do absolutnej, ale do procentowej zmiany tego bodźca
Co po scałkowaniu daje
To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności jak i wysokości), a nawet bogactwa. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.
Jakie wartości może przyjmować entropia, w zależności od |S| i p? Z definicji wynika że , i równość zachodzi jedynie gdy całe prawdopodobieństwo jest skupione w jednym punkcie. Z drugiej strony, mamy
Fakt
Dowód