Teoria informacji/TI Wykład 2: Różnice pomiędzy wersjami
Nie podano opisu zmian |
Nie podano opisu zmian |
||
Linia 4: | Linia 4: | ||
{{definicja|[Funkcja wypukła]|wypukła| Funkcja <math>f : [a,b] \to {\mathbb R}</math> jest '''wypukła''' (na [a,b]) jeśli <math>\forall x_1, x_2 \in [a,b] </math>, <math>\forall \lambda \in [0,1] </math> | {{definicja|[Funkcja wypukła]|wypukła| Funkcja <math>f : [a,b] \to {\mathbb R}</math> jest '''wypukła''' (na [a,b]) jeśli <math>\forall x_1, x_2 \in [a,b] </math>, <math>\forall \lambda \in [0,1] </math>: | ||
<center><math>\lambda f(x_1 ) + (1 - \lambda ) f(x_2 ) \geq f (\lambda x_1 + (1 - \lambda ) x_2 )</math></center>}} | |||
Funkcja jest '''ściśle wypukła''' jeśli powyższa nierówność jest ścisła dla <math>\lambda \notin \{ 0,1\}</math> i <math>x_1 \neq x_2</math>. Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu. | Funkcja jest '''ściśle wypukła''' jeśli powyższa nierówność jest ścisła dla <math>\lambda \notin \{ 0,1\}</math> i <math>x_1 \neq x_2</math>. Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu. | ||
<center>[[grafika:Wypukla.PNG|Funkcja wypukła]]</center> | |||
{{lemat||do_wypukłej|Jeśli ''f'' jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz <math>f'' \geq 0</math> (<math>f'' > 0</math>) to jest wypukła (ściśle wypukła).}} | {{lemat||do_wypukłej|Jeśli ''f'' jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz <math>f'' \geq 0</math> (<math>f'' > 0</math>) to jest wypukła (ściśle wypukła).}} | ||
{{dowod|||Załóżmy <math>f'' \geq 0</math>. Z twierdzenia Lagrange’a o wartości średniej wynika że ''f’'' jest rosnąca na ''(a,b)'' (dla <math>a<t_1<t_2<b, f'(t_2)-f'(t_1)=f''(\tilde{t})(t_2 - t_1) \geq 0</math>). | {{dowod|||Załóżmy <math>f'' \geq 0</math>. Z twierdzenia Lagrange’a o wartości średniej wynika że ''f’'' jest rosnąca na ''(a,b)'' (dla <math>a<t_1<t_2<b</math> , <math>f'(t_2)-f'(t_1)=f''(\tilde{t})(t_2 - t_1) \geq 0</math>). | ||
Niech <math>{x_{\lambda }} = \lambda x_1 + (1 - \lambda ) x_2</math>. Przekształcając naszą formułę, mamy pokazać | Niech <math>{x_{\lambda }} = \lambda x_1 + (1 - \lambda ) x_2</math>. Przekształcając naszą formułę, mamy pokazać | ||
<center><math>\lambda (f(x_{\lambda }) - f(x_1)) \leq (1 - \lambda ) (f (x_2) - f (x_{\lambda })) </math></center> | |||
Używając ponownie twierdzenia Lagrange’a, tym razem dla ''f'', upraszczamy to do | Używając ponownie twierdzenia Lagrange’a, tym razem dla ''f'', upraszczamy to do | ||
<center><math>\lambda f' (\tilde{x_1}) (x_{\lambda } - x_1) \leq (1 - \lambda ) f' (\tilde{x_2}) (x_2 - x_{\lambda })</math></center> | |||
gdzie <math>\tilde{x_1}</math> jest jakimś punktem w przedziale <math>(x_1,x_{\lambda})</math>, a <math>\tilde{x_2}</math> w przedziale <math>(x_{\lambda},x_2)</math>. Korzystając z tego że <math> x_{\lambda}-x_1= \lambda(x_2-x1)</math> otrzymujemy | gdzie <math>\tilde{x_1}</math> jest jakimś punktem w przedziale <math>(x_1,x_{\lambda})</math>, a <math>\tilde{x_2}</math> w przedziale <math>(x_{\lambda},x_2)</math>. Korzystając z tego że <math> x_{\lambda}-x_1= \lambda(x_2-x1)</math> otrzymujemy | ||
<center><math> \lambda (1 - \lambda ) f' (\tilde{x_1}) (x_2 - x_1) \leq \lambda (1 - \lambda ) f' (\tilde{x_2}) (x_2 - x_1)</math></center> | |||
<center><math> f' (\tilde{x_1}) \leq f' (\tilde{x_2}) </math></center> | |||
A to wynika z faktu że ''f’'' jest rosnąca na ''(a,b)''. Dla <math>f''>0</math> rozumowanie jest analogiczne.}} | A to wynika z faktu że ''f’'' jest rosnąca na ''(a,b)''. Dla <math>f''>0</math> rozumowanie jest analogiczne.}} | ||
Linia 31: | Linia 31: | ||
W ramach tego kursu będziemy zajmować się głównie ''skończonymi'' przestrzeniami probabilistycznymi. Określając ''X'' jako ''zmienną losową'' na ''S'', zawsze będziemy zakładać że ''S'' jest dana razem z rozkładem prawdopodobieństwa <math>p:S \to [0,1]</math> (a więc <math>\sum_{s \in S} p(s) = 1</math>), i <math>X:S \to \mathbb{R}</math>. Przypomnijmy że ''wartość oczekiwana X'' to | W ramach tego kursu będziemy zajmować się głównie ''skończonymi'' przestrzeniami probabilistycznymi. Określając ''X'' jako ''zmienną losową'' na ''S'', zawsze będziemy zakładać że ''S'' jest dana razem z rozkładem prawdopodobieństwa <math>p:S \to [0,1]</math> (a więc <math>\sum_{s \in S} p(s) = 1</math>), i <math>X:S \to \mathbb{R}</math>. Przypomnijmy że ''wartość oczekiwana X'' to | ||
<center><math>E X = \sum_{s \in S} p(s) \cdot X(s)</math></center> | |||
Jeśli <math>S = \{ s_1, \ldots , s_m \}</math>, będziemy używać notacji <math>p_i=p(s_i)</math>, <math>x_i=X(s_i)</math>. W takim zapisie <math>E X = p_1 x_1 + \ldots + p_m x_m</math>. Od razu zauważmy że ''E X'' nie zależy od tych <math>x_i</math> dla których <math>p_i=0</math>. Mówimy że ''X'' jest stała, jeśli tylko dla jednej wartości ''i'' zachodzi <math>p_i > 0</math> | Jeśli <math>S = \{ s_1, \ldots , s_m \}</math>, będziemy używać notacji <math>p_i=p(s_i)</math>, <math>x_i=X(s_i)</math>. W takim zapisie <math>E X = p_1 x_1 + \ldots + p_m x_m</math>. Od razu zauważmy że ''E X'' nie zależy od tych <math>x_i</math> dla których <math>p_i=0</math>. Mówimy że ''X'' jest stała, jeśli tylko dla jednej wartości ''i'' zachodzi <math>p_i > 0</math> | ||
Linia 37: | Linia 37: | ||
{{twierdzenie|(Nierówność Jensena)|Jensen| Jeśli <math>f:[a,b] \to \mathbb{R}</math> jest wypukłą funkcją, to dla każdej zmiennej losowej <math>X:S \to [a,b]</math>, | {{twierdzenie|(Nierówność Jensena)|Jensen| Jeśli <math>f:[a,b] \to \mathbb{R}</math> jest wypukłą funkcją, to dla każdej zmiennej losowej <math>X:S \to [a,b]</math>, | ||
<center><math>E f(X) \geq f (E X)</math>.</center> | |||
Jeśli dodatkowo ''f'' jest ściśle rosnąca, to powyższa nierówność jest ścisła o ile ''X'' nie jest stała.}} | Jeśli dodatkowo ''f'' jest ściśle rosnąca, to powyższa nierówność jest ścisła o ile ''X'' nie jest stała.}} | ||
{{dowod||do_Jensen|Przez indukcję po <math>|S|</math>. Przypadek <math>|S|=1</math> jest trywialny, a dla <math>|S|=2</math> nierówność możemy zapisać w postaci | {{dowod||do_Jensen|Przez indukcję po <math>|S|</math>. Przypadek <math>|S|=1</math> jest trywialny, a dla <math>|S|=2</math> nierówność możemy zapisać w postaci | ||
<center><math> p_1 f(x_1) + p_2 f(x_2) \geq (>) f ( p_1 x_1 + p_2 x_2)</math></center> | |||
co jest dokładnie definicją (ścisłej) wypukłości. | co jest dokładnie definicją (ścisłej) wypukłości. | ||
Linia 47: | Linia 47: | ||
Niech <math>S=\{s_1, \ldots, s_m\}</math>, i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad ''S’'' o ile <math>|S'|\le m-1</math>. | Niech <math>S=\{s_1, \ldots, s_m\}</math>, i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad ''S’'' o ile <math>|S'|\le m-1</math>. | ||
Bez utraty ogólności możemy założyć żę <math>p_m<1</math> Niech <math>p_i' = \frac{p_i}{1-p_m}</math> dla <math>i = 1,\ldots ,m-1</math>. Wtedy | Bez utraty ogólności możemy założyć żę <math>p_m<1</math> Niech <math>p_i' = \frac{p_i}{1-p_m}</math> dla <math>i = 1,\ldots ,m-1</math>. Wtedy | ||
<math>\sum_{i=1}^{m} p_i \, f(x_i) = p_m f (x_m) + (1 - p_m) \sum_{i=1}^{m-1} p_i' f(x_i) | |||
<center> | |||
<math>\aligned | |||
\sum_{i=1}^{m} p_i \, f(x_i) &= p_m f (x_m) + (1 - p_m) \sum_{i=1}^{m-1} p_i' f(x_i)\\ | |||
&\geq p_m f (x_m) + (1 - p_m) f \left( \sum_{i=1}^{m-1} p_i' \, x_i \right)\\ | |||
&\geq f \left( p_m x_m + (1 - p_m) \sum_{i=1}^{m-1} p_i'\, x_i \right)\\ | |||
&= f \left( \sum_{i=1}^{m} p_i x_i \right) | |||
\endaligned | |||
</math></center> | |||
Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math> p_1', \ldots , p_{m-1}'</math> i wartości <math> x_1, \ldots , x_{m-1}</math>, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_m, 1-p_m</math>, i wartości <math>x_m, \sum_{i=1}^{m-1} p_i' x_i</math>. | Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math> p_1', \ldots , p_{m-1}'</math> i wartości <math> x_1, \ldots , x_{m-1}</math>, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_m, 1-p_m</math>, i wartości <math>x_m, \sum_{i=1}^{m-1} p_i' x_i</math>. | ||
Linia 58: | Linia 63: | ||
{{kotwica|konwencja_log|'''Konwencja'''}} Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję | {{kotwica|konwencja_log|'''Konwencja'''}} Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję | ||
<center><math> 0 \log_r 0 = 0 \log_r \frac{1}{0} = 0</math></center> | |||
Jest to uzasadnione przejściami granicznymi: <math>lim_{x \to 0} x \log_r x = \lim_{x \to 0} - x \log_r \frac{1}{x} = \lim_{|y| \to \infty} - \frac{\log_r y}{y} = 0 </math>. | Jest to uzasadnione przejściami granicznymi: <math>lim_{x \to 0} x \log_r x = \lim_{x \to 0} - x \log_r \frac{1}{x} = \lim_{|y| \to \infty} - \frac{\log_r y}{y} = 0 </math>. | ||
W dalszej części wykładu przydatna będzie funkcja <math>x \log_r x</math>. Na podstawie lematu powyżej łatwo pokazać że dla <math>r>1</math> funkcja ta jest ściśle rosnąca na przedziale <math>[0,\infty)</math>: | W dalszej części wykładu przydatna będzie funkcja <math>x \log_r x</math>. Na podstawie lematu powyżej łatwo pokazać że dla <math>r>1</math> funkcja ta jest ściśle rosnąca na przedziale <math>[0,\infty)</math>: | ||
<center><math>\left( x \log_r x \right)'' = \left(\log_r x + x \cdot \frac{1}{x} \cdot \log_r e \right)' = \frac{1}{x} \cdot \log_r e > 0</math></center> | |||
{{lemat|[Złoty]|złoty| Niech <math> 1 = \sum_{i=1}^q x_i \geq \sum_{i=1}^q y_i</math>, gdzie <math>x_i\ge 0</math> i <math>y_i> 0</math> dla <math>i=1, \ldots, q</math> i niech <math>r>1</math>. Wtedy | {{lemat|[Złoty]|złoty| Niech <math> 1 = \sum_{i=1}^q x_i \geq \sum_{i=1}^q y_i</math>, gdzie <math>x_i\ge 0</math> i <math>y_i> 0</math> dla <math>i=1, \ldots, q</math> i niech <math>r>1</math>. Wtedy | ||
<center><math>\sum_{i=1}^q x_i \cdot \log_r \frac{1}{y_i}\geq \sum_{i=1}^q x_i \cdot \log_r \frac{1}{x_i}</math></center> | |||
i równość zachodzi tylko jeśli <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>}} | i równość zachodzi tylko jeśli <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>}} | ||
Linia 73: | Linia 78: | ||
{{dowod||do_złoty| | {{dowod||do_złoty| | ||
Załóżmy najpierw że <math> \sum_{i=1}^q y_i = 1</math>. Wtedy | Załóżmy najpierw że <math> \sum_{i=1}^q y_i = 1</math>. Wtedy | ||
<center><math>\mathit{Lewa} - \mathit{Prawa} = \sum_{i=1}^q x_i \cdot \log_r \frac{x_i}{y_i} = \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right) \cdot \log_r \frac{x_i}{y_i}</math></center> | |||
Korzystając z nierówności Jensena dla funkcji <math>x \log_r x</math> (na <math>[0,\infty)</math>), i zmiennej losowej która przyjmuje wartości <math>\left(\frac{x_i}{y_i} \right) </math> z prawdopodobieństwami <math>y_i</math> dostajemy | Korzystając z nierówności Jensena dla funkcji <math>x \log_r x</math> (na <math>[0,\infty)</math>), i zmiennej losowej która przyjmuje wartości <math>\left(\frac{x_i}{y_i} \right) </math> z prawdopodobieństwami <math>y_i</math> dostajemy | ||
<center><math>\sum_{i=1}^q y_i \cdot \left(\frac{x_i}{y_i} \right) \cdot \log_r \frac{x_i}{y_i} | |||
\geq \log_r \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right) = 0.</ | \geq \log_r \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right) = 0</math>.</center> | ||
Ponieważ funkcja <math>x \log_r x</math> jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ <math>y_i>0</math> i <math>\sum_{i=1}^q x_i = \sum_{i=1}^q y_i</math>, implikuje to że <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math> | Ponieważ funkcja <math>x \log_r x</math> jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ <math>y_i>0</math> i <math>\sum_{i=1}^q x_i = \sum_{i=1}^q y_i</math>, implikuje to że <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math> | ||
Założmy teraz że <math> \sum_{i=1}^q y_i < 1</math>. Dodajmy <math>y_{q+1} = 1 - \sum_{i=1}^q y_i</math> oraz <math>x_{q+1}=0</math>. Analogicznie do poprzedniego przypadku uzyskamy | Założmy teraz że <math> \sum_{i=1}^q y_i < 1</math>. Dodajmy <math>y_{q+1} = 1 - \sum_{i=1}^q y_i</math> oraz <math>x_{q+1}=0</math>. Analogicznie do poprzedniego przypadku uzyskamy | ||
<center><math>\sum_{i=1}^q x_i \cdot \log_r \frac{1}{y_i} = \sum_{i=1}^{q+1} x_i \cdot \log_r \frac{1}{y_i} \geq \sum_{i=1}^{q+1} x_i \cdot \log_r \frac{1}{x_i} = | |||
\sum_{i=1}^{q} x_i \cdot \log_r \frac{1}{x_i}</math> | \sum_{i=1}^{q} x_i \cdot \log_r \frac{1}{x_i}</math></center> | ||
Zauważmy że w tym przypadku nie może być równości, gdyż | Zauważmy że w tym przypadku nie może być równości, gdyż implikowałoby to <math>x_{q+1}=y_{q+1}</math>.}} | ||
Linia 95: | Linia 100: | ||
Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań jest optymalna. Rozważmy w tym celu strategię dla której liczba pytań dla każdego <math>s_i</math> wynosi <math>\ell(s_i)</math>. Z nierówności Krafta mamy <math>\sum_{i=1}^{m} \frac{1}{2^{\ell (s_i)}} \leq 1</math>. Aplikując Złoty Lemat dla <math>x_i=p(s_i)</math> oraz <math>y_i = \frac{1}{2^{\ell (s_i)}}</math> dostajemy | Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań jest optymalna. Rozważmy w tym celu strategię dla której liczba pytań dla każdego <math>s_i</math> wynosi <math>\ell(s_i)</math>. Z nierówności Krafta mamy <math>\sum_{i=1}^{m} \frac{1}{2^{\ell (s_i)}} \leq 1</math>. Aplikując Złoty Lemat dla <math>x_i=p(s_i)</math> oraz <math>y_i = \frac{1}{2^{\ell (s_i)}}</math> dostajemy | ||
<center><math>\sum_{i=1}^{m} p(s_i) \cdot \ell (s_i) \geq \sum_{i=1}^{m} p(s_i) \cdot \log_2 \frac{1}{p(s_i)}</math></center> | |||
Linia 103: | Linia 108: | ||
{{definicja|[Entropia Shannona]|entropia|'''Entropią''' przestrzeni probabilistycznej ''S'' (parametryzowaną przez <math>r>1</math>) nazywamy funkcję | {{definicja|[Entropia Shannona]|entropia|'''Entropią''' przestrzeni probabilistycznej ''S'' (parametryzowaną przez <math>r>1</math>) nazywamy funkcję | ||
<math>H_r (S) = \sum_{s \in S} p (s) \cdot \log_r \frac{1}{p(s)} | <center> | ||
<math>\aligned | |||
H_r (S) & = \sum_{s \in S} p (s) \cdot \log_r \frac{1}{p(s)}\\ | |||
& = - \sum_{s \in S} p (s) \cdot \log_r {p(s)} | |||
\endaligned | |||
</math></center> | |||
}} | |||
Innymi słowy, <math>H_r(S)</math> jest wartością oczekiwaną zmiennej losowej zdefiniowanej na ''S'' jako <math>s \mapsto \log_r \frac{1}{p(s)}</math>. | Innymi słowy, <math>H_r(S)</math> jest wartością oczekiwaną zmiennej losowej zdefiniowanej na ''S'' jako <math>s \mapsto \log_r \frac{1}{p(s)}</math>. | ||
Z oczywistych przyczyn zwykle w informatyce przyjmuje się <math>r=2</math>, dlatego będziemy często | Z oczywistych przyczyn zwykle w informatyce przyjmuje się <math>r=2</math>, dlatego będziemy często pisać po prostu H na określenie <math>H_2</math>. | ||
Komentarz: Zauważmy że definicja entropii łączy dwa pomysły: | Komentarz: Zauważmy że definicja entropii łączy dwa pomysły: | ||
Linia 116: | Linia 125: | ||
Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Finchera głosi że odbierana przez nasze zmysły (P) zmiana bodźca (S) jest proporcjonalna nie do absolutnej, ale do procentowej zmiany tego bodźca | Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Finchera głosi że odbierana przez nasze zmysły (P) zmiana bodźca (S) jest proporcjonalna nie do absolutnej, ale do procentowej zmiany tego bodźca | ||
<center><math> \partial P \approx \frac{ \partial S}{S}</math></center> | |||
Co po scałkowaniu daje | Co po scałkowaniu daje | ||
<center><math> P \approx \log S</math></center> | |||
To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności jak i wysokości), a nawet bogactwa. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”. | To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności jak i wysokości), a nawet bogactwa. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”. | ||
Linia 126: | Linia 135: | ||
{{fakt||górne_ograniczenie| | {{fakt||górne_ograniczenie|Entropia jest zawsze ograniczona przez logarytm rozmiaru przestrzeni możliwości | ||
<center><math>H_r(S) \le \log_r|S|</math></center> | |||
I równość ma miejsce wtedy i tylko wtedy gdy <math>p(s)=\frac{1}{|S|}</math> dla wszystkich <math>s \in S</math>}} | I równość ma miejsce wtedy i tylko wtedy gdy <math>p(s)=\frac{1}{|S|}</math> dla wszystkich <math>s \in S</math>}} | ||
{{dowod||| Korzystając ze Złotego Lematu dla <math>x_i=p(s_i)</math> i <math>y_i=\frac{1}{|S|}</math>, otrzymujemy | {{dowod||| Korzystając ze Złotego Lematu dla <math>x_i=p(s_i)</math> i <math>y_i=\frac{1}{|S|}</math>, otrzymujemy | ||
<center><math>\sum_{s \in S} p (s) \cdot \log_r \frac{1}{p(s)} \leq \sum_{s \in S} p (s) \cdot \log_r |S| = \log_r |S|</math></center> | |||
z równością dokładnie dla <math>p(s)=\frac{1}{|S|}</math>.}} | z równością dokładnie dla <math>p(s)=\frac{1}{|S|}</math>.}} |
Wersja z 11:44, 2 sie 2006
Własności funkcji wypukłych
Do dalszego opisu własności kodów, będziemy potrzebowali przypomnienia pewnych informacji z analizy matematycznej:
Definicja [Funkcja wypukła]
Funkcja jest ściśle wypukła jeśli powyższa nierówność jest ścisła dla i . Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.
Lemat
Dowód
Niech . Przekształcając naszą formułę, mamy pokazać
Używając ponownie twierdzenia Lagrange’a, tym razem dla f, upraszczamy to do
gdzie jest jakimś punktem w przedziale , a w przedziale . Korzystając z tego że otrzymujemy

W ramach tego kursu będziemy zajmować się głównie skończonymi przestrzeniami probabilistycznymi. Określając X jako zmienną losową na S, zawsze będziemy zakładać że S jest dana razem z rozkładem prawdopodobieństwa (a więc ), i . Przypomnijmy że wartość oczekiwana X to
Jeśli , będziemy używać notacji , . W takim zapisie . Od razu zauważmy że E X nie zależy od tych dla których . Mówimy że X jest stała, jeśli tylko dla jednej wartości i zachodzi
Twierdzenie (Nierówność Jensena)
Dowód
co jest dokładnie definicją (ścisłej) wypukłości.
Niech , i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad S’ o ile . Bez utraty ogólności możemy założyć żę Niech dla . Wtedy
Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa i wartości , po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa , i wartości .
Załóżmy teraz że f jest ściśle wypukła, i w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego że obie zmienne losowe dla których użyliśmy hipotezy indukcyjnej są stałe. Po pierwsze dla wszystkich dla których , i ponadto jeśli to - a więc X jest stała.
Konwencja Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję
Jest to uzasadnione przejściami granicznymi: .
W dalszej części wykładu przydatna będzie funkcja . Na podstawie lematu powyżej łatwo pokazać że dla funkcja ta jest ściśle rosnąca na przedziale :
Lemat [Złoty]
Dowód
Załóżmy najpierw że . Wtedy
Korzystając z nierówności Jensena dla funkcji (na ), i zmiennej losowej która przyjmuje wartości z prawdopodobieństwami dostajemy
Ponieważ funkcja jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ i , implikuje to że dla
Założmy teraz że . Dodajmy oraz . Analogicznie do poprzedniego przypadku uzyskamy

Entropia
Wróćmy do przykładu z Grą w 20 pytań. Liczba pytań potrzebnych do zidentyfikowania obiektu wynosi co najmniej . Oczekiwana liczba pytań jakie musimy zadać to .
Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań jest optymalna. Rozważmy w tym celu strategię dla której liczba pytań dla każdego wynosi . Z nierówności Krafta mamy . Aplikując Złoty Lemat dla oraz dostajemy
Jesteśmy gotowi do wprowadzenia jednego z głównych pojęć Teorii Informacji:
Definicja [Entropia Shannona]
Innymi słowy, jest wartością oczekiwaną zmiennej losowej zdefiniowanej na S jako .
Z oczywistych przyczyn zwykle w informatyce przyjmuje się , dlatego będziemy często pisać po prostu H na określenie .
Komentarz: Zauważmy że definicja entropii łączy dwa pomysły:
- wyliczenie wartości oczekiwanej jakiejś funkcji przy zadanym prawdopodobieństwie
- wybranie tej funkcji jako log, co być może jest najistotniejsze
Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Finchera głosi że odbierana przez nasze zmysły (P) zmiana bodźca (S) jest proporcjonalna nie do absolutnej, ale do procentowej zmiany tego bodźca
Co po scałkowaniu daje
To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności jak i wysokości), a nawet bogactwa. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.
Jakie wartości może przyjmować entropia, w zależności od |S| i p? Z definicji wynika że , i równość zachodzi jedynie gdy całe prawdopodobieństwo jest skupione w jednym punkcie. Z drugiej strony, mamy
Fakt
Dowód