Teoria informacji/TI Wykład 2: Różnice pomiędzy wersjami
Utworzenie hasła |
m Zastępowanie tekstu – „<math> ” na „<math>” |
||
(Nie pokazano 36 wersji utworzonych przez 5 użytkowników) | |||
Linia 1: | Linia 1: | ||
===Własności funkcji wypukłych=== | ===Własności funkcji wypukłych=== | ||
Do dalszego opisu własności kodów | Do dalszego opisu własności kodów będziemy potrzebowali przypomnienia pewnych faktów z analizy matematycznej: | ||
{{definicja|[Funkcja wypukła]|wypukła| Funkcja <math>f : [a,b] \to {\mathbb R}</math> jest '''wypukła''' (na [a,b]) jeśli <math>\forall x_1, x_2 \in [a,b] </math>, <math>\forall \lambda \in [0,1] </math> | {{definicja|[Funkcja wypukła]|wypukła| Funkcja <math>f : [a,b] \to {\mathbb R}</math> jest '''wypukła''' (na [a,b]) jeśli <math>\forall x_1, x_2 \in [a,b]</math>, <math>\forall \lambda \in [0,1]</math>: | ||
<center><math>\lambda f(x_1 ) + (1 - \lambda ) f(x_2 ) \geq f (\lambda x_1 + (1 - \lambda ) x_2 )</math></center>}} | |||
Funkcja jest '''ściśle wypukła''' jeśli powyższa nierówność jest ścisła | Funkcja jest '''ściśle wypukła''', jeśli powyższa nierówność jest ścisła z wyjątkiem przypadku, gdy | ||
<math>\lambda \in \{ 0,1\}</math> lub <math>x_1 = x_2</math>. Geometrycznie oznacza to, że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu. | |||
<center>[[grafika:Wypukla.PNG|Funkcja wypukła]]</center> | |||
{{lemat||do_wypukłej|Jeśli ''f'' jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz <math>f'' \geq 0</math> (<math>f'' > 0</math>) to jest wypukła (ściśle wypukła).}} | {{lemat||do_wypukłej|Jeśli ''f'' jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz <math>f'' \geq 0</math> (<math>f'' > 0</math>), to jest wypukła (ściśle wypukła).}} | ||
{{dowod|||Załóżmy <math>f'' \geq 0</math>. Z twierdzenia Lagrange’a o wartości średniej zastosowanego do funkcji ''f’'' wynika, że ''f’'' jest słabo rosnąca na ''(a,b)'' (dla <math>a<t_1<t_2<b</math> , <math>f'(t_2)-f'(t_1)=f''(\tilde{t})(t_2 - t_1) \geq 0</math>). | |||
Niech <math>{x_{\lambda }} = \lambda x_1 + (1 - \lambda ) x_2</math>. Przekształcając naszą formułę, mamy pokazać | Niech <math>{x_{\lambda }} = \lambda x_1 + (1 - \lambda ) x_2</math>. Przekształcając nieco naszą formułę, mamy pokazać | ||
<center><math>\lambda (f(x_{\lambda }) - f(x_1)) \leq (1 - \lambda ) (f (x_2) - f (x_{\lambda }))</math></center> | |||
Używając ponownie twierdzenia Lagrange’a, tym razem dla ''f'', | Używając ponownie twierdzenia Lagrange’a, tym razem dla ''f'', sprowadzamy to do | ||
<center><math>\lambda f' (\tilde{x_1}) (x_{\lambda } - x_1) \leq (1 - \lambda ) f' (\tilde{x_2}) (x_2 - x_{\lambda })</math></center> | |||
gdzie <math>\tilde{x_1}</math> jest jakimś punktem w przedziale <math>(x_1,x_{\lambda})</math>, a <math>\tilde{x_2}</math> w przedziale <math>(x_{\lambda},x_2)</math>. Korzystając z tego że <math> x_{\lambda}-x_1= \lambda(x_2- | gdzie <math>\tilde{x_1}</math> jest jakimś punktem w przedziale <math>(x_1,x_{\lambda})</math>, a <math>\tilde{x_2}</math> w przedziale <math>(x_{\lambda},x_2)</math>. Korzystając z tego, że <math>x_{\lambda}-x_1= \lambda(x_2-x_1)</math>, wystarczy nam pokazać | ||
<center><math>\lambda (1 - \lambda ) f' (\tilde{x_1}) (x_2 - x_1) \leq \lambda (1 - \lambda ) f' (\tilde{x_2}) (x_2 - x_1)</math></center> | |||
co jest równoważne | |||
<center><math>f' (\tilde{x_1}) \leq f' (\tilde{x_2})</math></center> | |||
A to już wynika z faktu, że ''f’'' jest słabo rosnąca na ''(a,b)''. Dla <math>f''>0</math> rozumowanie jest analogiczne.}} | |||
W ramach tego kursu będziemy zajmować się głównie ''skończonymi'' przestrzeniami probabilistycznymi. Określając ''X'' jako ''zmienną losową'' na ''S'', zawsze będziemy zakładać, że ''S'' jest dana razem z rozkładem prawdopodobieństwa <math>p:S \to [0,1]</math> (a więc <math>\sum_{s \in S} p(s) = 1</math>), i <math>X:S \to \mathbb{R}</math>. Przypomnijmy że ''wartość oczekiwana zmiennej X'' to | |||
<center><math>E X = \sum_{s \in S} p(s) \cdot X(s)</math></center> | |||
Jeśli <math>S = \{ s_1, \ldots , s_m \}</math>, będziemy używać notacji <math>p_i=p(s_i)</math>, <math>x_i=X(s_i)</math>. W takim zapisie <math>E X = p_1 x_1 + \ldots + p_m x_m</math>. Od razu zauważmy, że | |||
''E X'' nie zależy od tych <math>x_i</math>, dla których <math>p_i=0</math>. Mówimy, że ''X'' jest stała, jeśli | |||
<math>p_i > 0</math> zachodzi tylko dla jednej wartości ''i''. | |||
{{twierdzenie|(Nierówność Jensena)|Jensen| Jeśli <math>f:[a,b] \to \mathbb{R}</math> jest funkcją wypukłą, to dla każdej zmiennej losowej <math>X:S \to [a,b]</math>, | |||
<center><math>E f(X) \geq f (E X)</math>.</center> | |||
Jeśli dodatkowo ''f'' jest ściśle wypukła, to powyższa nierówność jest ścisła z wyjątkiem sytuacji, gdy ''X'' jest stała.}} | |||
{{ | {{dowod||do_Jensen|Przez indukcję po <math>|S|</math>. Przypadek <math>|S|=1</math> jest trywialny, a dla <math>|S|=2</math> nierówność możemy zapisać w postaci | ||
<center><math>p_1 f(x_1) + p_2 f(x_2) \geq (>) f ( p_1 x_1 + p_2 x_2)</math></center> | |||
co jest dokładnie definicją (ścisłej) wypukłości. | co jest dokładnie definicją (ścisłej) wypukłości. | ||
Niech <math>S=\{s_1, \ldots, s_m\}</math> | Niech <math>S=\{s_1, \ldots, s_m\}</math> i załóżmy, że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad ''S’'' o ile <math>|S'|\le m-1</math>. | ||
Bez utraty ogólności możemy założyć | Bez utraty ogólności możemy założyć, że <math>p_m<1</math> Niech <math>p_i' = \frac{p_i}{1-p_m}</math> dla <math>i = 1,\ldots ,m-1</math>. Wtedy | ||
<center> | |||
<math>\begin{align} | |||
\sum_{i=1}^{m} p_i \, f(x_i) &= p_m f (x_m) + (1 - p_m) \sum_{i=1}^{m-1} p_i' f(x_i)\\ | |||
&\geq p_m f (x_m) + (1 - p_m) f \left( \sum_{i=1}^{m-1} p_i' \, x_i \right)\\ | |||
&\geq f \left( p_m x_m + (1 - p_m) \sum_{i=1}^{m-1} p_i'\, x_i \right)\\ | |||
&= f \left( \sum_{i=1}^{m} p_i x_i \right) | |||
\end{align} | |||
</math></center> | |||
Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math> p_1', \ldots , p_{m-1}'</math> i wartości <math> x_1, \ldots , x_{m-1}</math>, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_m, 1-p_m</math>, i wartości <math>x_m | Zauważmy, że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_1', \ldots , p_{m-1}'</math> i wartości <math>x_1, \ldots , x_{m-1}</math>, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_m, 1-p_m</math>, i wartości <math>x_m</math> oraz <math>\sum_{i=1}^{m-1} p_i' x_i</math>. | ||
Załóżmy teraz że ''f'' jest ściśle wypukła | Załóżmy teraz, że ''f'' jest ściśle wypukła i że w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego, że obie zmienne losowe, dla których użyliśmy hipotezy indukcyjnej, są stałe. Po pierwsze <math>x_i=C</math> dla wszystkich <math>i = 1, \ldots , m-1</math> dla których <math>p_i' \neq 0</math>, i ponadto jeśli <math>p_m>0</math> to <math>x_m = \sum_{i=1}^{m-1} p_i' x_i = C</math> - a więc ''X'' jest stała.}} | ||
'''Konwencja''' Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję | {{kotwica|konwencja_log|'''Konwencja'''}} Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję | ||
<center><math>0 \log_r 0 = 0 \log_r \frac{1}{0} = 0</math></center> | |||
Jest to uzasadnione przejściami granicznymi: <math>lim_{x \to 0} x \log_r x = \lim_{x \to 0} - x \log_r \frac{1}{x} = \lim_{ | Jest to uzasadnione przejściami granicznymi: <math>lim_{x \to 0^+} x \log_r x = \lim_{x \to 0^+} - x \log_r \frac{1}{x} = \lim_{y \to \infty} - \frac{\log_r y}{y} = 0</math>. | ||
W dalszej części wykładu przydatna będzie funkcja <math>x \log_r x</math>. Na podstawie lematu powyżej łatwo pokazać że dla <math>r>1</math> funkcja ta jest ściśle | W dalszej części wykładu przydatna będzie funkcja <math>x \log_r x</math>. Na podstawie lematu powyżej łatwo pokazać, że dla <math>r>1</math> funkcja ta jest ściśle wypukła na przedziale <math>[0,\infty)</math>, mamy bowiem: | ||
<center><math>\left( x \log_r x \right)'' = \left(\log_r x + x \cdot \frac{1}{x} \cdot \log_r e \right)' = \frac{1}{x} \cdot \log_r e > 0</math></center> | |||
{{lemat|[Złoty]|złoty| Niech <math> | {{lemat|[Złoty]|złoty| Niech <math> 1 = \sum_{i=1}^q x_i \geq \sum_{i=1}^q y_i</math>, gdzie <math>x_i\ge 0</math> i <math>y_i> 0</math> dla <math>i=1, \ldots, q</math> i niech <math>r>1</math>. Wtedy | ||
<center><math>\sum_{i=1}^q x_i \cdot \log_r \frac{1}{y_i}\geq \sum_{i=1}^q x_i \cdot \log_r \frac{1}{x_i}</math></center> | |||
i równość zachodzi tylko | i równość zachodzi tylko wtedy, gdy <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>.}} | ||
{{dowod||do_złoty| | |||
Załóżmy najpierw że <math> \sum_{i=1}^q y_i = 1</math>. Wtedy | Załóżmy najpierw, że <math>\sum_{i=1}^q y_i = 1</math>. Wtedy | ||
<center><math>\mathit{Lewa} - \mathit{Prawa} = \sum_{i=1}^q x_i \cdot \log_r \frac{x_i}{y_i} = \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right) \cdot \log_r \frac{x_i}{y_i}</math></center> | |||
Korzystając z nierówności Jensena dla funkcji <math>x \log_r x</math> (na <math>[0,\infty)</math>) | Korzystając z nierówności Jensena dla funkcji <math>x \log_r x</math> (na <math>[0,\infty)</math>, tzn. na dowolnym <math>[0,M]</math>, gdzie <math>M < \infty</math>) i zmiennej losowej, która przyjmuje wartości <math>\left(\frac{x_i}{y_i} \right)</math> z prawdopodobieństwami <math>y_i</math>, dostajemy | ||
<center><math>\sum_{i=1}^q y_i \cdot \left(\frac{x_i}{y_i} \right) \cdot \log_r \frac{x_i}{y_i} | |||
\geq \log_r \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right) = 0.</ | \geq \log_r \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right) = 0</math>.</center> | ||
Ponieważ funkcja <math>x \log_r x</math> jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ <math>y_i>0</math> i <math>\sum_{i=1}^q x_i = \sum_{i=1}^q y_i</math>, implikuje to że <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math> | A zatem <math>\mathit{Lewa} \geq \mathit{Prawa}</math>. Ponieważ funkcja <math>x \log_r x</math> jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ <math>y_i>0</math> i <math>\sum_{i=1}^q x_i = \sum_{i=1}^q y_i</math>, implikuje to, że <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>. | ||
Założmy teraz, że <math>\sum_{i=1}^q y_i < 1</math>. Dodajmy <math>y_{q+1} = 1 - \sum_{i=1}^q y_i</math> oraz <math>x_{q+1}=0</math>. Analogicznie do poprzedniego przypadku uzyskamy | |||
<center><math>\sum_{i=1}^q x_i \cdot \log_r \frac{1}{y_i} = \sum_{i=1}^{q+1} x_i \cdot \log_r \frac{1}{y_i} \geq \sum_{i=1}^{q+1} x_i \cdot \log_r \frac{1}{x_i} = | |||
\sum_{i=1}^{q} x_i \cdot \log_r \frac{1}{x_i}</math></center> | |||
Zauważmy, że w tym przypadku nie może być równości, gdyż implikowałoby to <math>x_{q+1}=y_{q+1}</math>.}} | |||
=== Entropia === | === Entropia === | ||
Wróćmy do przykładu z | {{kotwica|analiza_gry|}} | ||
Wróćmy do [[Teoria informacji/TI Wykład 1#mala gra|przykładu gry]] w zgadywanie z poprzedniego wykładu. Liczba pytań potrzebnych do zidentyfikowania obiektu <math>s_i</math> wynosiła tam dokładnie <math>\log_2 \frac{1}{p(s_i)}</math>. (Było to możliwe, ponieważ prawdopodobieństwa były potęgami <math>\frac{1}{2}</math>.) Oczekiwana liczba pytań była więc | |||
<center><math>\sum_{i=1}^{m} p(s_i) \cdot \log_2 \frac{1}{p(s_i)}</math>.</center> | |||
Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań | Korzystając ze Złotego Lematu, możemy pokazać, że liczba ta jest optymalna w tym sensie, że przy dowolnej strategii średnia liczba pytań nie może być mniejsza. Rozważmy w tym celu strategię, dla której liczba pytań dla każdego <math>s_i</math> wynosi <math>\ell(s_i)</math>. Z nierówności Krafta mamy <math>\sum_{i=1}^{m} \frac{1}{2^{\ell (s_i)}} \leq 1</math>. Aplikując Złoty Lemat dla <math>x_i=p(s_i)</math> oraz <math>y_i = \frac{1}{2^{\ell (s_i)}}</math> dostajemy | ||
<center><math>\sum_{i=1}^{m} p(s_i) \cdot \ell (s_i) \geq \sum_{i=1}^{m} p(s_i) \cdot \log_2 \frac{1}{p(s_i)}</math></center> | |||
Linia 108: | Linia 110: | ||
{{definicja|[Entropia Shannona]|entropia|'''Entropią''' przestrzeni probabilistycznej ''S'' (parametryzowaną przez <math>r>1</math>) nazywamy funkcję | {{definicja|[Entropia Shannona]|entropia|'''Entropią''' przestrzeni probabilistycznej ''S'' (parametryzowaną przez <math>r>1</math>) nazywamy funkcję | ||
<center> | |||
<math>\begin{align} | |||
H_r (S) & = \sum_{s \in S} p (s) \cdot \log_r \frac{1}{p(s)}\\ | |||
& = - \sum_{s \in S} p (s) \cdot \log_r {p(s)} | |||
\end{align} | |||
</math></center> | |||
}} | |||
Innymi słowy, <math>H_r(S)</math> jest wartością oczekiwaną zmiennej losowej zdefiniowanej na ''S'' jako <math>s \mapsto \log_r \frac{1}{p(s)}</math>. | Innymi słowy, <math>H_r(S)</math> jest wartością oczekiwaną zmiennej losowej zdefiniowanej na ''S'' jako <math>s \mapsto \log_r \frac{1}{p(s)}</math>. | ||
Z oczywistych przyczyn | Z oczywistych przyczyn w informatyce zwykle przyjmuje się <math>r=2</math>, dlatego będziemy często pisać po prostu ''H'' na określenie <math>H_2</math>. | ||
{{kotwica|Claude|}} | |||
'''Claude E. Shannon (1916--2001)''' | |||
był amerykańskim matematykiem i inżynierem. Jego praca pt. ''A Mathematical Theory of Communication'', opublikowana w 1948 r. zapoczątkowała teorię informacji. | |||
Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera- | Komentarz: Zauważmy, że definicja entropii łączy dwa pomysły: | ||
* wyliczenie wartości oczekiwanej pewnej funkcji złożonej z funkcją prawdopodobieństwa: | |||
<center> | |||
<math> | |||
\sum_{s \in S} p (s) \cdot f \circ p(s) | |||
</math></center> | |||
* wybranie jako tej funkcji <math>f = \log</math>, co zapewne jest najistotniejsze. | |||
[[Image:weber.jpg||thumb|right|80px|Ernst Heinrich Weber (1795–1878)]] | |||
[[Image:fechner.jpg||thumb|right|80px|Gustav Fechner (1801–1887)]] | |||
Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Fechnera w naukach kognitywnych głosi, że odbierana przez nasze zmysły percepcja (P) zmiany bodźca (S, od słowa ''stimuli'') jest proporcjonalna nie do absolutnej, ale do względnej zmiany tego bodźca | |||
<center><math>\partial P \approx \frac{ \partial S}{S}</math></center> | |||
Co po scałkowaniu daje | Co po scałkowaniu daje | ||
<center><math>P \approx \log S</math></center> | |||
To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności, jak i wysokości), a nawet statusu materialnego. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”. | |||
Jakie wartości może przyjmować entropia, w zależności od |''S''| i ''p''? Z definicji wynika że <math>H_r(S)\ge 0</math> | Jakie wartości może przyjmować entropia, w zależności od |''S''| i ''p''? Z definicji wynika, że <math>H_r(S)\ge 0</math> i że równość zachodzi jedynie wtedy, gdy całe prawdopodobieństwo jest skupione w jednym punkcie. Z drugiej strony, mamy | ||
{{fakt||górne_ograniczenie| | {{fakt||górne_ograniczenie|Entropia jest zawsze ograniczona przez logarytm rozmiaru przestrzeni możliwości | ||
<center><math>H_r(S) \le \log_r|S|</math></center> | |||
i równość ma miejsce wtedy i tylko wtedy gdy <math>p(s)=\frac{1}{|S|}</math> dla wszystkich <math>s \in S</math>.}} | |||
{{dowod||| Korzystając ze Złotego Lematu dla <math>x_i=p(s_i)</math> i <math>y_i=\frac{1}{|S|}</math>, otrzymujemy | |||
<center><math>\sum_{s \in S} p (s) \cdot \log_r \frac{1}{p(s)} \leq \sum_{s \in S} p (s) \cdot \log_r |S| = \log_r |S|</math></center> | |||
z równością dokładnie dla <math>p(s)=\frac{1}{|S|}</math>. | z równością dokładnie dla <math>p(s)=\frac{1}{|S|}</math>.}} |
Aktualna wersja na dzień 22:17, 11 wrz 2023
Własności funkcji wypukłych
Do dalszego opisu własności kodów będziemy potrzebowali przypomnienia pewnych faktów z analizy matematycznej:
Definicja [Funkcja wypukła]
Funkcja jest ściśle wypukła, jeśli powyższa nierówność jest ścisła z wyjątkiem przypadku, gdy lub . Geometrycznie oznacza to, że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.
Lemat
Dowód
Niech . Przekształcając nieco naszą formułę, mamy pokazać
Używając ponownie twierdzenia Lagrange’a, tym razem dla f, sprowadzamy to do
gdzie jest jakimś punktem w przedziale , a w przedziale . Korzystając z tego, że , wystarczy nam pokazać
co jest równoważne

W ramach tego kursu będziemy zajmować się głównie skończonymi przestrzeniami probabilistycznymi. Określając X jako zmienną losową na S, zawsze będziemy zakładać, że S jest dana razem z rozkładem prawdopodobieństwa (a więc ), i . Przypomnijmy że wartość oczekiwana zmiennej X to
Jeśli , będziemy używać notacji , . W takim zapisie . Od razu zauważmy, że E X nie zależy od tych , dla których . Mówimy, że X jest stała, jeśli zachodzi tylko dla jednej wartości i.
Twierdzenie (Nierówność Jensena)
Dowód
co jest dokładnie definicją (ścisłej) wypukłości.
Niech i załóżmy, że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad S’ o ile . Bez utraty ogólności możemy założyć, że Niech dla . Wtedy
Zauważmy, że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa i wartości , po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa , i wartości oraz .
Załóżmy teraz, że f jest ściśle wypukła i że w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego, że obie zmienne losowe, dla których użyliśmy hipotezy indukcyjnej, są stałe. Po pierwsze dla wszystkich dla których , i ponadto jeśli to - a więc X jest stała.
Konwencja Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję
Jest to uzasadnione przejściami granicznymi: .
W dalszej części wykładu przydatna będzie funkcja . Na podstawie lematu powyżej łatwo pokazać, że dla funkcja ta jest ściśle wypukła na przedziale , mamy bowiem:
Lemat [Złoty]
Dowód
Załóżmy najpierw, że . Wtedy
Korzystając z nierówności Jensena dla funkcji (na , tzn. na dowolnym , gdzie ) i zmiennej losowej, która przyjmuje wartości z prawdopodobieństwami , dostajemy
A zatem . Ponieważ funkcja jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ i , implikuje to, że dla .
Założmy teraz, że . Dodajmy oraz . Analogicznie do poprzedniego przypadku uzyskamy

Entropia
Wróćmy do przykładu gry w zgadywanie z poprzedniego wykładu. Liczba pytań potrzebnych do zidentyfikowania obiektu wynosiła tam dokładnie . (Było to możliwe, ponieważ prawdopodobieństwa były potęgami .) Oczekiwana liczba pytań była więc
Korzystając ze Złotego Lematu, możemy pokazać, że liczba ta jest optymalna w tym sensie, że przy dowolnej strategii średnia liczba pytań nie może być mniejsza. Rozważmy w tym celu strategię, dla której liczba pytań dla każdego wynosi . Z nierówności Krafta mamy . Aplikując Złoty Lemat dla oraz dostajemy
Jesteśmy gotowi do wprowadzenia jednego z głównych pojęć Teorii Informacji:
Definicja [Entropia Shannona]
Innymi słowy, jest wartością oczekiwaną zmiennej losowej zdefiniowanej na S jako .
Z oczywistych przyczyn w informatyce zwykle przyjmuje się , dlatego będziemy często pisać po prostu H na określenie .
Claude E. Shannon (1916--2001) był amerykańskim matematykiem i inżynierem. Jego praca pt. A Mathematical Theory of Communication, opublikowana w 1948 r. zapoczątkowała teorię informacji.
Komentarz: Zauważmy, że definicja entropii łączy dwa pomysły:
- wyliczenie wartości oczekiwanej pewnej funkcji złożonej z funkcją prawdopodobieństwa:
- wybranie jako tej funkcji , co zapewne jest najistotniejsze.


Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Fechnera w naukach kognitywnych głosi, że odbierana przez nasze zmysły percepcja (P) zmiany bodźca (S, od słowa stimuli) jest proporcjonalna nie do absolutnej, ale do względnej zmiany tego bodźca
Co po scałkowaniu daje
To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności, jak i wysokości), a nawet statusu materialnego. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.
Jakie wartości może przyjmować entropia, w zależności od |S| i p? Z definicji wynika, że i że równość zachodzi jedynie wtedy, gdy całe prawdopodobieństwo jest skupione w jednym punkcie. Z drugiej strony, mamy
Fakt
Dowód