Teoria informacji/TI Wykład 2: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Dorota (dyskusja | edycje)
m Zastępowanie tekstu – „<math> ” na „<math>”
 
(Nie pokazano 19 wersji utworzonych przez 2 użytkowników)
Linia 1: Linia 1:
===Własności funkcji wypukłych===
===Własności funkcji wypukłych===


Do dalszego opisu własności kodów będziemy potrzebowali przypomnienia pewnych informacji z analizy matematycznej:
Do dalszego opisu własności kodów będziemy potrzebowali przypomnienia pewnych faktów z analizy matematycznej:




{{definicja|[Funkcja wypukła]|wypukła| Funkcja <math>f : [a,b] \to {\mathbb R}</math> jest '''wypukła''' (na [a,b]) jeśli <math>\forall x_1, x_2 \in [a,b] </math>, <math>\forall \lambda \in [0,1] </math>:
{{definicja|[Funkcja wypukła]|wypukła| Funkcja <math>f : [a,b] \to {\mathbb R}</math> jest '''wypukła''' (na [a,b]) jeśli <math>\forall x_1, x_2 \in [a,b]</math>, <math>\forall \lambda \in [0,1]</math>:
<center><math>\lambda f(x_1 ) + (1 - \lambda ) f(x_2 )  \geq f (\lambda x_1 + (1 - \lambda ) x_2 )</math></center>}}
<center><math>\lambda f(x_1 ) + (1 - \lambda ) f(x_2 )  \geq f (\lambda x_1 + (1 - \lambda ) x_2 )</math></center>}}


Linia 15: Linia 15:
{{lemat||do_wypukłej|Jeśli ''f'' jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz <math>f'' \geq 0</math> (<math>f'' > 0</math>), to jest wypukła (ściśle wypukła).}}
{{lemat||do_wypukłej|Jeśli ''f'' jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz <math>f'' \geq 0</math> (<math>f'' > 0</math>), to jest wypukła (ściśle wypukła).}}


{{dowod|||Załóżmy <math>f'' \geq 0</math>. Z twierdzenia Lagrange’a o wartości średniej zastosowanego do funkcji ''f’'' wynika, że ''f’'' jest rosnąca na ''(a,b)'' (dla <math>a<t_1<t_2<b</math> , <math>f'(t_2)-f'(t_1)=f''(\tilde{t})(t_2 - t_1) \geq 0</math>).
{{dowod|||Załóżmy <math>f'' \geq 0</math>. Z twierdzenia Lagrange’a o wartości średniej zastosowanego do funkcji ''f’'' wynika, że ''f’'' jest słabo rosnąca na ''(a,b)'' (dla <math>a<t_1<t_2<b</math> , <math>f'(t_2)-f'(t_1)=f''(\tilde{t})(t_2 - t_1) \geq 0</math>).


Niech <math>{x_{\lambda }} = \lambda x_1 + (1 - \lambda ) x_2</math>. Przekształcając nieco naszą formułę, mamy pokazać
Niech <math>{x_{\lambda }} = \lambda x_1 + (1 - \lambda ) x_2</math>. Przekształcając nieco naszą formułę, mamy pokazać
<center><math>\lambda (f(x_{\lambda }) - f(x_1)) \leq (1 - \lambda ) (f (x_2) - f (x_{\lambda })) </math></center>
<center><math>\lambda (f(x_{\lambda }) - f(x_1)) \leq (1 - \lambda ) (f (x_2) - f (x_{\lambda }))</math></center>


Używając ponownie twierdzenia Lagrange’a, tym razem dla ''f'', sprowadzamy to do
Używając ponownie twierdzenia Lagrange’a, tym razem dla ''f'', sprowadzamy to do
<center><math>\lambda  f' (\tilde{x_1}) (x_{\lambda } - x_1) \leq (1 - \lambda ) f' (\tilde{x_2})  (x_2 - x_{\lambda })</math></center>
<center><math>\lambda  f' (\tilde{x_1}) (x_{\lambda } - x_1) \leq (1 - \lambda ) f' (\tilde{x_2})  (x_2 - x_{\lambda })</math></center>


gdzie <math>\tilde{x_1}</math> jest jakimś punktem w przedziale <math>(x_1,x_{\lambda})</math>, a <math>\tilde{x_2}</math> w przedziale <math>(x_{\lambda},x_2)</math>. Korzystając z tego, że <math> x_{\lambda}-x_1= \lambda(x_2-x1)</math>, wystarczy nam pokazać
gdzie <math>\tilde{x_1}</math> jest jakimś punktem w przedziale <math>(x_1,x_{\lambda})</math>, a <math>\tilde{x_2}</math> w przedziale <math>(x_{\lambda},x_2)</math>. Korzystając z tego, że <math>x_{\lambda}-x_1= \lambda(x_2-x_1)</math>, wystarczy nam pokazać
<center><math> \lambda (1 - \lambda )  f' (\tilde{x_1})  (x_2 -  x_1) \leq \lambda (1 - \lambda )  f' (\tilde{x_2})  (x_2 -  x_1)</math></center>
<center><math>\lambda (1 - \lambda )  f' (\tilde{x_1})  (x_2 -  x_1) \leq \lambda (1 - \lambda )  f' (\tilde{x_2})  (x_2 -  x_1)</math></center>
co jest równoważne
co jest równoważne
<center><math> f' (\tilde{x_1})  \leq f' (\tilde{x_2}) </math></center>
<center><math>f' (\tilde{x_1})  \leq f' (\tilde{x_2})</math></center>


A to już wynika z faktu, że ''f’'' jest rosnąca na ''(a,b)''. Dla <math>f''>0</math> rozumowanie jest analogiczne.}}
A to już wynika z faktu, że ''f’'' jest słabo rosnąca na ''(a,b)''. Dla <math>f''>0</math> rozumowanie jest analogiczne.}}




W ramach tego kursu będziemy zajmować się głównie ''skończonymi'' przestrzeniami probabilistycznymi. Określając ''X'' jako ''zmienną losową'' na ''S'', zawsze będziemy zakładać, że ''S'' jest dana razem z rozkładem prawdopodobieństwa <math>p:S \to [0,1]</math> (a więc <math>\sum_{s \in S} p(s) = 1</math>), i <math>X:S \to \mathbb{R}</math>. Przypomnijmy że ''wartość oczekiwana X'' to
W ramach tego kursu będziemy zajmować się głównie ''skończonymi'' przestrzeniami probabilistycznymi. Określając ''X'' jako ''zmienną losową'' na ''S'', zawsze będziemy zakładać, że ''S'' jest dana razem z rozkładem prawdopodobieństwa <math>p:S \to [0,1]</math> (a więc <math>\sum_{s \in S} p(s) = 1</math>), i <math>X:S \to \mathbb{R}</math>. Przypomnijmy że ''wartość oczekiwana zmiennej X'' to
<center><math>E X = \sum_{s \in S}  p(s) \cdot X(s)</math></center>
<center><math>E X = \sum_{s \in S}  p(s) \cdot X(s)</math></center>


Linia 44: Linia 44:


{{dowod||do_Jensen|Przez indukcję po <math>|S|</math>. Przypadek <math>|S|=1</math> jest trywialny, a dla <math>|S|=2</math> nierówność możemy zapisać w postaci
{{dowod||do_Jensen|Przez indukcję po <math>|S|</math>. Przypadek <math>|S|=1</math> jest trywialny, a dla <math>|S|=2</math> nierówność możemy zapisać w postaci
<center><math> p_1 f(x_1) + p_2 f(x_2) \geq (>) f ( p_1 x_1 + p_2 x_2)</math></center>
<center><math>p_1 f(x_1) + p_2 f(x_2) \geq (>) f ( p_1 x_1 + p_2 x_2)</math></center>


co jest dokładnie definicją (ścisłej) wypukłości.
co jest dokładnie definicją (ścisłej) wypukłości.
Linia 52: Linia 52:


<center>
<center>
<math>\aligned
<math>\begin{align}
\sum_{i=1}^{m} p_i \, f(x_i) &= p_m f (x_m) + (1 - p_m) \sum_{i=1}^{m-1}  p_i' f(x_i)\\
\sum_{i=1}^{m} p_i \, f(x_i) &= p_m f (x_m) + (1 - p_m) \sum_{i=1}^{m-1}  p_i' f(x_i)\\
&\geq p_m f (x_m) + (1 - p_m) f \left( \sum_{i=1}^{m-1} p_i' \, x_i  \right)\\
&\geq p_m f (x_m) + (1 - p_m) f \left( \sum_{i=1}^{m-1} p_i' \, x_i  \right)\\
&\geq f \left( p_m x_m + (1 - p_m) \sum_{i=1}^{m-1} p_i'\,  x_i \right)\\
&\geq f \left( p_m x_m + (1 - p_m) \sum_{i=1}^{m-1} p_i'\,  x_i \right)\\
&= f \left( \sum_{i=1}^{m} p_i x_i \right)
&= f \left( \sum_{i=1}^{m} p_i x_i \right)
\endaligned
\end{align}
</math></center>
</math></center>


Zauważmy, że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math> p_1', \ldots , p_{m-1}'</math> i wartości <math> x_1, \ldots , x_{m-1}</math>, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_m, 1-p_m</math>, i wartości <math>x_m, \sum_{i=1}^{m-1} p_i' x_i</math>.
Zauważmy, że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_1', \ldots , p_{m-1}'</math> i wartości <math>x_1, \ldots , x_{m-1}</math>, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_m, 1-p_m</math>, i wartości <math>x_m</math> oraz <math>\sum_{i=1}^{m-1} p_i' x_i</math>.


Załóżmy teraz, że ''f'' jest ściśle wypukła i że w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego, że obie zmienne losowe, dla których użyliśmy hipotezy indukcyjnej, są stałe. Po pierwsze <math>x_i=C</math> dla wszystkich <math>i = 1, \ldots , m-1</math> dla których <math>p_i' \neq 0</math>, i ponadto jeśli <math>p_m>0</math> to <math>x_m = \sum_{i=1}^{m-1} p_i' x_i = C</math> - a więc ''X'' jest stała.}}
Załóżmy teraz, że ''f'' jest ściśle wypukła i że w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego, że obie zmienne losowe, dla których użyliśmy hipotezy indukcyjnej, są stałe. Po pierwsze <math>x_i=C</math> dla wszystkich <math>i = 1, \ldots , m-1</math> dla których <math>p_i' \neq 0</math>, i ponadto jeśli <math>p_m>0</math> to <math>x_m = \sum_{i=1}^{m-1} p_i' x_i = C</math> - a więc ''X'' jest stała.}}
Linia 66: Linia 66:


{{kotwica|konwencja_log|'''Konwencja'''}} Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję
{{kotwica|konwencja_log|'''Konwencja'''}} Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję
<center><math> 0 \log_r 0 = 0 \log_r \frac{1}{0} = 0</math></center>
<center><math>0 \log_r 0 = 0 \log_r \frac{1}{0} = 0</math></center>


Jest to uzasadnione przejściami granicznymi: <math>lim_{x \to 0} x \log_r x =  \lim_{x \to 0} - x \log_r \frac{1}{x} = \lim_{|y| \to \infty} - \frac{\log_r y}{y} = 0 </math>.
Jest to uzasadnione przejściami granicznymi: <math>lim_{x \to 0^+} x \log_r x =  \lim_{x \to 0^+} - x \log_r \frac{1}{x} = \lim_{y \to \infty} - \frac{\log_r y}{y} = 0</math>.


W dalszej części wykładu przydatna będzie funkcja <math>x \log_r x</math>. Na podstawie lematu powyżej łatwo pokazać, że dla <math>r>1</math> funkcja ta jest ściśle rosnąca na przedziale <math>[0,\infty)</math>:
W dalszej części wykładu przydatna będzie funkcja <math>x \log_r x</math>. Na podstawie lematu powyżej łatwo pokazać, że dla <math>r>1</math> funkcja ta jest ściśle wypukła na przedziale <math>[0,\infty)</math>, mamy bowiem:
<center><math>\left( x \log_r x \right)'' = \left(\log_r x + x \cdot  \frac{1}{x} \cdot \log_r e \right)' =  \frac{1}{x} \cdot \log_r e > 0</math></center>
<center><math>\left( x \log_r x \right)'' = \left(\log_r x + x \cdot  \frac{1}{x} \cdot \log_r e \right)' =  \frac{1}{x} \cdot \log_r e > 0</math></center>




{{lemat|[Złoty]|złoty| Niech <math> 1  =  \sum_{i=1}^q x_i \geq \sum_{i=1}^q y_i</math>, gdzie <math>x_i\ge 0</math> i <math>y_i> 0</math> dla <math>i=1, \ldots, q</math> i niech <math>r>1</math>. Wtedy
{{lemat|[Złoty]|złoty| Niech <math> 1  =  \sum_{i=1}^q x_i \geq \sum_{i=1}^q y_i</math>, gdzie <math>x_i\ge 0</math> i <math>y_i> 0</math> dla <math>i=1, \ldots, q</math> i niech <math>r>1</math>. Wtedy
<center><math>\sum_{i=1}^q x_i \cdot \log_r \frac{1}{y_i}\geq \sum_{i=1}^q x_i \cdot \log_r \frac{1}{x_i}</math></center>
<center><math>\sum_{i=1}^q x_i \cdot \log_r \frac{1}{y_i}\geq \sum_{i=1}^q x_i \cdot \log_r \frac{1}{x_i}</math></center>


i równość zachodzi tylko wtedy, gdy <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>}}
i równość zachodzi tylko wtedy, gdy <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>.}}


{{dowod||do_złoty|
{{dowod||do_złoty|
Załóżmy najpierw, że <math> \sum_{i=1}^q y_i = 1</math>. Wtedy
Załóżmy najpierw, że <math>\sum_{i=1}^q y_i = 1</math>. Wtedy
<center><math>\mathit{Lewa} - \mathit{Prawa} = \sum_{i=1}^q x_i \cdot \log_r \frac{x_i}{y_i} = \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right)  \cdot \log_r \frac{x_i}{y_i}</math></center>
<center><math>\mathit{Lewa} - \mathit{Prawa} = \sum_{i=1}^q x_i \cdot \log_r \frac{x_i}{y_i} = \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right)  \cdot \log_r \frac{x_i}{y_i}</math></center>


Korzystając z nierówności Jensena dla funkcji <math>x \log_r x</math> (na <math>[0,\infty)</math>) i zmiennej losowej, która przyjmuje wartości <math>\left(\frac{x_i}{y_i} \right) </math> z prawdopodobieństwami <math>y_i</math>, dostajemy
Korzystając z nierówności Jensena dla funkcji <math>x \log_r x</math> (na <math>[0,\infty)</math>, tzn. na dowolnym <math>[0,M]</math>, gdzie <math>M < \infty</math>) i zmiennej losowej, która przyjmuje wartości <math>\left(\frac{x_i}{y_i} \right)</math> z prawdopodobieństwami <math>y_i</math>, dostajemy
<center><math>\sum_{i=1}^q y_i \cdot \left(\frac{x_i}{y_i} \right)  \cdot \log_r \frac{x_i}{y_i}
<center><math>\sum_{i=1}^q y_i \cdot \left(\frac{x_i}{y_i} \right)  \cdot \log_r \frac{x_i}{y_i}
\geq \log_r \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right) = 0</math>.</center>
\geq \log_r \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right) = 0</math>.</center>


Ponieważ funkcja <math>x \log_r x</math> jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ <math>y_i>0</math> i <math>\sum_{i=1}^q x_i  = \sum_{i=1}^q y_i</math>, implikuje to, że <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>
A zatem <math>\mathit{Lewa} \geq \mathit{Prawa}</math>. Ponieważ funkcja <math>x \log_r x</math> jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ <math>y_i>0</math> i <math>\sum_{i=1}^q x_i  = \sum_{i=1}^q y_i</math>, implikuje to, że <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>.


Założmy teraz, że <math> \sum_{i=1}^q y_i < 1</math>. Dodajmy <math>y_{q+1} = 1 -  \sum_{i=1}^q y_i</math> oraz <math>x_{q+1}=0</math>. Analogicznie do poprzedniego przypadku uzyskamy
Założmy teraz, że <math>\sum_{i=1}^q y_i < 1</math>. Dodajmy <math>y_{q+1} = 1 -  \sum_{i=1}^q y_i</math> oraz <math>x_{q+1}=0</math>. Analogicznie do poprzedniego przypadku uzyskamy
<center><math>\sum_{i=1}^q x_i \cdot \log_r \frac{1}{y_i} = \sum_{i=1}^{q+1} x_i \cdot \log_r \frac{1}{y_i} \geq \sum_{i=1}^{q+1} x_i \cdot \log_r \frac{1}{x_i} =
<center><math>\sum_{i=1}^q x_i \cdot \log_r \frac{1}{y_i} = \sum_{i=1}^{q+1} x_i \cdot \log_r \frac{1}{y_i} \geq \sum_{i=1}^{q+1} x_i \cdot \log_r \frac{1}{x_i} =
\sum_{i=1}^{q} x_i \cdot \log_r \frac{1}{x_i}</math></center>
\sum_{i=1}^{q} x_i \cdot \log_r \frac{1}{x_i}</math></center>
Linia 97: Linia 97:
=== Entropia ===
=== Entropia ===


Wróćmy do przykładu z „Grą w 20 pytań”. Liczba pytań potrzebnych do zidentyfikowania obiektu <math>s_i</math> wynosi co najmniej <math>\log_2 \frac{1}{p(s_i)}</math>. Oczekiwana liczba pytań, jakie musimy zadać, to <math>\sum_{i=1}^{m}  p(s_i) \cdot \log_2  \frac{1}{p(s_i)}</math>.
{{kotwica|analiza_gry|}}
Wróćmy do [[Teoria informacji/TI Wykład 1#mala gra|przykładu gry]]  w zgadywanie z poprzedniego wykładu. Liczba pytań potrzebnych do zidentyfikowania obiektu <math>s_i</math> wynosiła tam dokładnie <math>\log_2 \frac{1}{p(s_i)}</math>. (Było to możliwe, ponieważ prawdopodobieństwa były potęgami <math>\frac{1}{2}</math>.) Oczekiwana liczba pytań była więc
<center><math>\sum_{i=1}^{m}  p(s_i) \cdot \log_2  \frac{1}{p(s_i)}</math>.</center>


Korzystając ze Złotego Lematu, możemy pokazać, że ta liczba jest optymalna w tym sensie, że przy dowolnej strategii średnia liczba pytań nie może być mniejsza. Rozważmy w tym celu strategię, dla której liczba pytań dla każdego <math>s_i</math> wynosi <math>\ell(s_i)</math>. Z nierówności Krafta mamy <math>\sum_{i=1}^{m} \frac{1}{2^{\ell (s_i)}} \leq 1</math>. Aplikując Złoty Lemat dla <math>x_i=p(s_i)</math> oraz <math>y_i = \frac{1}{2^{\ell (s_i)}}</math> dostajemy
Korzystając ze Złotego Lematu, możemy pokazać, że liczba ta jest optymalna w tym sensie, że przy dowolnej strategii średnia liczba pytań nie może być mniejsza. Rozważmy w tym celu strategię, dla której liczba pytań dla każdego <math>s_i</math> wynosi <math>\ell(s_i)</math>. Z nierówności Krafta mamy <math>\sum_{i=1}^{m} \frac{1}{2^{\ell (s_i)}} \leq 1</math>. Aplikując Złoty Lemat dla <math>x_i=p(s_i)</math> oraz <math>y_i = \frac{1}{2^{\ell (s_i)}}</math> dostajemy


<center><math>\sum_{i=1}^{m}  p(s_i) \cdot \ell (s_i) \geq \sum_{i=1}^{m}  p(s_i) \cdot \log_2  \frac{1}{p(s_i)}</math></center>
<center><math>\sum_{i=1}^{m}  p(s_i) \cdot \ell (s_i) \geq \sum_{i=1}^{m}  p(s_i) \cdot \log_2  \frac{1}{p(s_i)}</math></center>
Linia 110: Linia 112:


<center>
<center>
<math>\aligned
<math>\begin{align}
H_r (S) & = \sum_{s \in S} p (s) \cdot  \log_r \frac{1}{p(s)}\\
H_r (S) & = \sum_{s \in S} p (s) \cdot  \log_r \frac{1}{p(s)}\\
  & = - \sum_{s \in S} p (s) \cdot  \log_r {p(s)}
  & = - \sum_{s \in S} p (s) \cdot  \log_r {p(s)}
\endaligned
\end{align}
</math></center>
</math></center>
}}
}}
Linia 119: Linia 121:
Innymi słowy, <math>H_r(S)</math> jest wartością oczekiwaną zmiennej losowej zdefiniowanej na ''S'' jako <math>s \mapsto \log_r \frac{1}{p(s)}</math>.
Innymi słowy, <math>H_r(S)</math> jest wartością oczekiwaną zmiennej losowej zdefiniowanej na ''S'' jako <math>s \mapsto \log_r \frac{1}{p(s)}</math>.


Z oczywistych przyczyn w informatyce zwykle przyjmuje się <math>r=2</math>, dlatego będziemy często pisać po prostu H na określenie <math>H_2</math>.
Z oczywistych przyczyn w informatyce zwykle przyjmuje się <math>r=2</math>, dlatego będziemy często pisać po prostu ''H'' na określenie <math>H_2</math>.
 
{{kotwica|Claude|}}
'''Claude E. Shannon (1916--2001)'''
był amerykańskim matematykiem i inżynierem. Jego praca pt. ''A Mathematical Theory of Communication'', opublikowana w 1948 r. zapoczątkowała teorię informacji.


Komentarz: Zauważmy, że definicja entropii łączy dwa pomysły:
Komentarz: Zauważmy, że definicja entropii łączy dwa pomysły:
Linia 127: Linia 133:
\sum_{s \in S} p (s) \cdot f \circ p(s)
\sum_{s \in S} p (s) \cdot f \circ p(s)
</math></center>
</math></center>
* wybranie jako tej funkcji <math> f = \log </math>, co zapewne jest najistotniejsze.
* wybranie jako tej funkcji <math>f = \log</math>, co zapewne jest najistotniejsze.


[[Image:weber.jpg||thumb|right|80px|Ernst Heinrich Weber (1795–1878)]]
[[Image:weber.jpg||thumb|right|80px|Ernst Heinrich Weber (1795–1878)]]
[[Image:fechner.jpg||thumb|right|80px|Gustav Fechner (1801–1887)]]
[[Image:fechner.jpg||thumb|right|80px|Gustav Fechner (1801–1887)]]
Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Fechnera w naukach kognitywnych głosi, że odbierana przez nasze zmysły percepcja (P) zmiany bodźca (S, od słowa ''stimuli'') jest proporcjonalna nie do absolutnej, ale do względnej zmiany tego bodźca
Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Fechnera w naukach kognitywnych głosi, że odbierana przez nasze zmysły percepcja (P) zmiany bodźca (S, od słowa ''stimuli'') jest proporcjonalna nie do absolutnej, ale do względnej zmiany tego bodźca
<center><math> \partial P \approx \frac{ \partial S}{S}</math></center>
<center><math>\partial P \approx \frac{ \partial S}{S}</math></center>


Co po scałkowaniu daje
Co po scałkowaniu daje
<center><math> P \approx \log S</math></center>
<center><math>P \approx \log S</math></center>


To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności, jak i wysokości), a nawet statusu materialnego. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.
To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności, jak i wysokości), a nawet statusu materialnego. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.
Linia 146: Linia 152:
<center><math>H_r(S) \le \log_r|S|</math></center>
<center><math>H_r(S) \le \log_r|S|</math></center>


I równość ma miejsce wtedy i tylko wtedy gdy <math>p(s)=\frac{1}{|S|}</math> dla wszystkich <math>s \in S</math>}}
i równość ma miejsce wtedy i tylko wtedy gdy <math>p(s)=\frac{1}{|S|}</math> dla wszystkich <math>s \in S</math>.}}


{{dowod||| Korzystając ze Złotego Lematu dla <math>x_i=p(s_i)</math> i <math>y_i=\frac{1}{|S|}</math>, otrzymujemy
{{dowod||| Korzystając ze Złotego Lematu dla <math>x_i=p(s_i)</math> i <math>y_i=\frac{1}{|S|}</math>, otrzymujemy

Aktualna wersja na dzień 22:17, 11 wrz 2023

Własności funkcji wypukłych

Do dalszego opisu własności kodów będziemy potrzebowali przypomnienia pewnych faktów z analizy matematycznej:


Definicja [Funkcja wypukła]

Funkcja f:[a,b] jest wypukła (na [a,b]) jeśli x1,x2[a,b], λ[0,1]:
λf(x1)+(1λ)f(x2)f(λx1+(1λ)x2)

Funkcja jest ściśle wypukła, jeśli powyższa nierówność jest ścisła z wyjątkiem przypadku, gdy λ{0,1} lub x1=x2. Geometrycznie oznacza to, że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.

Funkcja wypukła


Lemat

Jeśli f jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz f0 (f>0), to jest wypukła (ściśle wypukła).

Dowód

Załóżmy f0. Z twierdzenia Lagrange’a o wartości średniej zastosowanego do funkcji f’ wynika, że f’ jest słabo rosnąca na (a,b) (dla a<t1<t2<b , f(t2)f(t1)=f(t~)(t2t1)0).

Niech xλ=λx1+(1λ)x2. Przekształcając nieco naszą formułę, mamy pokazać

λ(f(xλ)f(x1))(1λ)(f(x2)f(xλ))

Używając ponownie twierdzenia Lagrange’a, tym razem dla f, sprowadzamy to do

λf(x1~)(xλx1)(1λ)f(x2~)(x2xλ)

gdzie x1~ jest jakimś punktem w przedziale (x1,xλ), a x2~ w przedziale (xλ,x2). Korzystając z tego, że xλx1=λ(x2x1), wystarczy nam pokazać

λ(1λ)f(x1~)(x2x1)λ(1λ)f(x2~)(x2x1)

co jest równoważne

f(x1~)f(x2~)
A to już wynika z faktu, że f’ jest słabo rosnąca na (a,b). Dla f>0 rozumowanie jest analogiczne.


W ramach tego kursu będziemy zajmować się głównie skończonymi przestrzeniami probabilistycznymi. Określając X jako zmienną losową na S, zawsze będziemy zakładać, że S jest dana razem z rozkładem prawdopodobieństwa p:S[0,1] (a więc sSp(s)=1), i X:S. Przypomnijmy że wartość oczekiwana zmiennej X to

EX=sSp(s)X(s)

Jeśli S={s1,,sm}, będziemy używać notacji pi=p(si), xi=X(si). W takim zapisie EX=p1x1++pmxm. Od razu zauważmy, że E X nie zależy od tych xi, dla których pi=0. Mówimy, że X jest stała, jeśli pi>0 zachodzi tylko dla jednej wartości i.


Twierdzenie (Nierówność Jensena)

Jeśli f:[a,b] jest funkcją wypukłą, to dla każdej zmiennej losowej X:S[a,b],
Ef(X)f(EX).
Jeśli dodatkowo f jest ściśle wypukła, to powyższa nierówność jest ścisła z wyjątkiem sytuacji, gdy X jest stała.

Dowód

Przez indukcję po |S|. Przypadek |S|=1 jest trywialny, a dla |S|=2 nierówność możemy zapisać w postaci
p1f(x1)+p2f(x2)(>)f(p1x1+p2x2)

co jest dokładnie definicją (ścisłej) wypukłości.

Niech S={s1,,sm} i załóżmy, że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad S’ o ile |S|m1. Bez utraty ogólności możemy założyć, że pm<1 Niech pi=pi1pm dla i=1,,m1. Wtedy

i=1mpif(xi)=pmf(xm)+(1pm)i=1m1pif(xi)pmf(xm)+(1pm)f(i=1m1pixi)f(pmxm+(1pm)i=1m1pixi)=f(i=1mpixi)

Zauważmy, że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa p1,,pm1 i wartości x1,,xm1, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa pm,1pm, i wartości xm oraz i=1m1pixi.

Załóżmy teraz, że f jest ściśle wypukła i że w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego, że obie zmienne losowe, dla których użyliśmy hipotezy indukcyjnej, są stałe. Po pierwsze xi=C dla wszystkich i=1,,m1 dla których pi0, i ponadto jeśli pm>0 to xm=i=1m1pixi=C - a więc X jest stała.


Konwencja Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję

0logr0=0logr10=0

Jest to uzasadnione przejściami granicznymi: limx0+xlogrx=limx0+xlogr1x=limylogryy=0.

W dalszej części wykładu przydatna będzie funkcja xlogrx. Na podstawie lematu powyżej łatwo pokazać, że dla r>1 funkcja ta jest ściśle wypukła na przedziale [0,), mamy bowiem:

(xlogrx)=(logrx+x1xlogre)=1xlogre>0


Lemat [Złoty]

Niech 1=i=1qxii=1qyi, gdzie xi0 i yi>0 dla i=1,,q i niech r>1. Wtedy
i=1qxilogr1yii=1qxilogr1xi
i równość zachodzi tylko wtedy, gdy xi=yi dla i=1,,q.

Dowód

Załóżmy najpierw, że i=1qyi=1. Wtedy

LewaPrawa=i=1qxilogrxiyi=i=1qyi(xiyi)logrxiyi

Korzystając z nierówności Jensena dla funkcji xlogrx (na [0,), tzn. na dowolnym [0,M], gdzie M<) i zmiennej losowej, która przyjmuje wartości (xiyi) z prawdopodobieństwami yi, dostajemy

i=1qyi(xiyi)logrxiyilogri=1qyi(xiyi)=0.

A zatem LewaPrawa. Ponieważ funkcja xlogrx jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ yi>0 i i=1qxi=i=1qyi, implikuje to, że xi=yi dla i=1,,q.

Założmy teraz, że i=1qyi<1. Dodajmy yq+1=1i=1qyi oraz xq+1=0. Analogicznie do poprzedniego przypadku uzyskamy

i=1qxilogr1yi=i=1q+1xilogr1yii=1q+1xilogr1xi=i=1qxilogr1xi
Zauważmy, że w tym przypadku nie może być równości, gdyż implikowałoby to xq+1=yq+1.

Entropia

Wróćmy do przykładu gry w zgadywanie z poprzedniego wykładu. Liczba pytań potrzebnych do zidentyfikowania obiektu si wynosiła tam dokładnie log21p(si). (Było to możliwe, ponieważ prawdopodobieństwa były potęgami 12.) Oczekiwana liczba pytań była więc

i=1mp(si)log21p(si).

Korzystając ze Złotego Lematu, możemy pokazać, że liczba ta jest optymalna w tym sensie, że przy dowolnej strategii średnia liczba pytań nie może być mniejsza. Rozważmy w tym celu strategię, dla której liczba pytań dla każdego si wynosi (si). Z nierówności Krafta mamy i=1m12(si)1. Aplikując Złoty Lemat dla xi=p(si) oraz yi=12(si) dostajemy

i=1mp(si)(si)i=1mp(si)log21p(si)


Jesteśmy gotowi do wprowadzenia jednego z głównych pojęć Teorii Informacji:


Definicja [Entropia Shannona]

Entropią przestrzeni probabilistycznej S (parametryzowaną przez r>1) nazywamy funkcję
Hr(S)=sSp(s)logr1p(s)=sSp(s)logrp(s)

Innymi słowy, Hr(S) jest wartością oczekiwaną zmiennej losowej zdefiniowanej na S jako slogr1p(s).

Z oczywistych przyczyn w informatyce zwykle przyjmuje się r=2, dlatego będziemy często pisać po prostu H na określenie H2.

Claude E. Shannon (1916--2001) był amerykańskim matematykiem i inżynierem. Jego praca pt. A Mathematical Theory of Communication, opublikowana w 1948 r. zapoczątkowała teorię informacji.

Komentarz: Zauważmy, że definicja entropii łączy dwa pomysły:

  • wyliczenie wartości oczekiwanej pewnej funkcji złożonej z funkcją prawdopodobieństwa:
sSp(s)fp(s)
  • wybranie jako tej funkcji f=log, co zapewne jest najistotniejsze.
Ernst Heinrich Weber (1795–1878)
Gustav Fechner (1801–1887)

Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Fechnera w naukach kognitywnych głosi, że odbierana przez nasze zmysły percepcja (P) zmiany bodźca (S, od słowa stimuli) jest proporcjonalna nie do absolutnej, ale do względnej zmiany tego bodźca

PSS

Co po scałkowaniu daje

PlogS

To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności, jak i wysokości), a nawet statusu materialnego. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.


Jakie wartości może przyjmować entropia, w zależności od |S| i p? Z definicji wynika, że Hr(S)0 i że równość zachodzi jedynie wtedy, gdy całe prawdopodobieństwo jest skupione w jednym punkcie. Z drugiej strony, mamy


Fakt

Entropia jest zawsze ograniczona przez logarytm rozmiaru przestrzeni możliwości
Hr(S)logr|S|
i równość ma miejsce wtedy i tylko wtedy gdy p(s)=1|S| dla wszystkich sS.

Dowód

Korzystając ze Złotego Lematu dla xi=p(si) i yi=1|S|, otrzymujemy
sSp(s)logr1p(s)sSp(s)logr|S|=logr|S|
z równością dokładnie dla p(s)=1|S|.