Teoria informacji/TI Wykład 2: Różnice pomiędzy wersjami
Utworzenie hasła |
Nie podano opisu zmian |
||
Linia 9: | Linia 9: | ||
Funkcja jest '''ściśle wypukła''' jeśli powyższa nierówność jest ścisła dla <math>\lambda \notin \{ 0,1\}</math> i <math>x_1 \neq x_2</math>. Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu. | Funkcja jest '''ściśle wypukła''' jeśli powyższa nierówność jest ścisła dla <math>\lambda \notin \{ 0,1\}</math> i <math>x_1 \neq x_2</math>. Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu. | ||
:[[grafika:Wypukla.PNG|Funkcja wypukła]] | |||
{{lemat||do_wypukłej|Jeśli ''f'' jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz <math>f'' \geq 0</math> (<math>f'' > 0</math>) to jest wypukła (ściśle wypukła).}} | {{lemat||do_wypukłej|Jeśli ''f'' jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz <math>f'' \geq 0</math> (<math>f'' > 0</math>) to jest wypukła (ściśle wypukła).}} | ||
{{dowod|||Załóżmy <math>f'' \geq 0</math>. Z twierdzenia Lagrange’a o wartości średniej wynika że ''f’'' jest rosnąca na ''(a,b)'' (dla <math>a<t_1<t_2<b, f'(t_2)-f'(t_1)=f''(\tilde{t})(t_2 - t_1) \geq 0</math>). | |||
Niech <math>{x_{\lambda }} = \lambda x_1 + (1 - \lambda ) x_2</math>. Przekształcając naszą formułę, mamy pokazać | Niech <math>{x_{\lambda }} = \lambda x_1 + (1 - \lambda ) x_2</math>. Przekształcając naszą formułę, mamy pokazać | ||
Linia 27: | Linia 27: | ||
:<math> f' (\tilde{x_1}) \leq f' (\tilde{x_2}) </math> | :<math> f' (\tilde{x_1}) \leq f' (\tilde{x_2}) </math> | ||
A to wynika z faktu że ''f’'' jest rosnąca na ''(a,b)''. Dla <math>f''>0</math> rozumowanie jest analogiczne. | A to wynika z faktu że ''f’'' jest rosnąca na ''(a,b)''. Dla <math>f''>0</math> rozumowanie jest analogiczne.}} | ||
W ramach tego kursu będziemy zajmować się głównie ''skończonymi'' przestrzeniami probabilistycznymi. Określając ''X'' jako ''zmienną losową'' na ''S'', zawsze będziemy zakładać że ''S'' jest dana razem z rozkładem prawdopodobieństwa <math>p:S \to [0,1]</math> (a więc <math>\sum_{s \in S} p(s) = 1</math>, i <math>X:S \to \mathbb{R}</math>. Przypomnijmy że ''wartość oczekiwana X'' to | W ramach tego kursu będziemy zajmować się głównie ''skończonymi'' przestrzeniami probabilistycznymi. Określając ''X'' jako ''zmienną losową'' na ''S'', zawsze będziemy zakładać że ''S'' jest dana razem z rozkładem prawdopodobieństwa <math>p:S \to [0,1]</math> (a więc <math>\sum_{s \in S} p(s) = 1</math>), i <math>X:S \to \mathbb{R}</math>. Przypomnijmy że ''wartość oczekiwana X'' to | ||
:<math>E X = \sum_{s \in S} p(s) \cdot X(s)</math> | :<math>E X = \sum_{s \in S} p(s) \cdot X(s)</math> | ||
Jeśli <math>S = \{ s_1, \ldots , s_m \}</math>, będziemy używać notacji <math>p_i=p(s_i)</math>, <math>x_i=X(s_i)</math>. W takim zapisie <math>E X = p_1 x_1 + \ldots + p_m x_m</math>. Od razu zauważmy że ''E X'' nie zależy od tych <math>x_i</math> dla których <math>p_i=0</math>. Mówimy że ''X'' jest stała, jeśli tylko dla jednej wartości ''i'' <math>p_i > 0</math> | Jeśli <math>S = \{ s_1, \ldots , s_m \}</math>, będziemy używać notacji <math>p_i=p(s_i)</math>, <math>x_i=X(s_i)</math>. W takim zapisie <math>E X = p_1 x_1 + \ldots + p_m x_m</math>. Od razu zauważmy że ''E X'' nie zależy od tych <math>x_i</math> dla których <math>p_i=0</math>. Mówimy że ''X'' jest stała, jeśli tylko dla jednej wartości ''i'' zachodzi <math>p_i > 0</math> | ||
{{twierdzenie|(Nierówność Jensena)| | {{twierdzenie|(Nierówność Jensena)|Jensen| Jeśli <math>f:[a,b] \to \mathbb{R}</math> jest wypukłą funkcją, to dla każdej zmiennej losowej <math>X:S \to [a,b]</math>, | ||
:<math>E f(X) \geq f (E X)</math>. | :<math>E f(X) \geq f (E X)</math>. | ||
Jeśli dodatkowo ''f'' jest ściśle rosnąca, to powyższa nierówność jest ścisła o ile ''X'' nie jest stała.}} | Jeśli dodatkowo ''f'' jest ściśle rosnąca, to powyższa nierówność jest ścisła o ile ''X'' nie jest stała.}} | ||
{{dowod||do_Jensen|Przez indukcję po <math>|S|</math>. Przypadek <math>|S|=1</math> jest trywialny, a dla <math>|S|=2</math> nierówność możemy zapisać w postaci | |||
:<math> p_1 f(x_1) + p_2 f(x_2) \geq (>) f ( p_1 x_1 + p_2 x_2)</math> | :<math> p_1 f(x_1) + p_2 f(x_2) \geq (>) f ( p_1 x_1 + p_2 x_2)</math> | ||
Linia 47: | Linia 47: | ||
Niech <math>S=\{s_1, \ldots, s_m\}</math>, i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad ''S’'' o ile <math>|S'|\le m-1</math>. | Niech <math>S=\{s_1, \ldots, s_m\}</math>, i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad ''S’'' o ile <math>|S'|\le m-1</math>. | ||
Bez utraty ogólności możemy założyć żę <math>p_m<1</math> Niech <math>p_i' = \frac{p_i}{1-p_m}</math> dla <math>i = 1,\ldots ,m-1</math>. Wtedy | Bez utraty ogólności możemy założyć żę <math>p_m<1</math> Niech <math>p_i' = \frac{p_i}{1-p_m}</math> dla <math>i = 1,\ldots ,m-1</math>. Wtedy | ||
<math>\sum_{i=1}^{m} p_i \, f(x_i) = p_m f (x_m) + (1 - p_m) \sum_{i=1}^{m-1} p_i' f(x_i)</math> | |||
:::<math>\geq p_m f (x_m) + (1 - p_m) f \left( \sum_{i=1}^{m-1} p_i' \, x_i \right)</math> | :::<math>\geq p_m f (x_m) + (1 - p_m) f \left( \sum_{i=1}^{m-1} p_i' \, x_i \right)</math> | ||
Linia 57: | Linia 57: | ||
Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math> p_1', \ldots , p_{m-1}'</math> i wartości <math> x_1, \ldots , x_{m-1}</math>, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_m, 1-p_m</math>, i wartości <math>x_m, \sum_{i=1}^{m-1} p_i' x_i</math>. | Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math> p_1', \ldots , p_{m-1}'</math> i wartości <math> x_1, \ldots , x_{m-1}</math>, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_m, 1-p_m</math>, i wartości <math>x_m, \sum_{i=1}^{m-1} p_i' x_i</math>. | ||
Załóżmy teraz że ''f'' jest ściśle wypukła, i w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego że obie zmienne losowe dla których użyliśmy hipotezy indukcyjnej są stałe. Po pierwsze <math>x_i=C</math> dla wszystkich <math>i = 1, \ldots , m-1</math> dla których <math>p_i' \neq 0</math>, i ponadto jeśli <math>p_m>0</math> to <math>x_m = \sum_{i=1}^{m-1} p_i' x_i = C</math> - a więc ''X'' jest stała. | Załóżmy teraz że ''f'' jest ściśle wypukła, i w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego że obie zmienne losowe dla których użyliśmy hipotezy indukcyjnej są stałe. Po pierwsze <math>x_i=C</math> dla wszystkich <math>i = 1, \ldots , m-1</math> dla których <math>p_i' \neq 0</math>, i ponadto jeśli <math>p_m>0</math> to <math>x_m = \sum_{i=1}^{m-1} p_i' x_i = C</math> - a więc ''X'' jest stała.}} | ||
Linia 75: | Linia 74: | ||
i równość zachodzi tylko jeśli <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>}} | i równość zachodzi tylko jeśli <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>}} | ||
{{dowod||do_złoty| | |||
Załóżmy najpierw że <math> \sum_{i=1}^q y_i = 1</math>. Wtedy | Załóżmy najpierw że <math> \sum_{i=1}^q y_i = 1</math>. Wtedy | ||
:<math>\mathit{Lewa} - \mathit{Prawa} = \sum_{i=1}^q x_i \cdot \log_r \frac{x_i}{y_i} = \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right) \cdot \log_r \frac{x_i}{y_i}</math> | :<math>\mathit{Lewa} - \mathit{Prawa} = \sum_{i=1}^q x_i \cdot \log_r \frac{x_i}{y_i} = \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right) \cdot \log_r \frac{x_i}{y_i}</math> | ||
Linia 89: | Linia 88: | ||
\sum_{i=1}^{q} x_i \cdot \log_r \frac{1}{x_i}</math> | \sum_{i=1}^{q} x_i \cdot \log_r \frac{1}{x_i}</math> | ||
Zauważmy że w tym przypadku nie może być równości, gdyż implikowałaby <math>x_{q+1}=y_{q+1}</math>. | Zauważmy że w tym przypadku nie może być równości, gdyż implikowałaby <math>x_{q+1}=y_{q+1}</math>.}} | ||
Linia 96: | Linia 94: | ||
=== Entropia === | === Entropia === | ||
Wróćmy do przykładu z Grą w 20 pytań. Liczba pytań potrzebnych do zidentyfikowania obiektu <math>s_i</math> wynosi | Wróćmy do przykładu z Grą w 20 pytań. Liczba pytań potrzebnych do zidentyfikowania obiektu <math>s_i</math> wynosi co najmniej <math>\log_2 \frac{1}{p(s_i)}</math>. Oczekiwana liczba pytań jakie musimy zadać to <math>\sum_{i=1}^{m} p(s_i) \cdot \log_2 \frac{1}{p(s_i)}</math>. | ||
Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań jest optymalna. Rozważmy w tym celu strategię dla której liczba pytań dla każdego <math>s_i</math> wynosi <math>\ell(s_i)</math>. Z nierówności Krafta mamy <math>\sum_{i=1}^{m} \frac{1}{2^{\ell (s_i)}} \leq 1</math>. Aplikując Złoty Lemat dla <math>x_i=p(s_i)</math> oraz <math>y_i = \frac{1}{2^{\ell (s_i)}}</math> dostajemy | Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań jest optymalna. Rozważmy w tym celu strategię dla której liczba pytań dla każdego <math>s_i</math> wynosi <math>\ell(s_i)</math>. Z nierówności Krafta mamy <math>\sum_{i=1}^{m} \frac{1}{2^{\ell (s_i)}} \leq 1</math>. Aplikując Złoty Lemat dla <math>x_i=p(s_i)</math> oraz <math>y_i = \frac{1}{2^{\ell (s_i)}}</math> dostajemy | ||
Linia 108: | Linia 105: | ||
{{definicja|[Entropia Shannona]|entropia|'''Entropią''' przestrzeni probabilistycznej ''S'' (parametryzowaną przez <math>r>1</math>) nazywamy funkcję | {{definicja|[Entropia Shannona]|entropia|'''Entropią''' przestrzeni probabilistycznej ''S'' (parametryzowaną przez <math>r>1</math>) nazywamy funkcję | ||
:<math>= - \sum_{s \in S} p (s) \cdot \log_r {p(s)}</math>}} | <math>H_r (S) = \sum_{s \in S} p (s) \cdot \log_r \frac{1}{p(s)}</math> | ||
::<math>= - \sum_{s \in S} p (s) \cdot \log_r {p(s)}</math>}} | |||
Innymi słowy, <math>H_r(S)</math> jest wartością oczekiwaną zmiennej losowej zdefiniowanej na ''S'' jako <math>s \mapsto \log_r \frac{1}{p(s)}</math>. | Innymi słowy, <math>H_r(S)</math> jest wartością oczekiwaną zmiennej losowej zdefiniowanej na ''S'' jako <math>s \mapsto \log_r \frac{1}{p(s)}</math>. | ||
Linia 136: | Linia 134: | ||
I równość ma miejsce wtedy i tylko wtedy gdy <math>p(s)=\frac{1}{|S|}</math> dla wszystkich <math>s \in S</math>}} | I równość ma miejsce wtedy i tylko wtedy gdy <math>p(s)=\frac{1}{|S|}</math> dla wszystkich <math>s \in S</math>}} | ||
{{dowod||| Korzystając ze Złotego Lematu dla <math>x_i=p(s_i)</math> i <math>y_i=\frac{1}{|S|}</math>, otrzymujemy | |||
:<math>\sum_{s \in S} p (s) \cdot \log_r \frac{1}{p(s)} \leq \sum_{s \in S} p (s) \cdot \log_r |S| = \log_r |S|</math>, | :<math>\sum_{s \in S} p (s) \cdot \log_r \frac{1}{p(s)} \leq \sum_{s \in S} p (s) \cdot \log_r |S| = \log_r |S|</math>, | ||
z równością dokładnie dla <math>p(s)=\frac{1}{|S|}</math>. | z równością dokładnie dla <math>p(s)=\frac{1}{|S|}</math>.}} |
Wersja z 06:30, 2 sie 2006
Własności funkcji wypukłych
Do dalszego opisu własności kodów, będziemy potrzebowali przypomnienia pewnych informacji z analizy matematycznej:
Definicja [Funkcja wypukła]
Funkcja jest ściśle wypukła jeśli powyższa nierówność jest ścisła dla i . Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.
Lemat
Dowód
Niech . Przekształcając naszą formułę, mamy pokazać
Używając ponownie twierdzenia Lagrange’a, tym razem dla f, upraszczamy to do
gdzie jest jakimś punktem w przedziale , a w przedziale . Korzystając z tego że otrzymujemy

W ramach tego kursu będziemy zajmować się głównie skończonymi przestrzeniami probabilistycznymi. Określając X jako zmienną losową na S, zawsze będziemy zakładać że S jest dana razem z rozkładem prawdopodobieństwa (a więc ), i . Przypomnijmy że wartość oczekiwana X to
Jeśli , będziemy używać notacji , . W takim zapisie . Od razu zauważmy że E X nie zależy od tych dla których . Mówimy że X jest stała, jeśli tylko dla jednej wartości i zachodzi
Twierdzenie (Nierówność Jensena)
- .
Dowód
co jest dokładnie definicją (ścisłej) wypukłości.
Niech , i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad S’ o ile . Bez utraty ogólności możemy założyć żę Niech dla . Wtedy
Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa i wartości , po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa , i wartości .
Załóżmy teraz że f jest ściśle wypukła, i w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego że obie zmienne losowe dla których użyliśmy hipotezy indukcyjnej są stałe. Po pierwsze dla wszystkich dla których , i ponadto jeśli to - a więc X jest stała.
Konwencja Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję
Jest to uzasadnione przejściami granicznymi: .
W dalszej części wykładu przydatna będzie funkcja . Na podstawie lematu powyżej łatwo pokazać że dla funkcja ta jest ściśle rosnąca na przedziale :
Lemat [Złoty]
Dowód
Załóżmy najpierw że . Wtedy
Korzystając z nierówności Jensena dla funkcji (na ), i zmiennej losowej która przyjmuje wartości z prawdopodobieństwami dostajemy
Ponieważ funkcja jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ i , implikuje to że dla
Założmy teraz że . Dodajmy oraz . Analogicznie do poprzedniego przypadku uzyskamy

Entropia
Wróćmy do przykładu z Grą w 20 pytań. Liczba pytań potrzebnych do zidentyfikowania obiektu wynosi co najmniej . Oczekiwana liczba pytań jakie musimy zadać to .
Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań jest optymalna. Rozważmy w tym celu strategię dla której liczba pytań dla każdego wynosi . Z nierówności Krafta mamy . Aplikując Złoty Lemat dla oraz dostajemy
Jesteśmy gotowi do wprowadzenia jednego z głównych pojęć Teorii Informacji:
Definicja [Entropia Shannona]
Innymi słowy, jest wartością oczekiwaną zmiennej losowej zdefiniowanej na S jako .
Z oczywistych przyczyn zwykle w informatyce przyjmuje się , dlatego będziemy często korzystać ze skrótu
Komentarz: Zauważmy że definicja entropii łączy dwa pomysły:
- wyliczenie wartości oczekiwanej jakiejś funkcji przy zadanym prawdopodobieństwie
- wybranie tej funkcji jako log, co być może jest najistotniejsze
Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Finchera głosi że odbierana przez nasze zmysły (P) zmiana bodźca (S) jest proporcjonalna nie do absolutnej, ale do procentowej zmiany tego bodźca
Co po scałkowaniu daje
To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności jak i wysokości), a nawet bogactwa. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.
Jakie wartości może przyjmować entropia, w zależności od |S| i p? Z definicji wynika że , i równość zachodzi jedynie gdy całe prawdopodobieństwo jest skupione w jednym punkcie. Z drugiej strony, mamy
Fakt
Dowód