Teoria informacji/TI Wykład 2: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Stromy (dyskusja | edycje)
Utworzenie hasła
 
Stromy (dyskusja | edycje)
Nie podano opisu zmian
Linia 9: Linia 9:
Funkcja jest '''ściśle wypukła''' jeśli powyższa nierówność jest ścisła dla <math>\lambda \notin \{ 0,1\}</math> i <math>x_1 \neq x_2</math>. Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.
Funkcja jest '''ściśle wypukła''' jeśli powyższa nierówność jest ścisła dla <math>\lambda \notin \{ 0,1\}</math> i <math>x_1 \neq x_2</math>. Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.


- rysunek
:[[grafika:Wypukla.PNG|Funkcja wypukła]]




{{lemat||do_wypukłej|Jeśli ''f'' jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz <math>f'' \geq 0</math> (<math>f'' > 0</math>) to jest wypukła (ściśle wypukła).}}
{{lemat||do_wypukłej|Jeśli ''f'' jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz <math>f'' \geq 0</math> (<math>f'' > 0</math>) to jest wypukła (ściśle wypukła).}}


'''Dowód''' Załóżmy <math>f'' \geq 0</math>. Z twierdzenia Lagrange’a o wartości średniej wynika że ''f’'' jest rosnąca na ''(a,b)'' (dla <math>a<t_1<t_2<b, f'(t_2)-f'(t_1)=f''(\tilde{t})(t_2 - t_1) \geq 0</math>).
{{dowod|||Załóżmy <math>f'' \geq 0</math>. Z twierdzenia Lagrange’a o wartości średniej wynika że ''f’'' jest rosnąca na ''(a,b)'' (dla <math>a<t_1<t_2<b, f'(t_2)-f'(t_1)=f''(\tilde{t})(t_2 - t_1) \geq 0</math>).


Niech <math>{x_{\lambda }} = \lambda x_1 + (1 - \lambda ) x_2</math>. Przekształcając naszą formułę, mamy pokazać
Niech <math>{x_{\lambda }} = \lambda x_1 + (1 - \lambda ) x_2</math>. Przekształcając naszą formułę, mamy pokazać
Linia 27: Linia 27:
:<math> f' (\tilde{x_1})  \leq f' (\tilde{x_2}) </math>
:<math> f' (\tilde{x_1})  \leq f' (\tilde{x_2}) </math>


A to wynika z faktu że ''f’'' jest rosnąca na ''(a,b)''. Dla <math>f''>0</math> rozumowanie jest analogiczne. QED
A to wynika z faktu że ''f’'' jest rosnąca na ''(a,b)''. Dla <math>f''>0</math> rozumowanie jest analogiczne.}}




W ramach tego kursu będziemy zajmować się głównie ''skończonymi'' przestrzeniami probabilistycznymi. Określając ''X'' jako ''zmienną losową'' na ''S'', zawsze będziemy zakładać że ''S'' jest dana razem z rozkładem prawdopodobieństwa <math>p:S \to [0,1]</math> (a więc <math>\sum_{s \in S} p(s) = 1</math>, i <math>X:S \to \mathbb{R}</math>. Przypomnijmy że ''wartość oczekiwana X'' to
W ramach tego kursu będziemy zajmować się głównie ''skończonymi'' przestrzeniami probabilistycznymi. Określając ''X'' jako ''zmienną losową'' na ''S'', zawsze będziemy zakładać że ''S'' jest dana razem z rozkładem prawdopodobieństwa <math>p:S \to [0,1]</math> (a więc <math>\sum_{s \in S} p(s) = 1</math>), i <math>X:S \to \mathbb{R}</math>. Przypomnijmy że ''wartość oczekiwana X'' to
:<math>E X = \sum_{s \in S}  p(s) \cdot X(s)</math>
:<math>E X = \sum_{s \in S}  p(s) \cdot X(s)</math>


Jeśli <math>S = \{ s_1, \ldots , s_m \}</math>, będziemy używać notacji <math>p_i=p(s_i)</math>, <math>x_i=X(s_i)</math>. W takim zapisie <math>E X =  p_1 x_1  + \ldots + p_m x_m</math>. Od razu zauważmy że ''E X'' nie zależy od tych <math>x_i</math> dla których <math>p_i=0</math>. Mówimy że ''X'' jest stała, jeśli tylko dla jednej wartości ''i'' <math>p_i > 0</math>
Jeśli <math>S = \{ s_1, \ldots , s_m \}</math>, będziemy używać notacji <math>p_i=p(s_i)</math>, <math>x_i=X(s_i)</math>. W takim zapisie <math>E X =  p_1 x_1  + \ldots + p_m x_m</math>. Od razu zauważmy że ''E X'' nie zależy od tych <math>x_i</math> dla których <math>p_i=0</math>. Mówimy że ''X'' jest stała, jeśli tylko dla jednej wartości ''i'' zachodzi <math>p_i > 0</math>




{{twierdzenie|(Nierówność Jensena)|Jansen| Jeśli <math>f:[a,b] \to \mathbb{R}</math> jest wypukłą funkcją, to dla każdej zmiennej losowej <math>X:S \to [a,b]</math>,
{{twierdzenie|(Nierówność Jensena)|Jensen| Jeśli <math>f:[a,b] \to \mathbb{R}</math> jest wypukłą funkcją, to dla każdej zmiennej losowej <math>X:S \to [a,b]</math>,
:<math>E f(X) \geq f (E X)</math>.
:<math>E f(X) \geq f (E X)</math>.
Jeśli dodatkowo ''f'' jest ściśle rosnąca, to powyższa nierówność jest ścisła o ile ''X'' nie jest stała.}}
Jeśli dodatkowo ''f'' jest ściśle rosnąca, to powyższa nierówność jest ścisła o ile ''X'' nie jest stała.}}


'''Dowód: ''' Przez indukcję po |''S''|. Przypadek <math>|S|=1</math> jest trywialny, a dla <math>|S|=2</math> nierówność możemy zapisać w postaci
{{dowod||do_Jensen|Przez indukcję po <math>|S|</math>. Przypadek <math>|S|=1</math> jest trywialny, a dla <math>|S|=2</math> nierówność możemy zapisać w postaci
:<math> p_1 f(x_1) + p_2 f(x_2) \geq (>) f ( p_1 x_1 + p_2 x_2)</math>
:<math> p_1 f(x_1) + p_2 f(x_2) \geq (>) f ( p_1 x_1 + p_2 x_2)</math>


Linia 47: Linia 47:
Niech <math>S=\{s_1, \ldots, s_m\}</math>, i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad ''S’'' o ile <math>|S'|\le m-1</math>.
Niech <math>S=\{s_1, \ldots, s_m\}</math>, i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad ''S’'' o ile <math>|S'|\le m-1</math>.
Bez utraty ogólności możemy założyć żę <math>p_m<1</math> Niech <math>p_i' = \frac{p_i}{1-p_m}</math> dla <math>i = 1,\ldots ,m-1</math>. Wtedy
Bez utraty ogólności możemy założyć żę <math>p_m<1</math> Niech <math>p_i' = \frac{p_i}{1-p_m}</math> dla <math>i = 1,\ldots ,m-1</math>. Wtedy
:<math>\sum_{i=1}^{m} p_i \, f(x_i) = p_m f (x_m) + (1 - p_m) \sum_{i=1}^{m-1}  p_i' f(x_i)</math>
<math>\sum_{i=1}^{m} p_i \, f(x_i) = p_m f (x_m) + (1 - p_m) \sum_{i=1}^{m-1}  p_i' f(x_i)</math>


:::<math>\geq p_m f (x_m) + (1 - p_m) f \left( \sum_{i=1}^{m-1} p_i' \, x_i  \right)</math>
:::<math>\geq p_m f (x_m) + (1 - p_m) f \left( \sum_{i=1}^{m-1} p_i' \, x_i  \right)</math>
Linia 57: Linia 57:
Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math> p_1', \ldots , p_{m-1}'</math> i wartości <math> x_1, \ldots , x_{m-1}</math>, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_m, 1-p_m</math>, i wartości <math>x_m, \sum_{i=1}^{m-1} p_i' x_i</math>.
Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math> p_1', \ldots , p_{m-1}'</math> i wartości <math> x_1, \ldots , x_{m-1}</math>, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_m, 1-p_m</math>, i wartości <math>x_m, \sum_{i=1}^{m-1} p_i' x_i</math>.


Załóżmy teraz że ''f'' jest ściśle wypukła, i w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego że obie zmienne losowe dla których użyliśmy hipotezy indukcyjnej są stałe. Po pierwsze <math>x_i=C</math> dla wszystkich <math>i = 1, \ldots , m-1</math> dla których <math>p_i' \neq 0</math>, i ponadto jeśli <math>p_m>0</math> to <math>x_m = \sum_{i=1}^{m-1} p_i' x_i = C</math> - a więc ''X'' jest stała.
Załóżmy teraz że ''f'' jest ściśle wypukła, i w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego że obie zmienne losowe dla których użyliśmy hipotezy indukcyjnej są stałe. Po pierwsze <math>x_i=C</math> dla wszystkich <math>i = 1, \ldots , m-1</math> dla których <math>p_i' \neq 0</math>, i ponadto jeśli <math>p_m>0</math> to <math>x_m = \sum_{i=1}^{m-1} p_i' x_i = C</math> - a więc ''X'' jest stała.}}
QED.




Linia 75: Linia 74:
i równość zachodzi tylko jeśli <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>}}
i równość zachodzi tylko jeśli <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>}}


'''Dowód'''
{{dowod||do_złoty|
Załóżmy najpierw że <math> \sum_{i=1}^q y_i = 1</math>. Wtedy
Załóżmy najpierw że <math> \sum_{i=1}^q y_i = 1</math>. Wtedy
:<math>\mathit{Lewa} - \mathit{Prawa} = \sum_{i=1}^q x_i \cdot \log_r \frac{x_i}{y_i} = \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right)  \cdot \log_r \frac{x_i}{y_i}</math>
:<math>\mathit{Lewa} - \mathit{Prawa} = \sum_{i=1}^q x_i \cdot \log_r \frac{x_i}{y_i} = \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right)  \cdot \log_r \frac{x_i}{y_i}</math>
Linia 89: Linia 88:
\sum_{i=1}^{q} x_i \cdot \log_r \frac{1}{x_i}</math>
\sum_{i=1}^{q} x_i \cdot \log_r \frac{1}{x_i}</math>


Zauważmy że w tym przypadku nie może być równości, gdyż implikowałaby <math>x_{q+1}=y_{q+1}</math>.  
Zauważmy że w tym przypadku nie może być równości, gdyż implikowałaby <math>x_{q+1}=y_{q+1}</math>.}}
QED.




Linia 96: Linia 94:
=== Entropia ===
=== Entropia ===


Wróćmy do przykładu z Grą w 20 pytań. Liczba pytań potrzebnych do zidentyfikowania obiektu <math>s_i</math> wynosi dokładnie <math>\log_2  \frac{1}{p(s_i)}</math>. Zatem oczekiwana liczba pytań jakie musimy zadać to <math>\sum_{i=1}^{m}  p(s_i) \cdot \log_2  \frac{1}{p(s_i)}</math>.
Wróćmy do przykładu z Grą w 20 pytań. Liczba pytań potrzebnych do zidentyfikowania obiektu <math>s_i</math> wynosi co najmniej <math>\log_2  \frac{1}{p(s_i)}</math>. Oczekiwana liczba pytań jakie musimy zadać to <math>\sum_{i=1}^{m}  p(s_i) \cdot \log_2  \frac{1}{p(s_i)}</math>.
TODO: W podanym przypadku było to możliwe ponieważ prawdopodobieństwa były potęgami <math>\frac{1}{2}</math>


Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań jest optymalna. Rozważmy w tym celu strategię dla której liczba pytań dla każdego <math>s_i</math> wynosi <math>\ell(s_i)</math>. Z nierówności Krafta mamy <math>\sum_{i=1}^{m} \frac{1}{2^{\ell (s_i)}} \leq 1</math>. Aplikując Złoty Lemat dla <math>x_i=p(s_i)</math> oraz <math>y_i = \frac{1}{2^{\ell (s_i)}}</math> dostajemy
Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań jest optymalna. Rozważmy w tym celu strategię dla której liczba pytań dla każdego <math>s_i</math> wynosi <math>\ell(s_i)</math>. Z nierówności Krafta mamy <math>\sum_{i=1}^{m} \frac{1}{2^{\ell (s_i)}} \leq 1</math>. Aplikując Złoty Lemat dla <math>x_i=p(s_i)</math> oraz <math>y_i = \frac{1}{2^{\ell (s_i)}}</math> dostajemy
Linia 108: Linia 105:


{{definicja|[Entropia Shannona]|entropia|'''Entropią''' przestrzeni probabilistycznej ''S'' (parametryzowaną przez <math>r>1</math>) nazywamy funkcję
{{definicja|[Entropia Shannona]|entropia|'''Entropią''' przestrzeni probabilistycznej ''S'' (parametryzowaną przez <math>r>1</math>) nazywamy funkcję
:<math>H_r (S) = \sum_{s \in S} p (s) \cdot  \log_r \frac{1}{p(s)}</math>


:<math>= - \sum_{s \in S} p (s) \cdot  \log_r {p(s)}</math>}}
<math>H_r (S) = \sum_{s \in S} p (s) \cdot  \log_r \frac{1}{p(s)}</math>
 
::<math>= - \sum_{s \in S} p (s) \cdot  \log_r {p(s)}</math>}}


Innymi słowy, <math>H_r(S)</math> jest wartością oczekiwaną zmiennej losowej zdefiniowanej na ''S'' jako <math>s \mapsto \log_r \frac{1}{p(s)}</math>.
Innymi słowy, <math>H_r(S)</math> jest wartością oczekiwaną zmiennej losowej zdefiniowanej na ''S'' jako <math>s \mapsto \log_r \frac{1}{p(s)}</math>.
Linia 136: Linia 134:
I równość ma miejsce wtedy i tylko wtedy gdy <math>p(s)=\frac{1}{|S|}</math> dla wszystkich <math>s \in S</math>}}
I równość ma miejsce wtedy i tylko wtedy gdy <math>p(s)=\frac{1}{|S|}</math> dla wszystkich <math>s \in S</math>}}


'''Dowód''' Korzystając ze Złotego Lematu dla <math>x_i=p(s_i)</math> i <math>y_i=\frac{1}{|S|}</math>, otrzymujemy
{{dowod||| Korzystając ze Złotego Lematu dla <math>x_i=p(s_i)</math> i <math>y_i=\frac{1}{|S|}</math>, otrzymujemy
:<math>\sum_{s \in S} p (s) \cdot  \log_r \frac{1}{p(s)} \leq \sum_{s \in S} p (s) \cdot  \log_r |S| = \log_r |S|</math>,
:<math>\sum_{s \in S} p (s) \cdot  \log_r \frac{1}{p(s)} \leq \sum_{s \in S} p (s) \cdot  \log_r |S| = \log_r |S|</math>,


z równością dokładnie dla <math>p(s)=\frac{1}{|S|}</math>.
z równością dokładnie dla <math>p(s)=\frac{1}{|S|}</math>.}}

Wersja z 06:30, 2 sie 2006

Własności funkcji wypukłych

Do dalszego opisu własności kodów, będziemy potrzebowali przypomnienia pewnych informacji z analizy matematycznej:


Definicja [Funkcja wypukła]

Funkcja f:[a,b] jest wypukła (na [a,b]) jeśli x1,x2[a,b], λ[0,1],
λf(x1)+(1λ)f(x2)f(λx1+(1λ)x2)

Funkcja jest ściśle wypukła jeśli powyższa nierówność jest ścisła dla λ{0,1} i x1x2. Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.

Funkcja wypukła


Lemat

Jeśli f jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz f0 (f>0) to jest wypukła (ściśle wypukła).

Dowód

Załóżmy f0. Z twierdzenia Lagrange’a o wartości średniej wynika że f’ jest rosnąca na (a,b) (dla a<t1<t2<b,f(t2)f(t1)=f(t~)(t2t1)0).

Niech xλ=λx1+(1λ)x2. Przekształcając naszą formułę, mamy pokazać

λ(f(xλ)f(x1))(1λ)(f(x2)f(xλ))

Używając ponownie twierdzenia Lagrange’a, tym razem dla f, upraszczamy to do

λf(x1~)(xλx1)(1λ)f(x2~)(x2xλ)

gdzie x1~ jest jakimś punktem w przedziale (x1,xλ), a x2~ w przedziale (xλ,x2). Korzystając z tego że xλx1=λ(x2x1) otrzymujemy

λ(1λ)f(x1~)(x2x1)λ(1λ)f(x2~)(x2x1)
f(x1~)f(x2~)
A to wynika z faktu że f’ jest rosnąca na (a,b). Dla f>0 rozumowanie jest analogiczne.


W ramach tego kursu będziemy zajmować się głównie skończonymi przestrzeniami probabilistycznymi. Określając X jako zmienną losową na S, zawsze będziemy zakładać że S jest dana razem z rozkładem prawdopodobieństwa p:S[0,1] (a więc sSp(s)=1), i X:S. Przypomnijmy że wartość oczekiwana X to

EX=sSp(s)X(s)

Jeśli S={s1,,sm}, będziemy używać notacji pi=p(si), xi=X(si). W takim zapisie EX=p1x1++pmxm. Od razu zauważmy że E X nie zależy od tych xi dla których pi=0. Mówimy że X jest stała, jeśli tylko dla jednej wartości i zachodzi pi>0


Twierdzenie (Nierówność Jensena)

Jeśli f:[a,b] jest wypukłą funkcją, to dla każdej zmiennej losowej X:S[a,b],
Ef(X)f(EX).
Jeśli dodatkowo f jest ściśle rosnąca, to powyższa nierówność jest ścisła o ile X nie jest stała.

Dowód

Przez indukcję po |S|. Przypadek |S|=1 jest trywialny, a dla |S|=2 nierówność możemy zapisać w postaci
p1f(x1)+p2f(x2)(>)f(p1x1+p2x2)

co jest dokładnie definicją (ścisłej) wypukłości.

Niech S={s1,,sm}, i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad S’ o ile |S|m1. Bez utraty ogólności możemy założyć żę pm<1 Niech pi=pi1pm dla i=1,,m1. Wtedy i=1mpif(xi)=pmf(xm)+(1pm)i=1m1pif(xi)

pmf(xm)+(1pm)f(i=1m1pixi)
f(pmxm+(1pm)i=1m1pixi)
=f(i=1mpixi)

Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa p1,,pm1 i wartości x1,,xm1, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa pm,1pm, i wartości xm,i=1m1pixi.

Załóżmy teraz że f jest ściśle wypukła, i w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego że obie zmienne losowe dla których użyliśmy hipotezy indukcyjnej są stałe. Po pierwsze xi=C dla wszystkich i=1,,m1 dla których pi0, i ponadto jeśli pm>0 to xm=i=1m1pixi=C - a więc X jest stała.


Konwencja Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję

0logr0=0logr10=0

Jest to uzasadnione przejściami granicznymi: limx0xlogrx=limx0xlogr1x=lim|y|logryy=0.

W dalszej części wykładu przydatna będzie funkcja xlogrx. Na podstawie lematu powyżej łatwo pokazać że dla r>1 funkcja ta jest ściśle rosnąca na przedziale [0,):

(xlogrx)=(logrx+x1xlogre)=1xlogre>0


Lemat [Złoty]

Niech 1=i=1qxii=1qyi, gdzie xi0 i yi>0 dla i=1,,q i niech r>1. Wtedy
i=1qxilogr1yii=1qxilogr1xi
i równość zachodzi tylko jeśli xi=yi dla i=1,,q

Dowód

Załóżmy najpierw że i=1qyi=1. Wtedy

LewaPrawa=i=1qxilogrxiyi=i=1qyi(xiyi)logrxiyi

Korzystając z nierówności Jensena dla funkcji xlogrx (na [0,)), i zmiennej losowej która przyjmuje wartości (xiyi) z prawdopodobieństwami yi dostajemy

i=1qyi(xiyi)logrxiyilogri=1qyi(xiyi)=0.

Ponieważ funkcja xlogrx jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ yi>0 i i=1qxi=i=1qyi, implikuje to że xi=yi dla i=1,,q

Założmy teraz że i=1qyi<1. Dodajmy yq+1=1i=1qyi oraz xq+1=0. Analogicznie do poprzedniego przypadku uzyskamy

i=1qxilogr1yi=i=1q+1xilogr1yii=1q+1xilogr1xi=i=1qxilogr1xi
Zauważmy że w tym przypadku nie może być równości, gdyż implikowałaby xq+1=yq+1.


Entropia

Wróćmy do przykładu z Grą w 20 pytań. Liczba pytań potrzebnych do zidentyfikowania obiektu si wynosi co najmniej log21p(si). Oczekiwana liczba pytań jakie musimy zadać to i=1mp(si)log21p(si).

Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań jest optymalna. Rozważmy w tym celu strategię dla której liczba pytań dla każdego si wynosi (si). Z nierówności Krafta mamy i=1m12(si)1. Aplikując Złoty Lemat dla xi=p(si) oraz yi=12(si) dostajemy

i=1mp(si)(si)i=1mp(si)log21p(si)


Jesteśmy gotowi do wprowadzenia jednego z głównych pojęć Teorii Informacji:


Definicja [Entropia Shannona]

Entropią przestrzeni probabilistycznej S (parametryzowaną przez r>1) nazywamy funkcję

Hr(S)=sSp(s)logr1p(s)

=sSp(s)logrp(s)

Innymi słowy, Hr(S) jest wartością oczekiwaną zmiennej losowej zdefiniowanej na S jako slogr1p(s).

Z oczywistych przyczyn zwykle w informatyce przyjmuje się r=2, dlatego będziemy często korzystać ze skrótu H=H2

Komentarz: Zauważmy że definicja entropii łączy dwa pomysły:

  • wyliczenie wartości oczekiwanej jakiejś funkcji przy zadanym prawdopodobieństwie
  • wybranie tej funkcji jako log, co być może jest najistotniejsze

Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Finchera głosi że odbierana przez nasze zmysły (P) zmiana bodźca (S) jest proporcjonalna nie do absolutnej, ale do procentowej zmiany tego bodźca

PSS

Co po scałkowaniu daje

PlogS

To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności jak i wysokości), a nawet bogactwa. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.

Jakie wartości może przyjmować entropia, w zależności od |S| i p? Z definicji wynika że Hr(S)0, i równość zachodzi jedynie gdy całe prawdopodobieństwo jest skupione w jednym punkcie. Z drugiej strony, mamy


Fakt

Hr(S)logr|S|
I równość ma miejsce wtedy i tylko wtedy gdy p(s)=1|S| dla wszystkich sS

Dowód

Korzystając ze Złotego Lematu dla xi=p(si) i yi=1|S|, otrzymujemy
sSp(s)logr1p(s)sSp(s)logr|S|=logr|S|,
z równością dokładnie dla p(s)=1|S|.