Teoria informacji/TI Wykład 2: Różnice pomiędzy wersjami

Wersja z 18:21, 17 wrz 2006

Własności funkcji wypukłych

Do dalszego opisu własności kodów będziemy potrzebowali przypomnienia pewnych informacji z analizy matematycznej:

Definicja [Funkcja wypukła]

Funkcja

f : [a, b] \to ℝ

jest wypukła (na [a,b]) jeśli

\forall x_{1}, x_{2} \in [a, b]

,

\forall λ \in [0, 1]

:

λ f (x_{1}) + (1 - λ) f (x_{2}) \geq f (λ x_{1} + (1 - λ) x_{2})

Funkcja jest ściśle wypukła, jeśli powyższa nierówność jest ścisła z wyjątkiem przypadku, gdy $λ \in {0, 1}$ lub $x_{1} = x_{2}$ . Geometrycznie oznacza to, że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.

Lemat

Jeśli f jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz

f^{″} \geq 0

(

f^{″} > 0

), to jest wypukła (ściśle wypukła).

Dowód

Załóżmy

f^{″} \geq 0

. Z twierdzenia Lagrange’a o wartości średniej zastosowanego do funkcji f’ wynika, że f’ jest rosnąca na (a,b) (dla

a < t_{1} < t_{2} < b

,

f^{'} (t_{2}) - f^{'} (t_{1}) = f^{″} (\tilde{t}) (t_{2} - t_{1}) \geq 0

).

Niech $x_{λ} = λ x_{1} + (1 - λ) x_{2}$ . Przekształcając nieco naszą formułę, mamy pokazać

λ (f (x_{λ}) - f (x_{1})) \leq (1 - λ) (f (x_{2}) - f (x_{λ}))

Używając ponownie twierdzenia Lagrange’a, tym razem dla f, sprowadzamy to do

λ f^{'} (\tilde{x_{1}}) (x_{λ} - x_{1}) \leq (1 - λ) f^{'} (\tilde{x_{2}}) (x_{2} - x_{λ})

gdzie $\tilde{x_{1}}$ jest jakimś punktem w przedziale $(x_{1}, x_{λ})$ , a $\tilde{x_{2}}$ w przedziale $(x_{λ}, x_{2})$ . Korzystając z tego, że $x_{λ} - x_{1} = λ (x_{2} - x 1)$ , wystarczy nam pokazać

λ (1 - λ) f^{'} (\tilde{x_{1}}) (x_{2} - x_{1}) \leq λ (1 - λ) f^{'} (\tilde{x_{2}}) (x_{2} - x_{1})

co jest równoważne

f^{'} (\tilde{x_{1}}) \leq f^{'} (\tilde{x_{2}})

A to już wynika z faktu, że f’ jest rosnąca na (a,b). Dla

f^{″} > 0

rozumowanie jest analogiczne.

W ramach tego kursu będziemy zajmować się głównie skończonymi przestrzeniami probabilistycznymi. Określając X jako zmienną losową na S, zawsze będziemy zakładać, że S jest dana razem z rozkładem prawdopodobieństwa $p : S \to [0, 1]$ (a więc $\sum_{s \in S} p (s) = 1$ ), i $X : S \to ℝ$ . Przypomnijmy że wartość oczekiwana X to

E X = \sum_{s \in S} p (s) \cdot X (s)

Jeśli $S = {s_{1}, \dots, s_{m}}$ , będziemy używać notacji $p_{i} = p (s_{i})$ , $x_{i} = X (s_{i})$ . W takim zapisie $E X = p_{1} x_{1} + \dots + p_{m} x_{m}$ . Od razu zauważmy, że E X nie zależy od tych $x_{i}$ , dla których $p_{i} = 0$ . Mówimy, że X jest stała, jeśli $p_{i} > 0$ zachodzi tylko dla jednej wartości i.

Twierdzenie (Nierówność Jensena)

Jeśli

f : [a, b] \to ℝ

jest funkcją wypukłą, to dla każdej zmiennej losowej

X : S \to [a, b]

,

E f (X) \geq f (E X)

. Jeśli dodatkowo f jest ściśle wypukła, to powyższa nierówność jest ścisła z wyjątkiem sytuacji, gdy X jest stała.

Dowód

Przez indukcję po

| S |

. Przypadek

| S | = 1

jest trywialny, a dla

| S | = 2

nierówność możemy zapisać w postaci

p_{1} f (x_{1}) + p_{2} f (x_{2}) \geq (>) f (p_{1} x_{1} + p_{2} x_{2})

co jest dokładnie definicją (ścisłej) wypukłości.

Niech $S = {s_{1}, \dots, s_{m}}$ i załóżmy, że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad S’ o ile $| S^{'} | \leq m - 1$ . Bez utraty ogólności możemy założyć, że $p_{m} < 1$ Niech ${p_{i}}^{'} = \frac{p_{i}}{1 - p_{m}}$ dla $i = 1, \dots, m - 1$ . Wtedy

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned \sum_{i=1}^{m} p_i \, f(x_i) &= p_m f (x_m) + (1 - p_m) \sum_{i=1}^{m-1} p_i' f(x_i)\\ &\geq p_m f (x_m) + (1 - p_m) f \left( \sum_{i=1}^{m-1} p_i' \, x_i \right)\\ &\geq f \left( p_m x_m + (1 - p_m) \sum_{i=1}^{m-1} p_i'\, x_i \right)\\ &= f \left( \sum_{i=1}^{m} p_i x_i \right) \endaligned }

Zauważmy, że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa ${p_{1}}^{'}, \dots, p_{m^{'} - 1}$ i wartości $x_{1}, \dots, x_{m - 1}$ , po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa $p_{m}, 1 - p_{m}$ , i wartości $x_{m}, \sum_{i = 1}^{m - 1} {p_{i}}^{'} x_{i}$ .

Załóżmy teraz, że f jest ściśle wypukła i że w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego, że obie zmienne losowe, dla których użyliśmy hipotezy indukcyjnej, są stałe. Po pierwsze

x_{i} = C

dla wszystkich

i = 1, \dots, m - 1

dla których

{p_{i}}^{'} \neq 0

, i ponadto jeśli

p_{m} > 0

to

x_{m} = \sum_{i = 1}^{m - 1} {p_{i}}^{'} x_{i} = C

- a więc X jest stała.

Konwencja Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję

0 \log_{r} 0 = 0 \log_{r} \frac{1}{0} = 0

Jest to uzasadnione przejściami granicznymi: $l i m_{x \to 0} x \log_{r} x = \lim_{x \to 0} - x \log_{r} \frac{1}{x} = \lim_{| y | \to \infty} - \frac{\log_{r} y}{y} = 0$ .

W dalszej części wykładu przydatna będzie funkcja $x \log_{r} x$ . Na podstawie lematu powyżej łatwo pokazać, że dla $r > 1$ funkcja ta jest ściśle rosnąca na przedziale $[0, \infty)$ :

(x \log_{r} x) = (\log_{r} x + x \cdot \frac{1}{x} \cdot \log_{r} e) = \frac{1}{x} \cdot \log_{r} e > 0

Lemat [Złoty]

Niech

1 = \sum_{i = 1}^{q} x_{i} \geq \sum_{i = 1}^{q} y_{i}

, gdzie

x_{i} \geq 0

i

y_{i} > 0

dla

i = 1, \dots, q

i niech

r > 1

. Wtedy

\sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{1}{y_{i}} \geq \sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{1}{x_{i}}

i równość zachodzi tylko wtedy, gdy

x_{i} = y_{i}

dla

i = 1, \dots, q

Dowód

Załóżmy najpierw, że $\sum_{i = 1}^{q} y_{i} = 1$ . Wtedy

L e w a - P r a w a = \sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{x_{i}}{y_{i}} = \sum_{i = 1}^{q} y_{i} \cdot (\frac{x_{i}}{y_{i}}) \cdot \log_{r} \frac{x_{i}}{y_{i}}

Korzystając z nierówności Jensena dla funkcji $x \log_{r} x$ (na $[0, \infty)$ ) i zmiennej losowej, która przyjmuje wartości $(\frac{x_{i}}{y_{i}})$ z prawdopodobieństwami $y_{i}$ , dostajemy

\sum_{i = 1}^{q} y_{i} \cdot (\frac{x_{i}}{y_{i}}) \cdot \log_{r} \frac{x_{i}}{y_{i}} \geq \log_{r} \sum_{i = 1}^{q} y_{i} \cdot (\frac{x_{i}}{y_{i}}) = 0

.

Ponieważ funkcja $x \log_{r} x$ jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ $y_{i} > 0$ i $\sum_{i = 1}^{q} x_{i} = \sum_{i = 1}^{q} y_{i}$ , implikuje to, że $x_{i} = y_{i}$ dla $i = 1, \dots, q$

Założmy teraz, że $\sum_{i = 1}^{q} y_{i} < 1$ . Dodajmy $y_{q + 1} = 1 - \sum_{i = 1}^{q} y_{i}$ oraz $x_{q + 1} = 0$ . Analogicznie do poprzedniego przypadku uzyskamy

\sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{1}{y_{i}} = \sum_{i = 1}^{q + 1} x_{i} \cdot \log_{r} \frac{1}{y_{i}} \geq \sum_{i = 1}^{q + 1} x_{i} \cdot \log_{r} \frac{1}{x_{i}} = \sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{1}{x_{i}}

Zauważmy, że w tym przypadku nie może być równości, gdyż implikowałoby to

x_{q + 1} = y_{q + 1}

.

Entropia

Wróćmy do przykładu z Grą w 20 pytań. Liczba pytań potrzebnych do zidentyfikowania obiektu $s_{i}$ wynosi co najmniej $\log_{2} \frac{1}{p (s_{i})}$ . Oczekiwana liczba pytań jakie musimy zadać to $\sum_{i = 1}^{m} p (s_{i}) \cdot \log_{2} \frac{1}{p (s_{i})}$ .

Korzystając ze Złotego Lematu, możemy pokazać że ta liczba jest optymalna w tym sensie, że przy dowolnej strategii średnia liczba pytań nie może być mniejsza. Rozważmy w tym celu strategię, dla której liczba pytań dla każdego $s_{i}$ wynosi $ℓ (s_{i})$ . Z nierówności Krafta mamy $\sum_{i = 1}^{m} \frac{1}{2^{ℓ (s_{i})}} \leq 1$ . Aplikując Złoty Lemat dla $x_{i} = p (s_{i})$ oraz $y_{i} = \frac{1}{2^{ℓ (s_{i})}}$ dostajemy

\sum_{i = 1}^{m} p (s_{i}) \cdot ℓ (s_{i}) \geq \sum_{i = 1}^{m} p (s_{i}) \cdot \log_{2} \frac{1}{p (s_{i})}

Jesteśmy gotowi do wprowadzenia jednego z głównych pojęć Teorii Informacji:

Definicja [Entropia Shannona]

Entropią przestrzeni probabilistycznej S (parametryzowaną przez

r > 1

) nazywamy funkcję Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned H_r (S) & = \sum_{s \in S} p (s) \cdot \log_r \frac{1}{p(s)}\\ & = - \sum_{s \in S} p (s) \cdot \log_r {p(s)} \endaligned }

Innymi słowy, $H_{r} (S)$ jest wartością oczekiwaną zmiennej losowej zdefiniowanej na S jako $s \mapsto \log_{r} \frac{1}{p (s)}$ .

Z oczywistych przyczyn w informatyce zwykle przyjmuje się $r = 2$ , dlatego będziemy często pisać po prostu H na określenie $H_{2}$ .

Komentarz: Zauważmy że definicja entropii łączy dwa pomysły:

wyliczenie wartości oczekiwanej pewnej funkcji złożonej z funkcją prawdopodobieństwa:

\sum_{s \in S} p (s) \cdot f \circ p (s)

wybranie jako tej funkcji $f = \log$ , co zapewne jest najistotniejsze.

Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Fechnera w naukach kognitywnych głosi, że odbierana przez nasze zmysły percepcja (P) zmiany bodźca (S, od słowa stimuli) jest proporcjonalna nie do absolutnej, ale do względnej zmiany tego bodźca

\partial P \approx \frac{\partial S}{S}

Co po scałkowaniu daje

P \approx \log S

To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności jak i wysokości), a nawet statusu materialnego. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.

Jakie wartości może przyjmować entropia, w zależności od |S| i p? Z definicji wynika że $H_{r} (S) \geq 0$ , i równość zachodzi jedynie gdy całe prawdopodobieństwo jest skupione w jednym punkcie. Z drugiej strony, mamy

Fakt

Entropia jest zawsze ograniczona przez logarytm rozmiaru przestrzeni możliwości

H_{r} (S) \leq \log_{r} | S |

I równość ma miejsce wtedy i tylko wtedy gdy

p (s) = \frac{1}{| S |}

dla wszystkich

s \in S

Dowód

Korzystając ze Złotego Lematu dla

x_{i} = p (s_{i})

i

y_{i} = \frac{1}{| S |}

, otrzymujemy

\sum_{s \in S} p (s) \cdot \log_{r} \frac{1}{p (s)} \leq \sum_{s \in S} p (s) \cdot \log_{r} | S | = \log_{r} | S |

z równością dokładnie dla

p (s) = \frac{1}{| S |}

.

@@ Linia 1: / Linia 1: @@
 ===Własności funkcji wypukłych===
-Do dalszego opisu własności kodów, będziemy potrzebowali przypomnienia pewnych informacji z analizy matematycznej:
+Do dalszego opisu własności kodów będziemy potrzebowali przypomnienia pewnych informacji z analizy matematycznej:
@@ Linia 15: / Linia 15: @@
 {{lemat||do_wypukłej|Jeśli ''f'' jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz <math>f'' \geq 0</math> (<math>f'' > 0</math>), to jest wypukła (ściśle wypukła).}}
-{{dowod|||Załóżmy <math>f'' \geq 0</math>. Z twierdzenia Lagrange’a o wartości średniej zastosowanego do funkcji ''f’'', wynika że ''f’'' jest rosnąca na ''(a,b)'' (dla <math>a<t_1<t_2<b</math> , <math>f'(t_2)-f'(t_1)=f''(\tilde{t})(t_2 - t_1) \geq 0</math>).
+{{dowod|||Załóżmy <math>f'' \geq 0</math>. Z twierdzenia Lagrange’a o wartości średniej zastosowanego do funkcji ''f’'' wynika, że ''f’'' jest rosnąca na ''(a,b)'' (dla <math>a<t_1<t_2<b</math> , <math>f'(t_2)-f'(t_1)=f''(\tilde{t})(t_2 - t_1) \geq 0</math>).
 Niech <math>{x_{\lambda }} = \lambda x_1 + (1 - \lambda ) x_2</math>. Przekształcając nieco naszą formułę, mamy pokazać
@@ Linia 23: / Linia 23: @@
 <center><math>\lambda  f' (\tilde{x_1}) (x_{\lambda } - x_1) \leq (1 - \lambda ) f' (\tilde{x_2})  (x_2 - x_{\lambda })</math></center>
-gdzie <math>\tilde{x_1}</math> jest jakimś punktem w przedziale <math>(x_1,x_{\lambda})</math>, a <math>\tilde{x_2}</math> w przedziale <math>(x_{\lambda},x_2)</math>. Korzystając z tego że <math> x_{\lambda}-x_1= \lambda(x_2-x1)</math> wystarczy nam pokazać
+gdzie <math>\tilde{x_1}</math> jest jakimś punktem w przedziale <math>(x_1,x_{\lambda})</math>, a <math>\tilde{x_2}</math> w przedziale <math>(x_{\lambda},x_2)</math>. Korzystając z tego, że <math> x_{\lambda}-x_1= \lambda(x_2-x1)</math>, wystarczy nam pokazać
 <center><math> \lambda (1 - \lambda )  f' (\tilde{x_1})  (x_2 -  x_1) \leq \lambda (1 - \lambda )  f' (\tilde{x_2})  (x_2 -  x_1)</math></center>
 co jest równoważne
@@ Linia 31: / Linia 31: @@
-W ramach tego kursu będziemy zajmować się głównie ''skończonymi'' przestrzeniami probabilistycznymi. Określając ''X'' jako ''zmienną losową'' na ''S'', zawsze będziemy zakładać że ''S'' jest dana razem z rozkładem prawdopodobieństwa <math>p:S \to [0,1]</math> (a więc <math>\sum_{s \in S} p(s) = 1</math>), i <math>X:S \to \mathbb{R}</math>. Przypomnijmy że ''wartość oczekiwana X'' to
+W ramach tego kursu będziemy zajmować się głównie ''skończonymi'' przestrzeniami probabilistycznymi. Określając ''X'' jako ''zmienną losową'' na ''S'', zawsze będziemy zakładać, że ''S'' jest dana razem z rozkładem prawdopodobieństwa <math>p:S \to [0,1]</math> (a więc <math>\sum_{s \in S} p(s) = 1</math>), i <math>X:S \to \mathbb{R}</math>. Przypomnijmy że ''wartość oczekiwana X'' to
 <center><math>E X = \sum_{s \in S}  p(s) \cdot X(s)</math></center>
 Jeśli <math>S = \{ s_1, \ldots , s_m \}</math>, będziemy używać notacji <math>p_i=p(s_i)</math>, <math>x_i=X(s_i)</math>. W takim zapisie <math>E X =  p_1 x_1  + \ldots + p_m x_m</math>. Od razu zauważmy, że
-''E X'' nie zależy od tych <math>x_i</math>, dla których <math>p_i=0</math>. Mówimy że ''X'' jest stała, jeśli
+''E X'' nie zależy od tych <math>x_i</math>, dla których <math>p_i=0</math>. Mówimy, że ''X'' jest stała, jeśli
 <math>p_i > 0</math> zachodzi tylko dla jednej wartości ''i''.
@@ Linia 41: / Linia 41: @@
 {{twierdzenie|(Nierówność Jensena)|Jensen| Jeśli <math>f:[a,b] \to \mathbb{R}</math> jest funkcją wypukłą, to dla każdej zmiennej losowej <math>X:S \to [a,b]</math>,
 <center><math>E f(X) \geq f (E X)</math>.</center>
-Jeśli dodatkowo ''f'' jest ściśle wypukła, to powyższa nierówność jest ścisła, z wyjątkiem sytuacji, gdy  ''X''  jest stała.}}
+Jeśli dodatkowo ''f'' jest ściśle wypukła, to powyższa nierówność jest ścisła z wyjątkiem sytuacji, gdy  ''X''  jest stała.}}
 {{dowod||do_Jensen|Przez indukcję po <math>|S|</math>. Przypadek <math>|S|=1</math> jest trywialny, a dla <math>|S|=2</math> nierówność możemy zapisać w postaci
@@ Linia 48: / Linia 48: @@
 co jest dokładnie definicją (ścisłej) wypukłości.
-Niech <math>S=\{s_1, \ldots, s_m\}</math>, i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad ''S’'' o ile <math>|S'|\le m-1</math>.
+Niech <math>S=\{s_1, \ldots, s_m\}</math> i załóżmy, że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad ''S’'' o ile <math>|S'|\le m-1</math>.
-Bez utraty ogólności możemy założyć żę <math>p_m<1</math> Niech <math>p_i' = \frac{p_i}{1-p_m}</math> dla <math>i = 1,\ldots ,m-1</math>. Wtedy
+Bez utraty ogólności możemy założyć, że <math>p_m<1</math> Niech <math>p_i' = \frac{p_i}{1-p_m}</math> dla <math>i = 1,\ldots ,m-1</math>. Wtedy
 <center>
@@ Linia 60: / Linia 60: @@
 </math></center>
-Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math> p_1', \ldots , p_{m-1}'</math> i wartości <math> x_1, \ldots , x_{m-1}</math>, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_m, 1-p_m</math>, i wartości <math>x_m, \sum_{i=1}^{m-1} p_i' x_i</math>.
+Zauważmy, że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math> p_1', \ldots , p_{m-1}'</math> i wartości <math> x_1, \ldots , x_{m-1}</math>, po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa <math>p_m, 1-p_m</math>, i wartości <math>x_m, \sum_{i=1}^{m-1} p_i' x_i</math>.
-Załóżmy teraz że ''f'' jest ściśle wypukła, i w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego że obie zmienne losowe dla których użyliśmy hipotezy indukcyjnej są stałe. Po pierwsze <math>x_i=C</math> dla wszystkich <math>i = 1, \ldots , m-1</math> dla których <math>p_i' \neq 0</math>, i ponadto jeśli <math>p_m>0</math> to <math>x_m = \sum_{i=1}^{m-1} p_i' x_i = C</math> - a więc ''X'' jest stała.}}
+Załóżmy teraz, że ''f'' jest ściśle wypukła i że w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego, że obie zmienne losowe, dla których użyliśmy hipotezy indukcyjnej, są stałe. Po pierwsze <math>x_i=C</math> dla wszystkich <math>i = 1, \ldots , m-1</math> dla których <math>p_i' \neq 0</math>, i ponadto jeśli <math>p_m>0</math> to <math>x_m = \sum_{i=1}^{m-1} p_i' x_i = C</math> - a więc ''X'' jest stała.}}
@@ Linia 70: / Linia 70: @@
 Jest to uzasadnione przejściami granicznymi: <math>lim_{x \to 0} x \log_r x =  \lim_{x \to 0} - x \log_r \frac{1}{x} = \lim_{|y| \to \infty} - \frac{\log_r y}{y} = 0 </math>.
-W dalszej części wykładu przydatna będzie funkcja <math>x \log_r x</math>. Na podstawie lematu powyżej łatwo pokazać że dla <math>r>1</math> funkcja ta jest ściśle rosnąca na przedziale <math>[0,\infty)</math>:
+W dalszej części wykładu przydatna będzie funkcja <math>x \log_r x</math>. Na podstawie lematu powyżej łatwo pokazać, że dla <math>r>1</math> funkcja ta jest ściśle rosnąca na przedziale <math>[0,\infty)</math>:
 <center><math>\left( x \log_r x \right)'' = \left(\log_r x + x \cdot  \frac{1}{x} \cdot \log_r e \right)' =  \frac{1}{x} \cdot \log_r e > 0</math></center>
@@ Linia 77: / Linia 77: @@
 <center><math>\sum_{i=1}^q x_i \cdot \log_r \frac{1}{y_i}\geq \sum_{i=1}^q x_i \cdot \log_r \frac{1}{x_i}</math></center>
-i równość zachodzi tylko jeśli <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>}}
+i równość zachodzi tylko wtedy, gdy <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>}}
 {{dowod||do_złoty|
-Załóżmy najpierw że <math> \sum_{i=1}^q y_i = 1</math>. Wtedy
+Załóżmy najpierw, że <math> \sum_{i=1}^q y_i = 1</math>. Wtedy
 <center><math>\mathit{Lewa} - \mathit{Prawa} = \sum_{i=1}^q x_i \cdot \log_r \frac{x_i}{y_i} = \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right)  \cdot \log_r \frac{x_i}{y_i}</math></center>
-Korzystając z nierówności Jensena dla funkcji <math>x \log_r x</math> (na <math>[0,\infty)</math>), i zmiennej losowej która przyjmuje wartości <math>\left(\frac{x_i}{y_i} \right) </math> z prawdopodobieństwami <math>y_i</math> dostajemy
+Korzystając z nierówności Jensena dla funkcji <math>x \log_r x</math> (na <math>[0,\infty)</math>) i zmiennej losowej, która przyjmuje wartości <math>\left(\frac{x_i}{y_i} \right) </math> z prawdopodobieństwami <math>y_i</math>, dostajemy
 <center><math>\sum_{i=1}^q y_i \cdot \left(\frac{x_i}{y_i} \right)  \cdot \log_r \frac{x_i}{y_i}
 \geq \log_r \sum_{i=1}^q y_i \cdot \left( \frac{x_i}{y_i} \right) = 0</math>.</center>
-Ponieważ funkcja <math>x \log_r x</math> jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ <math>y_i>0</math> i <math>\sum_{i=1}^q x_i  = \sum_{i=1}^q y_i</math>, implikuje to że <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>
+Ponieważ funkcja <math>x \log_r x</math> jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ <math>y_i>0</math> i <math>\sum_{i=1}^q x_i  = \sum_{i=1}^q y_i</math>, implikuje to, że <math>x_i=y_i</math> dla <math>i=1, \ldots, q</math>
-Założmy teraz że <math> \sum_{i=1}^q y_i < 1</math>. Dodajmy <math>y_{q+1} = 1 -  \sum_{i=1}^q y_i</math> oraz <math>x_{q+1}=0</math>. Analogicznie do poprzedniego przypadku uzyskamy
+Założmy teraz, że <math> \sum_{i=1}^q y_i < 1</math>. Dodajmy <math>y_{q+1} = 1 -  \sum_{i=1}^q y_i</math> oraz <math>x_{q+1}=0</math>. Analogicznie do poprzedniego przypadku uzyskamy
 <center><math>\sum_{i=1}^q x_i \cdot \log_r \frac{1}{y_i} = \sum_{i=1}^{q+1} x_i \cdot \log_r \frac{1}{y_i} \geq \sum_{i=1}^{q+1} x_i \cdot \log_r \frac{1}{x_i} =
 \sum_{i=1}^{q} x_i \cdot \log_r \frac{1}{x_i}</math></center>
-Zauważmy że w tym przypadku nie może być równości, gdyż implikowałoby to <math>x_{q+1}=y_{q+1}</math>.}}
+Zauważmy, że w tym przypadku nie może być równości, gdyż implikowałoby to <math>x_{q+1}=y_{q+1}</math>.}}
 === Entropia ===

Teoria informacji/TI Wykład 2: Różnice pomiędzy wersjami

Wersja z 18:21, 17 wrz 2006

Własności funkcji wypukłych

Entropia

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia