Teoria informacji/TI Wykład 2: Różnice pomiędzy wersjami

Wersja z 07:53, 7 sie 2006

Własności funkcji wypukłych

Do dalszego opisu własności kodów, będziemy potrzebowali przypomnienia pewnych informacji z analizy matematycznej:

Definicja [Funkcja wypukła]

Funkcja

f : [a, b] \to ℝ

jest wypukła (na [a,b]) jeśli

\forall x_{1}, x_{2} \in [a, b]

,

\forall λ \in [0, 1]

:

λ f (x_{1}) + (1 - λ) f (x_{2}) \geq f (λ x_{1} + (1 - λ) x_{2})

Funkcja jest ściśle wypukła, jeśli powyższa nierówność jest ścisła z wyjątkiem przypadku, gdy $λ \in {0, 1}$ lub $x_{1} = x_{2}$ . Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.

Lemat

Jeśli f jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz

f^{″} \geq 0

(

f^{″} > 0

) to jest wypukła (ściśle wypukła).

Dowód

Załóżmy

f^{″} \geq 0

. Z twierdzenia Lagrange’a o wartości średniej wynika że f’ jest rosnąca na (a,b) (dla

a < t_{1} < t_{2} < b

,

f^{'} (t_{2}) - f^{'} (t_{1}) = f^{″} (\tilde{t}) (t_{2} - t_{1}) \geq 0

).

Niech $x_{λ} = λ x_{1} + (1 - λ) x_{2}$ . Przekształcając naszą formułę, mamy pokazać

λ (f (x_{λ}) - f (x_{1})) \leq (1 - λ) (f (x_{2}) - f (x_{λ}))

Używając ponownie twierdzenia Lagrange’a, tym razem dla f, upraszczamy to do

λ f^{'} (\tilde{x_{1}}) (x_{λ} - x_{1}) \leq (1 - λ) f^{'} (\tilde{x_{2}}) (x_{2} - x_{λ})

gdzie $\tilde{x_{1}}$ jest jakimś punktem w przedziale $(x_{1}, x_{λ})$ , a $\tilde{x_{2}}$ w przedziale $(x_{λ}, x_{2})$ . Korzystając z tego że $x_{λ} - x_{1} = λ (x_{2} - x 1)$ otrzymujemy

λ (1 - λ) f^{'} (\tilde{x_{1}}) (x_{2} - x_{1}) \leq λ (1 - λ) f^{'} (\tilde{x_{2}}) (x_{2} - x_{1})

f^{'} (\tilde{x_{1}}) \leq f^{'} (\tilde{x_{2}})

A to wynika z faktu że f’ jest rosnąca na (a,b). Dla

f^{″} > 0

rozumowanie jest analogiczne.

W ramach tego kursu będziemy zajmować się głównie skończonymi przestrzeniami probabilistycznymi. Określając X jako zmienną losową na S, zawsze będziemy zakładać że S jest dana razem z rozkładem prawdopodobieństwa $p : S \to [0, 1]$ (a więc $\sum_{s \in S} p (s) = 1$ ), i $X : S \to ℝ$ . Przypomnijmy że wartość oczekiwana X to

E X = \sum_{s \in S} p (s) \cdot X (s)

Jeśli $S = {s_{1}, \dots, s_{m}}$ , będziemy używać notacji $p_{i} = p (s_{i})$ , $x_{i} = X (s_{i})$ . W takim zapisie $E X = p_{1} x_{1} + \dots + p_{m} x_{m}$ . Od razu zauważmy że E X nie zależy od tych $x_{i}$ dla których $p_{i} = 0$ . Mówimy że X jest stała, jeśli tylko dla jednej wartości i zachodzi $p_{i} > 0$

Twierdzenie (Nierówność Jensena)

Jeśli

f : [a, b] \to ℝ

jest wypukłą funkcją, to dla każdej zmiennej losowej

X : S \to [a, b]

,

E f (X) \geq f (E X)

. Jeśli dodatkowo f jest ściśle rosnąca, to powyższa nierówność jest ścisła o ile X nie jest stała.

Dowód

Przez indukcję po

| S |

. Przypadek

| S | = 1

jest trywialny, a dla

| S | = 2

nierówność możemy zapisać w postaci

p_{1} f (x_{1}) + p_{2} f (x_{2}) \geq (>) f (p_{1} x_{1} + p_{2} x_{2})

co jest dokładnie definicją (ścisłej) wypukłości.

Niech $S = {s_{1}, \dots, s_{m}}$ , i załóżmy że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad S’ o ile $| S^{'} | \leq m - 1$ . Bez utraty ogólności możemy założyć żę $p_{m} < 1$ Niech ${p_{i}}^{'} = \frac{p_{i}}{1 - p_{m}}$ dla $i = 1, \dots, m - 1$ . Wtedy

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned \sum_{i=1}^{m} p_i \, f(x_i) &= p_m f (x_m) + (1 - p_m) \sum_{i=1}^{m-1} p_i' f(x_i)\\ &\geq p_m f (x_m) + (1 - p_m) f \left( \sum_{i=1}^{m-1} p_i' \, x_i \right)\\ &\geq f \left( p_m x_m + (1 - p_m) \sum_{i=1}^{m-1} p_i'\, x_i \right)\\ &= f \left( \sum_{i=1}^{m} p_i x_i \right) \endaligned }

Zauważmy że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa ${p_{1}}^{'}, \dots, p_{m^{'} - 1}$ i wartości $x_{1}, \dots, x_{m - 1}$ , po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa $p_{m}, 1 - p_{m}$ , i wartości $x_{m}, \sum_{i = 1}^{m - 1} {p_{i}}^{'} x_{i}$ .

Załóżmy teraz że f jest ściśle wypukła, i w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego że obie zmienne losowe dla których użyliśmy hipotezy indukcyjnej są stałe. Po pierwsze

x_{i} = C

dla wszystkich

i = 1, \dots, m - 1

dla których

{p_{i}}^{'} \neq 0

, i ponadto jeśli

p_{m} > 0

to

x_{m} = \sum_{i = 1}^{m - 1} {p_{i}}^{'} x_{i} = C

- a więc X jest stała.

Konwencja Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję

0 \log_{r} 0 = 0 \log_{r} \frac{1}{0} = 0

Jest to uzasadnione przejściami granicznymi: $l i m_{x \to 0} x \log_{r} x = \lim_{x \to 0} - x \log_{r} \frac{1}{x} = \lim_{| y | \to \infty} - \frac{\log_{r} y}{y} = 0$ .

W dalszej części wykładu przydatna będzie funkcja $x \log_{r} x$ . Na podstawie lematu powyżej łatwo pokazać że dla $r > 1$ funkcja ta jest ściśle rosnąca na przedziale $[0, \infty)$ :

(x \log_{r} x) = (\log_{r} x + x \cdot \frac{1}{x} \cdot \log_{r} e) = \frac{1}{x} \cdot \log_{r} e > 0

Lemat [Złoty]

Niech

1 = \sum_{i = 1}^{q} x_{i} \geq \sum_{i = 1}^{q} y_{i}

, gdzie

x_{i} \geq 0

i

y_{i} > 0

dla

i = 1, \dots, q

i niech

r > 1

. Wtedy

\sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{1}{y_{i}} \geq \sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{1}{x_{i}}

i równość zachodzi tylko jeśli

x_{i} = y_{i}

dla

i = 1, \dots, q

Dowód

Załóżmy najpierw że $\sum_{i = 1}^{q} y_{i} = 1$ . Wtedy

L e w a - P r a w a = \sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{x_{i}}{y_{i}} = \sum_{i = 1}^{q} y_{i} \cdot (\frac{x_{i}}{y_{i}}) \cdot \log_{r} \frac{x_{i}}{y_{i}}

Korzystając z nierówności Jensena dla funkcji $x \log_{r} x$ (na $[0, \infty)$ ), i zmiennej losowej która przyjmuje wartości $(\frac{x_{i}}{y_{i}})$ z prawdopodobieństwami $y_{i}$ dostajemy

\sum_{i = 1}^{q} y_{i} \cdot (\frac{x_{i}}{y_{i}}) \cdot \log_{r} \frac{x_{i}}{y_{i}} \geq \log_{r} \sum_{i = 1}^{q} y_{i} \cdot (\frac{x_{i}}{y_{i}}) = 0

.

Ponieważ funkcja $x \log_{r} x$ jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ $y_{i} > 0$ i $\sum_{i = 1}^{q} x_{i} = \sum_{i = 1}^{q} y_{i}$ , implikuje to że $x_{i} = y_{i}$ dla $i = 1, \dots, q$

Założmy teraz że $\sum_{i = 1}^{q} y_{i} < 1$ . Dodajmy $y_{q + 1} = 1 - \sum_{i = 1}^{q} y_{i}$ oraz $x_{q + 1} = 0$ . Analogicznie do poprzedniego przypadku uzyskamy

\sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{1}{y_{i}} = \sum_{i = 1}^{q + 1} x_{i} \cdot \log_{r} \frac{1}{y_{i}} \geq \sum_{i = 1}^{q + 1} x_{i} \cdot \log_{r} \frac{1}{x_{i}} = \sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{1}{x_{i}}

Zauważmy że w tym przypadku nie może być równości, gdyż implikowałoby to

x_{q + 1} = y_{q + 1}

.

Entropia

Wróćmy do przykładu z Grą w 20 pytań. Liczba pytań potrzebnych do zidentyfikowania obiektu $s_{i}$ wynosi co najmniej $\log_{2} \frac{1}{p (s_{i})}$ . Oczekiwana liczba pytań jakie musimy zadać to $\sum_{i = 1}^{m} p (s_{i}) \cdot \log_{2} \frac{1}{p (s_{i})}$ .

Korzystając ze Złotego Lematu, możemy pokazać że ta liczba pytań jest optymalna. Rozważmy w tym celu strategię dla której liczba pytań dla każdego $s_{i}$ wynosi $ℓ (s_{i})$ . Z nierówności Krafta mamy $\sum_{i = 1}^{m} \frac{1}{2^{ℓ (s_{i})}} \leq 1$ . Aplikując Złoty Lemat dla $x_{i} = p (s_{i})$ oraz $y_{i} = \frac{1}{2^{ℓ (s_{i})}}$ dostajemy

\sum_{i = 1}^{m} p (s_{i}) \cdot ℓ (s_{i}) \geq \sum_{i = 1}^{m} p (s_{i}) \cdot \log_{2} \frac{1}{p (s_{i})}

Jesteśmy gotowi do wprowadzenia jednego z głównych pojęć Teorii Informacji:

Definicja [Entropia Shannona]

Entropią przestrzeni probabilistycznej S (parametryzowaną przez

r > 1

) nazywamy funkcję Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned H_r (S) & = \sum_{s \in S} p (s) \cdot \log_r \frac{1}{p(s)}\\ & = - \sum_{s \in S} p (s) \cdot \log_r {p(s)} \endaligned }

Innymi słowy, $H_{r} (S)$ jest wartością oczekiwaną zmiennej losowej zdefiniowanej na S jako $s \mapsto \log_{r} \frac{1}{p (s)}$ .

Z oczywistych przyczyn zwykle w informatyce przyjmuje się $r = 2$ , dlatego będziemy często pisać po prostu H na określenie $H_{2}$ .

Komentarz: Zauważmy że definicja entropii łączy dwa pomysły:

wyliczenie wartości oczekiwanej jakiejś funkcji przy zadanym prawdopodobieństwie
wybranie tej funkcji jako log, co być może jest najistotniejsze

Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Fechnera głosi że odbierana przez nasze zmysły (P) zmiana bodźca (S) jest proporcjonalna nie do absolutnej, ale do procentowej zmiany tego bodźca

\partial P \approx \frac{\partial S}{S}

Co po scałkowaniu daje

P \approx \log S

To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności jak i wysokości), a nawet bogactwa. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.

Jakie wartości może przyjmować entropia, w zależności od |S| i p? Z definicji wynika że $H_{r} (S) \geq 0$ , i równość zachodzi jedynie gdy całe prawdopodobieństwo jest skupione w jednym punkcie. Z drugiej strony, mamy

Fakt

Entropia jest zawsze ograniczona przez logarytm rozmiaru przestrzeni możliwości

H_{r} (S) \leq \log_{r} | S |

I równość ma miejsce wtedy i tylko wtedy gdy

p (s) = \frac{1}{| S |}

dla wszystkich

s \in S

Dowód

Korzystając ze Złotego Lematu dla

x_{i} = p (s_{i})

i

y_{i} = \frac{1}{| S |}

, otrzymujemy

\sum_{s \in S} p (s) \cdot \log_{r} \frac{1}{p (s)} \leq \sum_{s \in S} p (s) \cdot \log_{r} | S | = \log_{r} | S |

z równością dokładnie dla

p (s) = \frac{1}{| S |}

.

@@ Linia 7: / Linia 7: @@
 <center><math>\lambda f(x_1 ) + (1 - \lambda ) f(x_2 )  \geq f (\lambda x_1 + (1 - \lambda ) x_2 )</math></center>}}
-Funkcja jest '''ściśle wypukła''' jeśli powyższa nierówność jest ścisła dla <math>\lambda \notin \{ 0,1\}</math> i <math>x_1 \neq x_2</math>. Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.
+Funkcja jest '''ściśle wypukła''', jeśli powyższa nierówność jest ścisła z wyjątkiem przypadku, gdy
+<math>\lambda \in \{ 0,1\}</math> lub <math>x_1 = x_2</math>. Geometrycznie oznacza to że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.
 <center>[[grafika:Wypukla.PNG|Funkcja wypukła]]</center>
@@ Linia 91: / Linia 92: @@
 Zauważmy że w tym przypadku nie może być równości, gdyż implikowałoby to <math>x_{q+1}=y_{q+1}</math>.}}
 === Entropia ===

Teoria informacji/TI Wykład 2: Różnice pomiędzy wersjami

Wersja z 07:53, 7 sie 2006

Własności funkcji wypukłych

Entropia

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia