Teoria informacji/TI Wykład 2

Własności funkcji wypukłych

Do dalszego opisu własności kodów będziemy potrzebowali przypomnienia pewnych faktów z analizy matematycznej:

Definicja [Funkcja wypukła]

Funkcja

f : [a, b] \to ℝ

jest wypukła (na [a,b]) jeśli

\forall x_{1}, x_{2} \in [a, b]

,

\forall λ \in [0, 1]

:

λ f (x_{1}) + (1 - λ) f (x_{2}) \geq f (λ x_{1} + (1 - λ) x_{2})

Funkcja jest ściśle wypukła, jeśli powyższa nierówność jest ścisła z wyjątkiem przypadku, gdy $λ \in {0, 1}$ lub $x_{1} = x_{2}$ . Geometrycznie oznacza to, że dowolna cięciwa wykresu leży (ściśle) powyżej tego wykresu.

Lemat

Jeśli f jest ciągła na [a,b] i dwukrotnie różniczkowalna na (a,b) oraz

f^{″} \geq 0

(

f^{″} > 0

), to jest wypukła (ściśle wypukła).

Dowód

Załóżmy

f^{″} \geq 0

. Z twierdzenia Lagrange’a o wartości średniej zastosowanego do funkcji f’ wynika, że f’ jest słabo rosnąca na (a,b) (dla

a < t_{1} < t_{2} < b

,

f^{'} (t_{2}) - f^{'} (t_{1}) = f^{″} (\tilde{t}) (t_{2} - t_{1}) \geq 0

).

Niech $x_{λ} = λ x_{1} + (1 - λ) x_{2}$ . Przekształcając nieco naszą formułę, mamy pokazać

λ (f (x_{λ}) - f (x_{1})) \leq (1 - λ) (f (x_{2}) - f (x_{λ}))

Używając ponownie twierdzenia Lagrange’a, tym razem dla f, sprowadzamy to do

λ f^{'} (\tilde{x_{1}}) (x_{λ} - x_{1}) \leq (1 - λ) f^{'} (\tilde{x_{2}}) (x_{2} - x_{λ})

gdzie $\tilde{x_{1}}$ jest jakimś punktem w przedziale $(x_{1}, x_{λ})$ , a $\tilde{x_{2}}$ w przedziale $(x_{λ}, x_{2})$ . Korzystając z tego, że $x_{λ} - x_{1} = λ (x_{2} - x_{1})$ , wystarczy nam pokazać

λ (1 - λ) f^{'} (\tilde{x_{1}}) (x_{2} - x_{1}) \leq λ (1 - λ) f^{'} (\tilde{x_{2}}) (x_{2} - x_{1})

co jest równoważne

f^{'} (\tilde{x_{1}}) \leq f^{'} (\tilde{x_{2}})

A to już wynika z faktu, że f’ jest słabo rosnąca na (a,b). Dla

f^{″} > 0

rozumowanie jest analogiczne.

W ramach tego kursu będziemy zajmować się głównie skończonymi przestrzeniami probabilistycznymi. Określając X jako zmienną losową na S, zawsze będziemy zakładać, że S jest dana razem z rozkładem prawdopodobieństwa $p : S \to [0, 1]$ (a więc $\sum_{s \in S} p (s) = 1$ ), i $X : S \to ℝ$ . Przypomnijmy że wartość oczekiwana zmiennej X to

E X = \sum_{s \in S} p (s) \cdot X (s)

Jeśli $S = {s_{1}, \dots, s_{m}}$ , będziemy używać notacji $p_{i} = p (s_{i})$ , $x_{i} = X (s_{i})$ . W takim zapisie $E X = p_{1} x_{1} + \dots + p_{m} x_{m}$ . Od razu zauważmy, że E X nie zależy od tych $x_{i}$ , dla których $p_{i} = 0$ . Mówimy, że X jest stała, jeśli $p_{i} > 0$ zachodzi tylko dla jednej wartości i.

Twierdzenie (Nierówność Jensena)

Jeśli

f : [a, b] \to ℝ

jest funkcją wypukłą, to dla każdej zmiennej losowej

X : S \to [a, b]

,

E f (X) \geq f (E X)

. Jeśli dodatkowo f jest ściśle wypukła, to powyższa nierówność jest ścisła z wyjątkiem sytuacji, gdy X jest stała.

Dowód

Przez indukcję po

| S |

. Przypadek

| S | = 1

jest trywialny, a dla

| S | = 2

nierówność możemy zapisać w postaci

p_{1} f (x_{1}) + p_{2} f (x_{2}) \geq (>) f (p_{1} x_{1} + p_{2} x_{2})

co jest dokładnie definicją (ścisłej) wypukłości.

Niech $S = {s_{1}, \dots, s_{m}}$ i załóżmy, że twierdzenie jest spełnione dla dowolnych zmiennych losowych nad S’ o ile $| S^{'} | \leq m - 1$ . Bez utraty ogólności możemy założyć, że $p_{m} < 1$ Niech ${p_{i}}^{'} = \frac{p_{i}}{1 - p_{m}}$ dla $i = 1, \dots, m - 1$ . Wtedy

\begin{aligned} \sum_{i = 1}^{m} p_{i} f (x_{i}) & = p_{m} f (x_{m}) + (1 - p_{m}) \sum_{i = 1}^{m - 1} {p_{i}}^{'} f (x_{i}) \\ \geq p_{m} f (x_{m}) + (1 - p_{m}) f (\sum_{i = 1}^{m - 1} {p_{i}}^{'} x_{i}) \\ \geq f (p_{m} x_{m} + (1 - p_{m}) \sum_{i = 1}^{m - 1} {p_{i}}^{'} x_{i}) \\ = f (\sum_{i = 1}^{m} p_{i} x_{i}) \end{aligned}

Zauważmy, że użyliśmy dwukrotnie hipotezy indukcyjnej: po pierwsze dla zmiennej losowej wyznaczonej przez prawdopodobieństwa ${p_{1}}^{'}, \dots, p_{m^{'} - 1}$ i wartości $x_{1}, \dots, x_{m - 1}$ , po drugie dla zmiennej losowej wyznaczonej przez prawdopodobieństwa $p_{m}, 1 - p_{m}$ , i wartości $x_{m}$ oraz $\sum_{i = 1}^{m - 1} {p_{i}}^{'} x_{i}$ .

Załóżmy teraz, że f jest ściśle wypukła i że w powyższym wywodzie wszystkie nierówności są równościami. Wynika z tego, że obie zmienne losowe, dla których użyliśmy hipotezy indukcyjnej, są stałe. Po pierwsze

x_{i} = C

dla wszystkich

i = 1, \dots, m - 1

dla których

{p_{i}}^{'} \neq 0

, i ponadto jeśli

p_{m} > 0

to

x_{m} = \sum_{i = 1}^{m - 1} {p_{i}}^{'} x_{i} = C

- a więc X jest stała.

Konwencja Aby nie rozważać za każdym razem szczególnych przypadków, przyjmiemy konwencję

0 \log_{r} 0 = 0 \log_{r} \frac{1}{0} = 0

Jest to uzasadnione przejściami granicznymi: $l i m_{x \to 0^{+}} x \log_{r} x = \lim_{x \to 0^{+}} - x \log_{r} \frac{1}{x} = \lim_{y \to \infty} - \frac{\log_{r} y}{y} = 0$ .

W dalszej części wykładu przydatna będzie funkcja $x \log_{r} x$ . Na podstawie lematu powyżej łatwo pokazać, że dla $r > 1$ funkcja ta jest ściśle wypukła na przedziale $[0, \infty)$ , mamy bowiem:

(x \log_{r} x) = (\log_{r} x + x \cdot \frac{1}{x} \cdot \log_{r} e) = \frac{1}{x} \cdot \log_{r} e > 0

Lemat [Złoty]

Niech

1 = \sum_{i = 1}^{q} x_{i} \geq \sum_{i = 1}^{q} y_{i}

, gdzie

x_{i} \geq 0

i

y_{i} > 0

dla

i = 1, \dots, q

i niech

r > 1

. Wtedy

\sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{1}{y_{i}} \geq \sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{1}{x_{i}}

i równość zachodzi tylko wtedy, gdy

x_{i} = y_{i}

dla

i = 1, \dots, q

.

Dowód

Załóżmy najpierw, że $\sum_{i = 1}^{q} y_{i} = 1$ . Wtedy

L e w a - P r a w a = \sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{x_{i}}{y_{i}} = \sum_{i = 1}^{q} y_{i} \cdot (\frac{x_{i}}{y_{i}}) \cdot \log_{r} \frac{x_{i}}{y_{i}}

Korzystając z nierówności Jensena dla funkcji $x \log_{r} x$ (na $[0, \infty)$ , tzn. na dowolnym $[0, M]$ , gdzie $M < \infty$ ) i zmiennej losowej, która przyjmuje wartości $(\frac{x_{i}}{y_{i}})$ z prawdopodobieństwami $y_{i}$ , dostajemy

\sum_{i = 1}^{q} y_{i} \cdot (\frac{x_{i}}{y_{i}}) \cdot \log_{r} \frac{x_{i}}{y_{i}} \geq \log_{r} \sum_{i = 1}^{q} y_{i} \cdot (\frac{x_{i}}{y_{i}}) = 0

.

A zatem $L e w a \geq P r a w a$ . Ponieważ funkcja $x \log_{r} x$ jest ściśle rosnąca, równość może zachodzić tylko dla stałej zmiennej losowej. Ponieważ $y_{i} > 0$ i $\sum_{i = 1}^{q} x_{i} = \sum_{i = 1}^{q} y_{i}$ , implikuje to, że $x_{i} = y_{i}$ dla $i = 1, \dots, q$ .

Założmy teraz, że $\sum_{i = 1}^{q} y_{i} < 1$ . Dodajmy $y_{q + 1} = 1 - \sum_{i = 1}^{q} y_{i}$ oraz $x_{q + 1} = 0$ . Analogicznie do poprzedniego przypadku uzyskamy

\sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{1}{y_{i}} = \sum_{i = 1}^{q + 1} x_{i} \cdot \log_{r} \frac{1}{y_{i}} \geq \sum_{i = 1}^{q + 1} x_{i} \cdot \log_{r} \frac{1}{x_{i}} = \sum_{i = 1}^{q} x_{i} \cdot \log_{r} \frac{1}{x_{i}}

Zauważmy, że w tym przypadku nie może być równości, gdyż implikowałoby to

x_{q + 1} = y_{q + 1}

.

Entropia

Wróćmy do przykładu gry w zgadywanie z poprzedniego wykładu. Liczba pytań potrzebnych do zidentyfikowania obiektu $s_{i}$ wynosiła tam dokładnie $\log_{2} \frac{1}{p (s_{i})}$ . (Było to możliwe, ponieważ prawdopodobieństwa były potęgami $\frac{1}{2}$ .) Oczekiwana liczba pytań była więc

\sum_{i = 1}^{m} p (s_{i}) \cdot \log_{2} \frac{1}{p (s_{i})}

.

Korzystając ze Złotego Lematu, możemy pokazać, że liczba ta jest optymalna w tym sensie, że przy dowolnej strategii średnia liczba pytań nie może być mniejsza. Rozważmy w tym celu strategię, dla której liczba pytań dla każdego $s_{i}$ wynosi $ℓ (s_{i})$ . Z nierówności Krafta mamy $\sum_{i = 1}^{m} \frac{1}{2^{ℓ (s_{i})}} \leq 1$ . Aplikując Złoty Lemat dla $x_{i} = p (s_{i})$ oraz $y_{i} = \frac{1}{2^{ℓ (s_{i})}}$ dostajemy

\sum_{i = 1}^{m} p (s_{i}) \cdot ℓ (s_{i}) \geq \sum_{i = 1}^{m} p (s_{i}) \cdot \log_{2} \frac{1}{p (s_{i})}

Jesteśmy gotowi do wprowadzenia jednego z głównych pojęć Teorii Informacji:

Definicja [Entropia Shannona]

Entropią przestrzeni probabilistycznej S (parametryzowaną przez

r > 1

) nazywamy funkcję

\begin{aligned} H_{r} (S) & = \sum_{s \in S} p (s) \cdot \log_{r} \frac{1}{p (s)} \\ = - \sum_{s \in S} p (s) \cdot \log_{r} p (s) \end{aligned}

Innymi słowy, $H_{r} (S)$ jest wartością oczekiwaną zmiennej losowej zdefiniowanej na S jako $s \mapsto \log_{r} \frac{1}{p (s)}$ .

Z oczywistych przyczyn w informatyce zwykle przyjmuje się $r = 2$ , dlatego będziemy często pisać po prostu H na określenie $H_{2}$ .

Claude E. Shannon (1916--2001) był amerykańskim matematykiem i inżynierem. Jego praca pt. A Mathematical Theory of Communication, opublikowana w 1948 r. zapoczątkowała teorię informacji.

Komentarz: Zauważmy, że definicja entropii łączy dwa pomysły:

wyliczenie wartości oczekiwanej pewnej funkcji złożonej z funkcją prawdopodobieństwa:

\sum_{s \in S} p (s) \cdot f \circ p (s)

wybranie jako tej funkcji $f = \log$ , co zapewne jest najistotniejsze.

Faktycznie, funkcja logarytmiczna odgrywa kluczowe znaczenie w naszej percepcji. Tak zwane prawo Webera-Fechnera w naukach kognitywnych głosi, że odbierana przez nasze zmysły percepcja (P) zmiany bodźca (S, od słowa stimuli) jest proporcjonalna nie do absolutnej, ale do względnej zmiany tego bodźca

\partial P \approx \frac{\partial S}{S}

Co po scałkowaniu daje

P \approx \log S

To zjawisko zostało zaobserwowane w percepcji ciężaru, jasności, dźwięku (zarówno jego głośności, jak i wysokości), a nawet statusu materialnego. Możemy więc myśleć o entropii jako naszej „percepcji prawdopodobieństwa”.

Jakie wartości może przyjmować entropia, w zależności od |S| i p? Z definicji wynika, że $H_{r} (S) \geq 0$ i że równość zachodzi jedynie wtedy, gdy całe prawdopodobieństwo jest skupione w jednym punkcie. Z drugiej strony, mamy

Fakt

Entropia jest zawsze ograniczona przez logarytm rozmiaru przestrzeni możliwości

H_{r} (S) \leq \log_{r} | S |

i równość ma miejsce wtedy i tylko wtedy gdy

p (s) = \frac{1}{| S |}

dla wszystkich

s \in S

.

Dowód

Korzystając ze Złotego Lematu dla

x_{i} = p (s_{i})

i

y_{i} = \frac{1}{| S |}

, otrzymujemy

\sum_{s \in S} p (s) \cdot \log_{r} \frac{1}{p (s)} \leq \sum_{s \in S} p (s) \cdot \log_{r} | S | = \log_{r} | S |

z równością dokładnie dla

p (s) = \frac{1}{| S |}

.

Teoria informacji/TI Wykład 2

Własności funkcji wypukłych

Entropia

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia