Rachunek Prawdopodobieństwa i Statystyka (UW) Wykład 6: Różnice pomiędzy wersjami
m Zastępowanie tekstu – „.</math>” na „</math>.” |
m Zastępowanie tekstu – „<math> ” na „<math>” |
||
(Nie pokazano 2 pośrednich wersji utworzonych przez tego samego użytkownika) | |||
Linia 17: | Linia 17: | ||
Jedną z najprostszych i najbardziej ogólnych metod szacowania ogonów jest nierówność Markowa | Jedną z najprostszych i najbardziej ogólnych metod szacowania ogonów jest nierówność Markowa | ||
''' Twierdzenie 6.1 (Nierówność Markowa)''' | ''' Twierdzenie 6.1 (Nierówność Markowa)''' | ||
Niech <math>X</math> będzie dyskretną zmienną losową o wartościach nieujemnych i niech <math>EX < \infty </math>. Wtedy dla dowolnego <math>c > 0</math> | Niech <math>X</math> będzie dyskretną zmienną losową o wartościach nieujemnych i niech <math>EX < \infty</math>. Wtedy dla dowolnego <math>c > 0</math> | ||
<math> P(X \ge c EX) \le \frac{1}{c}</math> | <math>P(X \ge c EX) \le \frac{1}{c}</math> | ||
''' Dowód ''' | ''' Dowód ''' | ||
Z definicji <math>EX</math> mamy | Z definicji <math>EX</math> mamy | ||
<math> EX = \sum_x x P(X=x) \ge \sum_{x \ge cEX} xP(X=x) \ge c EX \cdot P(X \ge cEX) </math>, | <math>EX = \sum_x x P(X=x) \ge \sum_{x \ge cEX} xP(X=x) \ge c EX \cdot P(X \ge cEX)</math>, | ||
z czego wynika teza. | z czego wynika teza. | ||
Linia 28: | Linia 28: | ||
''' Uwaga 6.2''' | ''' Uwaga 6.2''' | ||
Często podaje się nierówność Markowa w równoważnym sformułowaniu: | Często podaje się nierówność Markowa w równoważnym sformułowaniu: | ||
<math> P(X \ge c) \le \frac{EX}{c}</math> | <math>P(X \ge c) \le \frac{EX}{c}</math> | ||
''' Przykład 6.3 ''' | ''' Przykład 6.3 ''' | ||
Linia 60: | Linia 60: | ||
Zmienna <math>X</math> ma rozkład Binom<math>(n,p=\frac{1}{2})</math>, a zatem <math>VarX = npq=\frac{n}{4}</math>. Korzystając z alternatywnej wersji nierówności Czebyszewa dostajemy: | Zmienna <math>X</math> ma rozkład Binom<math>(n,p=\frac{1}{2})</math>, a zatem <math>VarX = npq=\frac{n}{4}</math>. Korzystając z alternatywnej wersji nierówności Czebyszewa dostajemy: | ||
<math>P(X \ge \frac{3}{4}n) = \frac{1}{2} P( |X-EX| \ge \frac{1}{4}n) \le \frac{1}{2} \frac{\frac{n}{4}}{(\frac{1}{4}n)^2} = \frac{2}{n}</math> | <math>P(X \ge \frac{3}{4}n) = \frac{1}{2} P( |X-EX| \ge \frac{1}{4}n) \le \frac{1}{2} \frac{\frac{n}{4}}{(\frac{1}{4}n)^2} = \frac{2}{n}</math> | ||
(w pierwszym kroku skorzystaliśmy z tego, że <math> P(X \ge \frac{3}{4}n) = P(X \le \frac{1}{4}n)</math> ). | (w pierwszym kroku skorzystaliśmy z tego, że <math>P(X \ge \frac{3}{4}n) = P(X \le \frac{1}{4}n)</math> ). | ||
Jest to oszacowanie dużo lepsze niż <math>P(X \ge \frac{3}{4}n) \le \frac{2}{3} </math> uzyskane z nierówności Markowa. Jak jednak wkrótce zobaczymy, jest ono wciąż bardzo daleko od prawdziwej wartości tego prawdopodobieństwa. | Jest to oszacowanie dużo lepsze niż <math>P(X \ge \frac{3}{4}n) \le \frac{2}{3}</math> uzyskane z nierówności Markowa. Jak jednak wkrótce zobaczymy, jest ono wciąż bardzo daleko od prawdziwej wartości tego prawdopodobieństwa. | ||
Zanim przejdziemy do kolejnej nierówności, udowodnimy bardzo ważny wniosek z nierówności Czebyszewa | Zanim przejdziemy do kolejnej nierówności, udowodnimy bardzo ważny wniosek z nierówności Czebyszewa | ||
Linia 80: | Linia 80: | ||
''' Twierdzenie 6.8 (Mocne Prawo Wielkich Liczb (MPWL))''' | ''' Twierdzenie 6.8 (Mocne Prawo Wielkich Liczb (MPWL))''' | ||
Przy założeniach jak w twierdzeniu 6.6 zachodzi | Przy założeniach jak w twierdzeniu 6.6 zachodzi | ||
<math> P(\lim_{n\rightarrow\infty} \bar{X_n} = \mu) = 1</math>. | <math>P(\lim_{n\rightarrow\infty} \bar{X_n} = \mu) = 1</math>. | ||
Twierdzenie to pozostawimy bez dowodu. Polecamy jednak czytelnikowi zastanowienie się nad tym dlaczego MPWL jest silniejszym twierdzeniem niż SPWL? | Twierdzenie to pozostawimy bez dowodu. Polecamy jednak czytelnikowi zastanowienie się nad tym dlaczego MPWL jest silniejszym twierdzeniem niż SPWL? | ||
Linia 88: | Linia 88: | ||
W naszych dotychczasowych rozważaniach dwukrotnie już pojawiała się tzw. intuicja częstościowa, którą można opisać następującą równością: | W naszych dotychczasowych rozważaniach dwukrotnie już pojawiała się tzw. intuicja częstościowa, którą można opisać następującą równością: | ||
<math> \lim_{n\rightarrow\infty} \frac{\sum_{i=1}^n X_i}{n} = P(A)</math>. | <math>\lim_{n\rightarrow\infty} \frac{\sum_{i=1}^n X_i}{n} = P(A)</math>. | ||
Używaliśmy tej intuicji dobierając modele probabilistyczne w wykładzie 1 i definiując wartość oczekiwaną w wykładzie 5. Dlatego należy traktować jako dobrą wiadomość to, że intuicję tę można w naszej teorii "udowodnić" aplikując MPWL do zmiennych <math>X_1,X_2,\ldots</math> (zachęcamy czytelnika do sprawdzenia tego faktu). | Używaliśmy tej intuicji dobierając modele probabilistyczne w wykładzie 1 i definiując wartość oczekiwaną w wykładzie 5. Dlatego należy traktować jako dobrą wiadomość to, że intuicję tę można w naszej teorii "udowodnić" aplikując MPWL do zmiennych <math>X_1,X_2,\ldots</math> (zachęcamy czytelnika do sprawdzenia tego faktu). | ||
==Nierówność Chernoffa== | ==Nierówność Chernoffa== | ||
Wzorując się na dowodzie nierówności Czebyszewa możemy próbować aplikować nierówność Markowa do dowolnej zmiennej <math>Y = f(X)</math>, o ile tylko funkcja <math>f</math> jest nieujemna i monotonicznie rosnąca: | Wzorując się na dowodzie nierówności Czebyszewa możemy próbować aplikować nierówność Markowa do dowolnej zmiennej <math>Y = f(X)</math>, o ile tylko funkcja <math>f</math> jest nieujemna i monotonicznie rosnąca: | ||
<math> P(X \ge c) = P(f(X) \ge f(c)) \le \frac{Ef(X)}{f(c)}</math>. | <math>P(X \ge c) = P(f(X) \ge f(c)) \le \frac{Ef(X)}{f(c)}</math>. | ||
(w pierwszym kroku korzystamy z monotoniczności <math>f</math>, a w drugim z nierówności Markowa, do której jest potrzebna nieujemność <math>f</math>). | (w pierwszym kroku korzystamy z monotoniczności <math>f</math>, a w drugim z nierówności Markowa, do której jest potrzebna nieujemność <math>f</math>). | ||
Linia 105: | Linia 105: | ||
''' Twierdzenie 6.9 (Ogólna nierówność typu Chernoffa)''' | ''' Twierdzenie 6.9 (Ogólna nierówność typu Chernoffa)''' | ||
Dla dowolnej zmiennej losowej <math>X</math> zachodzi | Dla dowolnej zmiennej losowej <math>X</math> zachodzi | ||
<math> P(X \ge c) \le \min_{t>0} \frac{E(e^{tX})}{e^{tc}}</math> | <math>P(X \ge c) \le \min_{t>0} \frac{E(e^{tX})}{e^{tc}}</math> | ||
oraz | oraz | ||
<math> P(X \le c) \le \min_{t<0} \frac{E(e^{tX})}{e^{tc}}</math>. | <math>P(X \le c) \le \min_{t<0} \frac{E(e^{tX})}{e^{tc}}</math>. | ||
''' Dowód ''' | ''' Dowód ''' | ||
Aby uzyskać pierwszą nierówność powtarzamy rozumowanie przeprowadzone na początku tego paragrafu dla funkcji <math>f(x) = e^{tx}</math> i otrzymujemy dla dowolnego <math>t > 0</math> | Aby uzyskać pierwszą nierówność powtarzamy rozumowanie przeprowadzone na początku tego paragrafu dla funkcji <math>f(x) = e^{tx}</math> i otrzymujemy dla dowolnego <math>t > 0</math> | ||
<math> P(X \ge c) = P(e^{tX} \ge e^{tc}) \le \frac{E(e^{tX})}{e^{tc}}</math>. | <math>P(X \ge c) = P(e^{tX} \ge e^{tc}) \le \frac{E(e^{tX})}{e^{tc}}</math>. | ||
Skoro nierówność ta zachodzi dla każdego <math>t > 0</math>, to zachodzi też nierówność z tezy twierdzenia. | Skoro nierówność ta zachodzi dla każdego <math>t > 0</math>, to zachodzi też nierówność z tezy twierdzenia. | ||
Drugą nierówność dostajemy w analogiczny sposób. Dla dowolnego <math> t < 0</math> zachodzi bowiem | Drugą nierówność dostajemy w analogiczny sposób. Dla dowolnego <math>t < 0</math> zachodzi bowiem | ||
<math> P(X \le c) = P(e^{tX} \ge e^{tc}) \le \frac{E(e^{tX})}{e^{tc}}</math>. | <math>P(X \le c) = P(e^{tX} \ge e^{tc}) \le \frac{E(e^{tX})}{e^{tc}}</math>. | ||
Aby uzyskać konkretne oszacowanie na <math>P(X \ge c)</math> lub <math>P(X \le c)</math>, bez nieustalonego parametru <math>t</math> i tajemniczego wyrażenia <math>E(e^{tX})</math>, musimy zdecydować jaki rozkład ma mieć zmienna <math>X</math>. Bardzo ciekawe wyniki można uzyskać w sytuacji opisanej w następującym twierdzeniu: | Aby uzyskać konkretne oszacowanie na <math>P(X \ge c)</math> lub <math>P(X \le c)</math>, bez nieustalonego parametru <math>t</math> i tajemniczego wyrażenia <math>E(e^{tX})</math>, musimy zdecydować jaki rozkład ma mieć zmienna <math>X</math>. Bardzo ciekawe wyniki można uzyskać w sytuacji opisanej w następującym twierdzeniu: | ||
Linia 122: | Linia 122: | ||
# dla dowolnego <math>\delta > 0</math> zachodzi <math>P(X \ge (1+\delta)\mu) \le \left(\frac{e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu</math></li> | # dla dowolnego <math>\delta > 0</math> zachodzi <math>P(X \ge (1+\delta)\mu) \le \left(\frac{e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu</math></li> | ||
# dla dowolnego <math>0 < \delta \le 1 </math> zachodzi <math>P(X \ge (1+\delta)\mu) \le e^{-\mu \delta^2 / 3}</math></li> | # dla dowolnego <math>0 < \delta \le 1</math> zachodzi <math>P(X \ge (1+\delta)\mu) \le e^{-\mu \delta^2 / 3}</math></li> | ||
# dla <math>\delta \ge 2e-1</math> zachodzi <math>P(X \ge (1+\delta)\mu) \le 2^{-(1+\delta)\mu}</math>, | # dla <math>\delta \ge 2e-1</math> zachodzi <math>P(X \ge (1+\delta)\mu) \le 2^{-(1+\delta)\mu}</math>, | ||
lub prościej: dla <math>c \ge 2e\mu</math> zachodzi <math>P(X \ge c) \le 2^{-c}</math>.</li> | lub prościej: dla <math>c \ge 2e\mu</math> zachodzi <math>P(X \ge c) \le 2^{-c}</math>.</li> | ||
Linia 138: | Linia 138: | ||
To oszacowanie jest nieporównywalnie lepsze od oszacowania uzyskanego za pomocą nierówności Czebyszewa. Jeśli przyjmiemy <math>n=1000</math> rzutów to dostaniemy: | To oszacowanie jest nieporównywalnie lepsze od oszacowania uzyskanego za pomocą nierówności Czebyszewa. Jeśli przyjmiemy <math>n=1000</math> rzutów to dostaniemy: | ||
# Markow: <math> \frac{2}{3}</math>, </li> | # Markow: <math>\frac{2}{3}</math>, </li> | ||
# Czebyszew: <math> \frac{2}{n} = 0.002 </math>, </li> | # Czebyszew: <math>\frac{2}{n} = 0.002</math>, </li> | ||
# Chernoff: <math> \sim 3 \cdot 10^{-24}</math>. </li> | # Chernoff: <math>\sim 3 \cdot 10^{-24}</math>. </li> | ||
Linia 147: | Linia 147: | ||
''' Dowód (nierówności Chernoffa dla prób Poissona)''' | ''' Dowód (nierówności Chernoffa dla prób Poissona)''' | ||
Wiemy, że zachodzi | Wiemy, że zachodzi | ||
<math> P(X \ge (1+\delta)\mu) \le \min_{t>0} \frac{E(e^{tX})}{e^{t(1+\delta)\mu}}</math>. | <math>P(X \ge (1+\delta)\mu) \le \min_{t>0} \frac{E(e^{tX})}{e^{t(1+\delta)\mu}}</math>. | ||
Zajmijmy się członem <math>E(e^{tX})</math>. Korzystając z przedstawienia <math>X</math> jako sumy niezależnych zmiennych 0/1-kowych dostajemy | Zajmijmy się członem <math>E(e^{tX})</math>. Korzystając z przedstawienia <math>X</math> jako sumy niezależnych zmiennych 0/1-kowych dostajemy | ||
<math>E(e^{tX}) = E(e^{\sum_{i=1}^n tX_i}) = E(\prod_{i=1}^n e^{tX_i}) = \prod_{i=1}^n E(e^{tX_i}) = \prod_{i=1}^n (q_i + p_i e^t)) = \prod_{i=1}^n (1 + p_i (e^t-1)) \le \prod_{i=1}^n e^{p_i(e^t-1)} = e^{\mu(e^t-1)}</math>. | <math>E(e^{tX}) = E(e^{\sum_{i=1}^n tX_i}) = E(\prod_{i=1}^n e^{tX_i}) = \prod_{i=1}^n E(e^{tX_i}) = \prod_{i=1}^n (q_i + p_i e^t)) = \prod_{i=1}^n (1 + p_i (e^t-1)) \le \prod_{i=1}^n e^{p_i(e^t-1)} = e^{\mu(e^t-1)}</math>. | ||
A zatem | A zatem | ||
<math> P(X \ge (1+\delta)\mu) \le \min_{t>0} \frac{e^{(e^t-1)\mu}}{e^{t(1+\delta)\mu}} = \min_{t>0} e^{(e^t-1-t(1+\delta))\mu}</math>. | <math>P(X \ge (1+\delta)\mu) \le \min_{t>0} \frac{e^{(e^t-1)\mu}}{e^{t(1+\delta)\mu}} = \min_{t>0} e^{(e^t-1-t(1+\delta))\mu}</math>. | ||
Dla jakiej wartości parametru <math>t</math> wyrażenie w wykładniku przyjmuje najmniejszą wartość? Pochodna wykładnika to <math>(e^t-(1+\delta))\mu</math>. | Dla jakiej wartości parametru <math>t</math> wyrażenie w wykładniku przyjmuje najmniejszą wartość? Pochodna wykładnika to <math>(e^t-(1+\delta))\mu</math>. | ||
Przyrównując ją do zera dostajemy <math>t = \ln(1+\delta)</math>. Podstawiając optymalną wartość <math>t</math> do naszego oszacowania dostajemy: | Przyrównując ją do zera dostajemy <math>t = \ln(1+\delta)</math>. Podstawiając optymalną wartość <math>t</math> do naszego oszacowania dostajemy: | ||
<math> P(X \ge (1+\delta)\mu) \le e^{(1+\delta-1-(1+\delta)\ln(1+\delta))\mu} = \left(\frac{e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu</math>, | <math>P(X \ge (1+\delta)\mu) \le e^{(1+\delta-1-(1+\delta)\ln(1+\delta))\mu} = \left(\frac{e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu</math>, | ||
co dowodzi pierwszej części tezy. | co dowodzi pierwszej części tezy. | ||
Aby udowodnić drugą część wystarczy pokazać, że dla dowolnego <math>\delta \in [0,1]</math> zachodzi <math> \delta - (1+\delta)\ln(1+\delta) \le -\frac{\delta^2}{3} </math>, czyli <math> \delta - (1+\delta)\ln(1+\delta) + \frac{\delta^2}{3} \le 0</math>. Niech <math>f(\delta) = \delta - (1+\delta)\ln(1+\delta) + \frac{\delta^2}{3}</math>. Wtedy mamy | Aby udowodnić drugą część wystarczy pokazać, że dla dowolnego <math>\delta \in [0,1]</math> zachodzi <math>\delta - (1+\delta)\ln(1+\delta) \le -\frac{\delta^2}{3}</math>, czyli <math>\delta - (1+\delta)\ln(1+\delta) + \frac{\delta^2}{3} \le 0</math>. Niech <math>f(\delta) = \delta - (1+\delta)\ln(1+\delta) + \frac{\delta^2}{3}</math>. Wtedy mamy | ||
<math> f'(\delta) = 1 - \frac{1+\delta}{1+\delta} - \ln(1+\delta) + \frac{2}{3}\delta = -\ln(1+\delta) + \frac{2}{3}\delta </math>, | <math>f'(\delta) = 1 - \frac{1+\delta}{1+\delta} - \ln(1+\delta) + \frac{2}{3}\delta = -\ln(1+\delta) + \frac{2}{3}\delta</math>, | ||
oraz | oraz | ||
<math> f''(\delta) = -\frac{1}{1+\delta} + \frac{2}{3}</math>. | <math>f''(\delta) = -\frac{1}{1+\delta} + \frac{2}{3}</math>. | ||
Łatwo zauważyć, że <math>f''(\delta) < 0</math> dla <math> 0 < \delta < \frac{1}{2} </math> oraz <math>f''(\delta) > 0</math> dla <math> \frac{1}{2} < \delta</math>. A zatem, na przedziale <math> (0,1]</math> druga pochodna <math>f</math> najpierw maleje, a potem rośnie. Skoro jednak <math>f'(0) = 0</math> i <math>f'(1) = -\ln(2)+\frac{2}{3} < 0</math>, to musi być <math>f'(\delta) < 0</math> na całym przedziale <math> [0,1]</math>, czyli <math>f</math> jest malejąca. A ponieważ <math>f(0) = 0</math>, to <math>f</math> jest ujemna na całym przedziale <math> (0,1] </math>, co kończy dowód drugiej nierówności. | Łatwo zauważyć, że <math>f''(\delta) < 0</math> dla <math>0 < \delta < \frac{1}{2}</math> oraz <math>f''(\delta) > 0</math> dla <math>\frac{1}{2} < \delta</math>. A zatem, na przedziale <math>(0,1]</math> druga pochodna <math>f</math> najpierw maleje, a potem rośnie. Skoro jednak <math>f'(0) = 0</math> i <math>f'(1) = -\ln(2)+\frac{2}{3} < 0</math>, to musi być <math>f'(\delta) < 0</math> na całym przedziale <math>[0,1]</math>, czyli <math>f</math> jest malejąca. A ponieważ <math>f(0) = 0</math>, to <math>f</math> jest ujemna na całym przedziale <math>(0,1]</math>, co kończy dowód drugiej nierówności. | ||
Trzecia część tezy w prosty sposób wynika z pierwszej. Jeśli <math>1+\delta >= 2e</math>, to mamy: | Trzecia część tezy w prosty sposób wynika z pierwszej. Jeśli <math>1+\delta >= 2e</math>, to mamy: | ||
<math>\left(\frac{e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu \le \left(\frac{e}{1+\delta}\right)^{(1+\delta)\mu} \le 2^{-(1+\delta)\mu} | <math>\left(\frac{e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu \le \left(\frac{e}{1+\delta}\right)^{(1+\delta)\mu} \le 2^{-(1+\delta)\mu}</math>, | ||
co kończy dowód. | co kończy dowód. | ||
Aktualna wersja na dzień 22:12, 11 wrz 2023
Szacowanie ogonów
Zdefiniowane w poprzednim wykładzie pojęcia wartości oczekiwanej umożliwia sformułowanie w języku rachunku prawdopodobieństwa następujących naturalnych pytań
- Ile średnio wypada orłów w rzutach symetryczną monetą?
- Ile średnio urn będzie pustych, jeśli wrzucimy losowo kul do urn?
- Jak długo średnio działa algorytm Quicksort dla losowej permutacji? (ew. jak duża może być ta średnia dla konkretnej permutacji jeśli element dzielący jest wybierany losowo)
- Jak głębokie jest średnio drzewo BST powstałe przez wstawienie do początkowo pustego drzewa losowej permutacji elementów ?
i wielu innych. Sprowadzają się one do znalezienia wartości oczekiwanej odpowiednio zdefiniowanej zmiennej losowej.
W poprzednim wykładzie zdefiniowaliśmy także pojęcia wariancji i odchylenia standardowego, mierzące rozmiar odchyleń zmiennej losowej od jej wartości oczekiwanej. Dla rozkładów, dla których obliczyliśmy wariancję (rozkład dwumianowy, Poissona i geometryczny) te typowe odchylenia są małe, istotnie mniejsze niż wartość oczekiwana. Powinniśmy się więc spodziewać, że z dużym prawdopodobieństwem zmienne losowe będą przyjmować wartości bliskie swoim wartościom oczekiwanym. Na przykład, w rzutach monetą nie tylko średnio wypada orłów, ale też z dużym prawdopodobieństwem liczba orłów jest niezbyt odległa od . Postaramy się teraz pokazać podstawowe metody dowodzenia tego rodzaju stwierdzeń.
Wartości zmiennej losowej odległe od jej wartości oczekiwanej nazywa się z reguły ogonami. Można więc powiedzieć, że naszym celem jest szacowanie prawdopodobieństw ogonów. Często mówi się też po prostu o szacowaniu ogonów.
Nierówność Markowa
Jedną z najprostszych i najbardziej ogólnych metod szacowania ogonów jest nierówność Markowa Twierdzenie 6.1 (Nierówność Markowa) Niech będzie dyskretną zmienną losową o wartościach nieujemnych i niech . Wtedy dla dowolnego Dowód Z definicji mamy , z czego wynika teza.
Powyższy dowód ma bardzo prostą intuicję fizyczną: Jeśli o myśleć jako o środku ciężkości masy rozłożonej zgodnie z , to na prawo od nie może być tej masy więcej niż , bo nie dałoby się jej w żaden sposób zrównoważyć. Widać, że kluczowe jest tu założenie o nieujemności zmiennej . Gdyby zmienna mogła przyjmować ujemne wartości to moglibyśmy do równoważenia użyć masy położonej daleko na lewo od .
Uwaga 6.2 Często podaje się nierówność Markowa w równoważnym sformułowaniu:
Przykład 6.3 Jakie jest prawdopodobieństwo uzyskania w rzutach co najmniej orłów? Wydaje się, że prawdopodobieństwo to powinno być bardzo małe. Zobaczmy jakie oszacowanie uzyskamy korzystając z nierówności Markowa.
Niech będą wynikami poszczególnych rzutów, przy czym wartość 1 oznacza orła, a 0 - reszkę. Wtedy jest łączną liczbą orłów. Ponieważ , to z nierówności Markowa dostajemy niezbyt imponujące oszacowanie: .
Poniższy przykład pokazuje, że nierówność Markowa nie jest zbyt mocna. Pomimo tego jest to nierówność ważna z co najmniej dwóch powodów. Po pierwsze, wymaga bardzo słabych założeń: nieujemności i istnienia wartości oczekiwanej. Czasem dysponujemy jedynie wartością oczekiwaną i nierówność Markowa jest jedynym narzędziem jakiego możemy użyć. Po drugie, jak się wkrótce przekonamy, aplikując nierówność Markowa do odpowiednio zdefiniowanej zmiennej można uzyskać nierówności dużo mocniejsze.
Nierówność Czebyszewa
Nierówności Markowa nie da się poprawić, jeżeli dysponujemy jedynie wartością oczekiwaną. Niech na przykład będzie zmienną zdefiniowaną następująco: oraz , gdzie . Wtedy i . Zauważmy jednak, że tak określona zmienna jest skoncentrowana w dwóch punktach - swoich ekstremach. W szczególności, wartości zmiennej mają bardzo duży "rozrzut". Można się spodziewać, że dla zmiennych o małym odchyleniu standardowym, a więc dużo bardziej skoncentrowanych wokół wartości oczekiwanej, powinniśmy być w stanie uzyskać dużo lepsze oszacowanie.
Twierdzenie 6.4 (Nierówność Czebyszewa) Niech będzie dyskretną zmienną losową taką, że oraz i niech będzie odchyleniem standardowym . Wtedy dla dowolnego . Dowód Niech . Wtedy korzystając z nierówności Markowa dostajemy .
Uwaga 6.5 Tak jak w przypadku nierówności Markowa, często używa się alternatywnego sformułowania nierówności Czebyszewa: .
Przykład 6.3 (c.d.) Zobaczmy jakie oszacowanie można uzyskać za pomocą nierówności Czebyszewa.
Zmienna ma rozkład Binom, a zatem . Korzystając z alternatywnej wersji nierówności Czebyszewa dostajemy: (w pierwszym kroku skorzystaliśmy z tego, że ).
Jest to oszacowanie dużo lepsze niż uzyskane z nierówności Markowa. Jak jednak wkrótce zobaczymy, jest ono wciąż bardzo daleko od prawdziwej wartości tego prawdopodobieństwa.
Zanim przejdziemy do kolejnej nierówności, udowodnimy bardzo ważny wniosek z nierówności Czebyszewa Twierdzenie 6.6 (Słabe Prawo Wielkich Liczb (SPWL)) Niech zmienne losowe będą niezależne o tym samym rozkładzie i niech dla . Niech ponadto i . Wtedy dla każdego .
Dowód Z liniowości wartości oczekiwanej dla wszystkich mamy . Ponadto z niezależności wynika, że . A zatem z nierówności Czebyszewa dostajemy , co kończy dowód.
Uwaga 6.7 Założenie, że zmienne mają skończoną wariancję nie jest konieczne, ale bez niego nie możemy użyć nierówności Czebyszewa i dowód istotnie się komplikuje.
Prawdziwe jest również następujące twierdzenie: Twierdzenie 6.8 (Mocne Prawo Wielkich Liczb (MPWL)) Przy założeniach jak w twierdzeniu 6.6 zachodzi .
Twierdzenie to pozostawimy bez dowodu. Polecamy jednak czytelnikowi zastanowienie się nad tym dlaczego MPWL jest silniejszym twierdzeniem niż SPWL?
Intuicja częstościowa
Rozważmy nieskończony ciąg niezależnych powtórzeń tego samego doświadczenia modelowanego przestrzenią . Niech i niech zdarzenia odpowiadają zajściu w doświadczeniach . Niech ponadto zmienne będą zdefiniowane następująco: , t.j. zmienna jest równa jeśli zaszło i wpp.
W naszych dotychczasowych rozważaniach dwukrotnie już pojawiała się tzw. intuicja częstościowa, którą można opisać następującą równością: . Używaliśmy tej intuicji dobierając modele probabilistyczne w wykładzie 1 i definiując wartość oczekiwaną w wykładzie 5. Dlatego należy traktować jako dobrą wiadomość to, że intuicję tę można w naszej teorii "udowodnić" aplikując MPWL do zmiennych (zachęcamy czytelnika do sprawdzenia tego faktu).
Nierówność Chernoffa
Wzorując się na dowodzie nierówności Czebyszewa możemy próbować aplikować nierówność Markowa do dowolnej zmiennej , o ile tylko funkcja jest nieujemna i monotonicznie rosnąca: . (w pierwszym kroku korzystamy z monotoniczności , a w drugim z nierówności Markowa, do której jest potrzebna nieujemność ).
Oczywiście takie postępowanie ma sens jedynie jeśli:
- jesteśmy w stanie obliczyć bądź oszacować , oraz
- uzyskane w ten sposób oszacowanie jest lepsze niż znane nam nierówności.
Okazuje się, że oba te warunki są spełnione, jeśli przyjmiemy , gdzie jest parametrem, który ustalimy później. W szczególności, podstawą naszych dalszych rozważań będzie następujące twierdzenie:
Twierdzenie 6.9 (Ogólna nierówność typu Chernoffa)
Dla dowolnej zmiennej losowej zachodzi
oraz
.
Dowód Aby uzyskać pierwszą nierówność powtarzamy rozumowanie przeprowadzone na początku tego paragrafu dla funkcji i otrzymujemy dla dowolnego . Skoro nierówność ta zachodzi dla każdego , to zachodzi też nierówność z tezy twierdzenia.
Drugą nierówność dostajemy w analogiczny sposób. Dla dowolnego zachodzi bowiem .
Aby uzyskać konkretne oszacowanie na lub , bez nieustalonego parametru i tajemniczego wyrażenia , musimy zdecydować jaki rozkład ma mieć zmienna . Bardzo ciekawe wyniki można uzyskać w sytuacji opisanej w następującym twierdzeniu: Twierdzenie 6.10 (nierówność Chernoffa dla prób Poissona) Niech niezależne zmienne o rozkładzie 0/1-kowym, przy czym . Niech ponadto i niech . Wtedy:
- dla dowolnego zachodzi
- dla dowolnego zachodzi
- dla zachodzi ,
lub prościej: dla
zachodzi
. Uwaga 6.11 Ciąg zmiennych
jak w twierdzeniu powyżej nazywa się często próbami Poissona (nie mylić z rozkładem Poissona!). Jest to uogólnienie prób Bernoulliego na przypadek niekoniecznie równych prawdopodobieństw sukcesu. Uwaga 6.12 Może dziwić to, że w tezie twierdzenia sformułowane są aż trzy nierówności. Przyczyna jest bardzo prosta. Formułując konkretną nierówność dokonujemy kompromisu między jej siłą, a prostotą zapisu. Nierówność pierwsza jest najmocniejsza i zachodzi dla wszystkich wartości
, jest jednak najbardziej skomplikowana. Nierówności druga i trzecia są słabsze i zachodzą tylko dla pewnych przedziałow wartości
, są jednak zdecydowanie prostsze. Przykład 6.3 (c.d.) Zanim przejdziemy do dość technicznego dowodu, sprawdźmy jakie oszacowanie możemy uzyskać korzystając z nierówności Chernoffa dla przykładu z rzutami monetą.
. To oszacowanie jest nieporównywalnie lepsze od oszacowania uzyskanego za pomocą nierówności Czebyszewa. Jeśli przyjmiemy
rzutów to dostaniemy:
- Markow: ,
- Czebyszew: ,
- Chernoff: .
Zachęceni tak spektakularnym sukcesem przystąpmy do dowodu. Dowód (nierówności Chernoffa dla prób Poissona) Wiemy, że zachodzi
. Zajmijmy się członem
. Korzystając z przedstawienia
jako sumy niezależnych zmiennych 0/1-kowych dostajemy
. A zatem
. Dla jakiej wartości parametru
wyrażenie w wykładniku przyjmuje najmniejszą wartość? Pochodna wykładnika to
. Przyrównując ją do zera dostajemy
. Podstawiając optymalną wartość
do naszego oszacowania dostajemy:
, co dowodzi pierwszej części tezy. Aby udowodnić drugą część wystarczy pokazać, że dla dowolnego
zachodzi
, czyli
. Niech
. Wtedy mamy
, oraz
. Łatwo zauważyć, że
dla
oraz
dla
. A zatem, na przedziale
druga pochodna
najpierw maleje, a potem rośnie. Skoro jednak
i
, to musi być
na całym przedziale
, czyli
jest malejąca. A ponieważ
, to
jest ujemna na całym przedziale
, co kończy dowód drugiej nierówności. Trzecia część tezy w prosty sposób wynika z pierwszej. Jeśli
, to mamy:
, co kończy dowód. Zachodzą również nierówności dla "dolnych ogonów" Twierdzenie 6.13 (nierówność Chernoffa dla prób Poissona - dolne ogony) Niech
niezależne zmienne o rozkładzie 0/1-kowym, przy czym
. Niech ponadto
i niech
. Wtedy dla dowolnego
zachodzi
- (tak, tutaj jest 2, a nie 3).
Dowód, analogiczny do przed chwilą przeprowadzonego, pomijamy. Uwaga 6.14 Nieprzypadkowo w nierównościach Chernoffa korzysta się z funkcji
. Wyrażenie
, które zmuszeni byliśmy szacować, jest w teorii prawdopodobieństwa dobrze znane i zbadane. Nazywa się je z reguły funkcją tworzącą momentów
i oznacza
. Funkcja
przypomina trochę znaną nam funkcję tworzącą prawdopodobieństwa, w szczególności dla
o wartościach naturalnych zachodzi:
. Funkcji tworzących momentów można jednak używać dla dowolnych zmiennych, niekoniecznie dyskretnych. Z ciekawszych ich własności warto wspomnieć następujące rozwinięcie w szereg potęgowy
, które jest możliwe przy pewnych założeniach dotyczących
. Okazuje się, że
jest wykładniczą funkcją tworzącą ciągu momentów
, i stąd jej nazwa.
Uwagi końcowe
Z punktu widzenia zastosowań w informatyce, materiał omówiony w ramach tego rozdziału jest szczególnie ważny. Wiele naturalnych i fundamentalnych pytań pojawiających się w zastosowaniach sprowadza się bowiem do szacowania ogonów. Z tego względu umiejętność sprawnego posługiwania się nierównościami probabilistycznymi jest bardzo przydatna. Należy jednak pamiętać, że najmocniejsza nawet ogólna nierówność nie zastąpi solidnej analizy i dobrego zrozumienia konkretnego problemu. Nierzadko najlepsze oszacowanie prawdopodobieństwa ogonów uzyskuje się wprost, bez użycia nierówności. Przykład takiej sytuacji zobaczymy na ćwiczeniach.