Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych

From Studia Informatyczne

Omówimy podstawowe parametry zmiennych losowych: nadzieję matematyczną, wariancję, odchylenie standardowe i kwantyle. Przytoczymy słynną nierówność Czebyszewa służącą do oceny wielkości odchylenia zmiennej losowej od jej średniej. Wypowiemy i zinterpretujemy tak zwane prawo wielkich liczb.

Spis treści

Nadzieja matematyczna

Często zdarza się, iż albo nie jesteśmy w stanie określić dokładnie rozkładu interesującej nas zmiennej losowej, albo nie jest to w ogóle potrzebne. W takich sytuacjach częściową informację o zachowaniu się zmiennej losowej można odczytać z pewnych parametrów liczbowych rozkładu tej zmiennej. Omówimy poniżej tylko najważniejsze parametry charakteryzujące rozkład zmiennej losowej: wartość oczekiwaną, wariancję, odchylenie standardowe oraz kwantyle. Podkreślamy jednak, że są używane (zwłaszcza w statystyce) także inne charakterystyki liczbowe rozkładów zmiennych losowych.

Nadzieja matematyczna, zwana również wartością średnią lub wartością oczekiwaną, jest podstawowym parametrem każdego rozkładu. Z pojęciem tym spotykamy się w wielu codziennych sytuacjach, chociaż nie zawsze zdajemy sobie z tego sprawę. Zacznijmy od prostego, choć niezbyt naturalnego, przykładu.

Przykład 7.1

Pan Kowalski proponuje następującą grę: za prawo jednego rzutu kostką symetryczną Kowalski pobiera opłatę w wysokości 4 zł, natomiast wypłaca po każdym rzucie kwotę a zł, gdzie a jest liczbą uzyskanych oczek, o ile liczba ta jest większa niż 1; w przypadku wypadnięcia "jedynki" gracz ma dodatkowy bezpłatny rzut, po którym otrzymuje kwotę równą (w złotych) liczbie uzyskanych oczek. Czy gra jest opłacalna dla Kowalskiego?

Zauważmy od razu, że jeżeli gra kończy się po jednym lub nawet po kilku rzutach, to odpowiedź może być rzeczywiście różna. Na przykład, w pięciu rzutach mogą wypaść następujące wyniki:


\mbox{ ,,5", ,,4", ,,5",  ,,1" i w powtórce ,,6", ,,6".}


Wtedy Kowalski pobiera 5 \cdot 4= 20 zł, natomiast musi wypłacić 26 zł. Jednak mogą równie dobrze wypaść następujące wyniki:


\mbox{,,2", ,,2", ,,4", ,,3", ,,6",}


co oznacza dla Kowalskiego zarobek 3 zł (= 20- 17 zł).

Z kolei, gdy gra będzie prowadzona dość długo - powiedzmy, że Kowalski znajdzie kandydatów na 360 prób - wtedy sytuacja będzie wyglądać inaczej, gdyż przy wielokrotnym powtarzaniu gry można się spodziewać pewnych prawidłowości. Kowalski zakłada mianowicie, że przy 360 rzutach każda ścianka wypadnie około 60 razy, będzie więc musiał zapłacić za około 60 "dwójek", 60 "trójek" i tak dalej, a także za dodatkowe rzuty (po wypadnięciu "jedynki"), czyli za około 10 "jedynek", 10 "dwójek", czy wreszcie 10 "szóstek". Tak więc w sumie Kowalski zapłaci około:


10 \cdot 1 + 70 \cdot 2+ \dots + 70 \cdot 6 = 10 + 70 \cdot 20  = 1410 \mbox{ (zł),}


natomiast zbierze opłaty w wysokości:


360 \cdot 4 \textrm{ zł }= 1440 \textrm{ zł.}


Ma więc szansę niewielkiego zarobku, czyli po prostu gra jest opłacalna (jeżeli nie liczymy kosztów własnych).

Można się teraz pytać, czy gra jest opłacalna przy innej liczbie prób, na przykład 200 lub 1000. Zamiast za każdym razem powtarzać powyższy rachunek, można policzyć jeden raz wielkość m:


m = \frac{1}{36} \cdot 1 + \frac{7}{36} \cdot  2  + \frac{7}{36} \cdot 3 + \dots + \frac{7}{36} \cdot 6 = \frac{47}{12} = 3.91(6),


a następnie pomnożyć ją przez zakładaną liczbę prób. Mamy wówczas, na przykład:


360 m = 1410,


czego należało się oczywiście spodziewać, gdyż ostatnia równość powstała z poprzedniej przez podzielenie obu stron przez 360.

Zauważmy teraz, że w powyższym zadaniu możemy wyróżnić w sposób naturalny zmienną losową X, zdefiniowaną jako wypłata po każdej grze. Przyjmuje ona sześć wartości:


x_1 = 1,\ \ \ x_2 = 2,\ \  \  \dots,  \  \  \  x_6  =  6


z prawdopodobieństwami:


p_1 = \frac{1}{36}, \ \ \ p_2 = \frac{7}{36}, \ \ \ \dots, \ \ \ p_6 = \frac{7}{36}.


Zauważmy, że średnia wypłata m jest wtedy równa:


m =p_1x_1 + p_2x_2 + p_3x_3 + p_4x_4+ p_5x_5 + p_6x_6.


Wielkość ta nazywana jest właśnie wartością średnią, wartością oczekiwaną, lub nadzieją matematyczną zmiennej losowej X. Mówiąc językiem potocznym, jest ono równa sumie wszystkich możliwych wartości x_i zmiennej X, wymnożonych przez odpowiednie wagi p_i.

Nie jest zatem niespodzianką następująca definicja:

Definicja 7.2 [nadzieja matematyczna]

1. Niech (\Omega,\Sigma,P) będzie przestrzenią probabilistyczną, zaś X\colon \Omega \longrightarrow {\Bbb R} - zmienną losową o rozkładzie dyskretnym:


P(X = x_i) = p_i,\;\; i = 1, \dots, N,\; N \le \infty.


Nadzieją matematyczną (wartością oczekiwaną, wartością średnią) nazywamy liczbę:


m = {\Bbb E}(X) = {\Bbb E} X  = \sum_{i=1}^Nx_ip_i.


2. Niech (\Omega,\Sigma,P) będzie przestrzenią probabilistyczną, zaś X\colon \Omega \longrightarrow {\Bbb R} - zmienną losową o rozkładzie ciągłym z gęstością f. Nadzieją matematyczną (wartością oczekiwaną, wartością średnią) nazywamy liczbę:


m = {\Bbb E} (X) = {\Bbb E} X  = \int_{\infty}^\infty x f(x)\,dx.


Uwaga 7.3
W przypadku dyskretnym, gdy zmienna losowa X przyjmuje nieskończenie wiele wartości, szereg określający wartość oczekiwaną może być zbieżny lub nie. W tym drugim przypadku wartość oczekiwana nie istnieje.
Uwaga 7.4

Definicja wartości oczekiwanej w przypadku ciągłym może wydać się niezbyt oczywista. Zauważmy jednak, że jest ona naturalną konsekwencją definicji całki oznaczonej. Mianowicie, całkę oznaczoną z danej funkcji ciągłej h po przedziale o końcach a i b można dowolnie przybliżać sumą (patrz wykład z Analizy matematycznej):


\int_a^b h(y) \,dy \approx \sum_{i=1}^n h(x_i) (y_{i} - y_{i-1}),


gdzie y_i są punktami podziału przedziału (a,b), to znaczy a = y_0 < \dots < y_n = b, zaś liczby x_i \in [y_{i-1},y_i] są dowolne. Weźmy jako funkcję h iloczyn: h(y) = y f(y). Wtedy:


\int_a^byf(y)\, dy \approx \sum_{i=1}^n x_i f(x_i) (y_{i} - y_{i-1}) =  \sum_{i=1}^n x_i p_i,


gdzie p_i =  f(x_i) (y_{i} - y_{i-1}). Powyższy wzór można interpretować następująco: zmienną losową o rozkładzie ciągłym o gęstości f można przybliżać zmiennymi losowymi o rozkładach dyskretnych - wartość oczekiwana X będzie więc przybliżana wartościami

oczekiwanymi tych dyskretnych zmiennych losowych.

Przykład 7.5

Obliczymy wartość oczekiwaną zmiennej losowej o rozkładzie dwupunktowym: P(X=0) = 1-p, P(X = 1) = p.

Otrzymujemy:


{\Bbb E} (X) = 0(1-p) + 1 p = p.


Przykład 7.6

Obliczymy wartość oczekiwaną zmiennej losowej o rozkładzie jednostajnym na przedziale o końcach a i b.

Otrzymujemy:


{\Bbb E} (X) = \int_{-\infty}^\infty xf(x)\,dx = \int_{a}^b x\frac{1}{b-a}\,dx = \frac{1}{b-a}\int_{a}^b x\,dx = \frac{a+b}{2}.


Wynik ten wydaje się intuicyjnie jasny: wartość oczekiwana jest środkiem przedziału, na którym skupiony jest rozkład jednostajny.

Wariancja i odchylenie standardowe

Innym bardzo ważnym parametrem rozkładu zmiennej losowej jest wariancja i ściśle z nią związane odchylenie standardowe.

Definicja 7.7 [wariancja i odchylenie standardowe]

Niech (\Omega,\Sigma,P) będzie przestrzenią probabilistyczną, zaś X \colon\Omega \longrightarrow {\Bbb R} - zmienną losową, posiadającą skończoną wartość oczekiwaną m = {\Bbb E} (X). Wariancją zmiennej losowej X nazywamy liczbę:


\sigma^2 = \mathbb D^2(X) = {\Bbb D}^2 X  = {\Bbb E} ((X-m)^2),


natomiast liczbę:


\sigma = \sqrt{\mathbb D^2(X)} = \sqrt{\mathbb D^2 X}


nazywamy odchyleniem standardowym zmiennej X.

Interpretacja wariancji jest następująca. Zmienna losowa X - m jest odchyleniem zmiennej losowej X od swojej wartości oczekiwanej, zaś jeżeli nie interesuje nas znak tego odchylenia, tylko jego wielkość bezwzględna, możemy rozważać zmienną losową |X-m|. Tak więc liczba {\Bbb E} (|X - m|) jest oczekiwanym odchyleniem - wielkość ta jest nazywana średnim błędem - jednak z pewnych względów jest ona niewygodna w obliczeniach. Dlatego, zamiast średniego błędu, rozważa się wielkość, która jest wygodniejsza w obliczeniach, a ma podobne własności co średni błąd - jej duża wartość wskazuje na duży rozrzut zmiennej X. Taką wielkością jest właśnie wariancja, a więc także odchylenie standardowe. Co więcej, w wielu typowych sytuacjach, odchylenie standardowe nie różni się wiele od średniego błędu. Zauważmy, że w skrajnym przypadku, gdy zmienna losowa jest stałą, powiedzmy X = a, czyli gdy P(X=a)= 1, to {\Bbb E} (X) = a, a więc oczekiwany błąd, wariancja i odchylenie standardowe są równe zeru.

Uwaga 7.8

W przypadku zmiennej losowej o rozkładzie dyskretnym wariancję obliczamy ze wzoru:


{\Bbb D}^2 (X) = \sum_{i=1}^N(x_i-m)^2p_i.


Uwaga 7.9

W przypadku zmiennej losowej o rozkładzie ciągłym wariancję obliczamy ze wzoru:


{\Bbb D}^2 (X) = \int_{-\infty}^\infty(x-m)^2f(x)\,dx.


Przykład 7.10

Obliczymy wariancję zmiennej losowej o rozkładzie dwupunktowym: P(X=0) = 1-p, P(X = 1) = p.

Wiemy już, {\Bbb E}(X) = p. Mamy więc:


{\Bbb D}^2 (X) = (0 - p)^2(1-p) + (1 -p)^2 p = p(1-p).

Przykład 7.11

Obliczymy wariancję zmiennej losowej o rozkładzie jednostajnym na przedziale o końcach a i b.

Wiemy już, że m = {\Bbb E}(X) = \frac{a+b}{2}. Mamy więc:


{\Bbb D}^2 (X) = \int_{-\infty}^\infty (x-m)^2f(x)\,dx = \frac{1}{b-a}\int_{a}^b \left(x - \frac{a+b}{2}\right)^2dx = \frac{(b-a)^2}{12}.


Przykład 7.12 [kontynuacja przykładu 7.1]

Wariancja zmiennej losowej X wynosi:


{\Bbb D}^2 (X)  \approx 2.188,


zaś odchylenie standardowe:


\sigma\approx 1.479.


Wartość oczekiwana, wariancja i odchylenie standardowe mają pewne własności, które znakomicie ułatwiają niektóre obliczenia, a co więcej, pokazują ich ważne interpretacje.

Twierdzenie 7.13

Niech X oraz Y będą zmiennymi losowymi, określonymi na tej samej przestrzeni probabilistycznej \Omega. Załóżmy, że istnieją nadzieje matematyczne {\Bbb E} (X) i {\Bbb E} (Y). Wtedy:

1. jeżeli X = const = c, to {\Bbb E} (X) = c,

2. jeżeli X \ge 0, to {\Bbb E} (X) \ge 0,

3. {\Bbb E} (\alpha X) = \alpha {\Bbb E} (X) dla każdej liczby \alpha\in {\Bbb R},

4. {\Bbb E} (X + Y) = {\Bbb E} (X) + {\Bbb E} (Y),

5. {\Bbb E} (X \cdot Y)^2 \le {\Bbb E}(X^2)  \cdot  {\Bbb E}(Y^2),

6. {\Bbb D}^2 (X) = {\Bbb E} (X^2) - {\Bbb E} (X)^2,

7. {\Bbb D}^2 (\alpha X) = \alpha^2 {\Bbb D}^2 (X) dla każdej liczby \alpha\in {\Bbb R},

8. X = const = c\Longleftrightarrow{\Bbb D}^2 (X) = 0,

Jako szczególny wniosek otrzymamy następujące ważne twierdzenie:

Twierdzenie 7.14

Niech X_1, X_2,  \dots,  X_n będą zmiennymi losowymi o takiej samej nadziei matematycznej m. Oznaczmy:


S_n = X_1 + X_2 + \dots + X_n.


Wtedy:

  1. {\Bbb E} (S_n)  =  nm,
  2. \displaystyle {\Bbb E} \left(\frac{S_n}{n}\right) = m.

Gdy zmienne losowe są niezależne, wartości oczekiwane i wariancje posiadają pewne dodatkowe własności.

Twierdzenie 7.15

Niech X i Y będą dwiema zmiennymi losowymi niezależnymi, określonymi na przestrzeni probabilistycznej (\Omega,\Sigma,P).

1. Jeżeli E(|X|) < \infty i E(|Y|) < \infty, to istnieje nadzieja matematyczna iloczynu zmiennych losowych X \cdot Y oraz:


{\Bbb E} (X \cdot Y) = {\Bbb E} (X) \cdot {\Bbb E} (Y).


2. Jeżeli {\Bbb D}^2 (X) <\infty i {\Bbb D}^2 (Y) < \infty, to:


{\Bbb D}^2 (X + Y) = {\Bbb D}^2 (X) + {\Bbb D}^2 (Y).


Zauważmy, że natychmiastowym wnioskiem z powyższego twierdzenia jest następujące:

Twierdzenie 7.16

Niech X_1, X_2, \dots, X_n będą niezależnymi zmiennymi losowymi o tym samym rozkładzie. Oznaczmy jak poprzednio:


S_n = X_1 + X_2 + \dots + X_n.


Wówczas jeżeli \sigma^2={\Bbb D}^2 (X_i) <\infty, to:

  1. {\Bbb D}^2 (S_n) = n\sigma^2,\sigma(S_n) = \sigma \sqrt{n},
  2. \displaystyle {\Bbb D}^2 \left(\frac{S_n}{n}\right) = \frac{\sigma^2}{n},
  3. \displaystyle\sigma\left(\frac{S_n}{n}\right) = \frac{\sigma}{\sqrt{n}}.
Można zatem powiedzieć, że odchylenie standardowe sumy niezależnych składników wzrasta tak jak \sqrt{n}, zaś odchylenie średniej arytmetycznej tychże składników maleje tak jak \frac{1}{\sqrt{n}}.

Kwantyle

Dla każdej dystrybuanty F, a więc też dla każdej zmiennej losowej, określa się tak zwany kwantyl rzędu p, gdzie 0 < p < 1. Jest to liczba:


q_p = \min \{ x : F(x) \ge p \}.


W przypadku gdy dystrybuanta jest funkcją odwracalną, określenie kwantyla znacznie się upraszcza:


q_p = F^{-1}(p).


Wówczas kwantyl ma prostą interpretację w języku zmiennych losowych. Mianowicie:


P(X < q_p) = P(X \le q_p) = F(q_p) = p,


P(X > q_p) = 1 - P(X \le q_p) = 1 - F(q_p) = 1- p.


Jednak nawet w tym przypadku obliczanie kwantyli może być trudne, gdyż nie znamy jawnych wzorów na funkcje odwrotne [AM] do dystrybuant wielu ważnych rozkładów. Niemniej, dla szeregu podstawowych rozkładów opracowano tablice, z których można odczytać kwantyle q_p dla często używanych wartości p. Pamiętajmy jednak, iż dużo prościej jest skorzystać z dowolnego programu komputerowego z modułem statystycznym - w szczególności za pomocą programu Excel można uzyskać kwantyle rozkładu normalnego oraz rozkładów używanych do wnioskowań statystycznych.

W przypadku rozkładu dyskretnego, wyznaczenie kwantyla rzędu p trzeba bezpośrednio oprzeć na jego definicji. Załóżmy, dla ustalenia uwagi, że zmienna losowa o rozkładzie dyskretnym przyjmuje następujące wartości (ustawione w ciąg rosnący):


x_1 < x_2 < x_3 < \ldots <x_n, \;\; \textrm{gdzie}\;\; n\leq \infty.


Wtedy q_p jest tym jedynym elementem x_{i_0}, dla którego zachodzi warunek:


F\left(x_{i_0-1}\right) < p \le F\left(x_{i_0}\right),      (7.1)


przy czym przyjmujemy, że F\left(x_{0}\right) = 0.

Kwantyl rzędu \frac{1}{2} nazywa się medianą.

Przykład 7.17

Obliczymy kwantyl rzędu 0.95 rozkładu jednostajnego skupionego na przedziale (-1,1).

Na podstawie przykładu 6.15, dystrybuanta tego rozkładu wyraża się wzorem:


F(x) =\left\{ \begin{array} {rl} 0, &  x < -1\\[0.2cm] \displaystyle \frac{x+1}{2}, & -1\le x < 1\\[0.3cm] 1, & 1 \le x. \end{array}  \right.


Zatem dla 0 < p < 1 mamy:


\frac{x}{2} + \frac{1}{2} = p


i stąd x = 2p -1. Czyli q_p = 2p -1, a więc:


q_{0.95} = 0.9.


Przykład 7.18

Obliczymy medianę rozkładu zmiennej losowej T, przyjmującej wartości 1,2,3, \dots z prawdopodobieństwami p_1, p_2,p_3, \dots, określonymi jako:


p_i = P(T = i) = \left( \frac{5}{6}\right)^{i-1}\frac{1}{6}.


Na podstawie ćwiczenia 4.2, T można interpretować jako liczbę rzutów symetryczną kostką, do momentu uzyskania "szóstki".

Będziemy tak długo obliczać wartość dystrybuanty w kolejnych punktach, aż znajdziemy punkt określony równaniem 7.1. Zauważmy, że następna wartość dystrybuanty zależy od wartości poprzedniej:


F(i) = F(i-1) + p_i.


Tak więc otrzymujemy kolejno:


0.16667, \; 0.30556,\; 0.42130,\; 0.51775,


czyli mediana wynosi 4. Inaczej mówiąc, prawdopodobieństwo tego, że "szóstka" pojawi się po raz pierwszy nie później niż w czwartym rzucie, jest nie mniejsze niż \frac{1}{2}.

Nierówność Czebyszewa

Pafnutij Lwowicz Czebyszew (1821-1894)Zobacz biografię
Enlarge
Pafnutij Lwowicz Czebyszew (1821-1894)
Zobacz biografię
Nadzieja matematyczna, średni błąd i wariancja są przykładami tak zwanych momentów.

Definicja 7.19 [momenty]

Niech (\Omega,\Sigma,P) będzie przestrzenią probabilistyczną, X\colon \Omega \longrightarrow{\Bbb R} - zmienną losową, zaś k \ge 1 - liczbą naturalną.

Momentem rzędu k nazywamy liczbę:


m_k = {\Bbb E}(X^k),


zaś momentem centralnym rzędu k - liczbę:


c_k = {\Bbb E}\left( (X - m_1)^k\right).


Tak więc nadzieja matematyczna jest momentem rzędu 1, a wariancja - momentem centralnym rzędu 2.

Zrozumienie roli momentów, a w szczególności wariancji, wyjaśnia częściowo tak zwana nierówność Czebyszewa. Wynika z niej, mówiąc niezbyt precyzyjnie, że jeżeli wariancja jest mała, to większość wartości zmiennej losowej jest skupiona w okolicy jej wartości średniej.

Twierdzenie 7.20 [Nierówność Czebyszewa]

Niech (\Omega,\Sigma,P) będzie przestrzenią probabilistyczną, zaś X \colon\Omega \longrightarrow {\Bbb R} - zmienną losową o skończonej nadziei matematycznej m = m_1 = {\Bbb E}(X). Niech k>1 będzie liczbą naturalną oraz niech c_k będzie momentem centralnym rzędu k. Wtedy:

1. dla każdego ustalonego \varepsilon > 0


P(|X - m| \ge \varepsilon ) \le \frac{c_k}{\varepsilon^k},


2. dla każdego ustalonego \varepsilon > 0


P(|X - m|\ge \varepsilon) \le \frac{{\Bbb D}^2 (X)}{\varepsilon^2},      (7.2)


3. dla dowolnej liczby c >0


P(|X - m| \ge c\,\sigma) \le \frac{1}{c^2}.


Łatwo zauważyć, że powyższe dwie nierówności mówią w zasadzie dokładnie to samo. Z kolei, jeżeli w trzeciej z nich weźmiemy stała c = 3, to otrzymamy tak zwaną regułę 3-\sigma.

Twierdzenie 7.21 [Reguła 3-\sigma]

Przy poprzednich założeniach:


P(|X - m| \ge 3\,\sigma) \le \frac{1}{9}.


lub w sposób równoważny:


P(|X - m| < 3\,\sigma) \ge \frac{8}{9}.


Oznacza to, że co najmniej \frac{8}{9} wartości zmiennej losowej skupiona jest w przedziale (m - 3 \sigma, m+ 3\sigma).

Prawa wielkich liczb



Zaczniemy od opisu pewnej sytuacji. Przyjrzyjmy się następującym trzem informacjom:

(1) w powiecie nowosądeckim urodziło się w poprzednim dniu 7 chłopców i 3 dziewczynki,

(2) w województwie małopolskim urodziło się w poprzednim dniu 72 chłopców i 31 dziewczynek,

(3) poprzedniego dnia w całym kraju urodziło się 697 chłopców i 297 dziewczynek.

Podczas, gdy pierwsza z powyższych informacji wydaje się zupełnie wiarygodna, to druga może wydać się dziwna, natomiast trzecia zupełnie nieprawdopodobna. Zastanówmy się, dlaczego mamy takie odczucia, skoro we wszystkich trzech przypadkach proporcje między liczbami chłopców i dziewczynek są, paradoksalnie, niemal takie same? Odpowiedzi na to pytanie można szukać wskazując różne przyczyny, z których chyba najważniejszą jest doświadczenie życiowe, które mówi, że jeżeli prawdopodobieństwo zajścia pewnego zdarzenia wynosi około \frac{1}{2} - takie jest prawdopodobieństwo urodzenia chłopca - to należy się spodziewać, że zdarzenie to będzie miało miejsce w około połowie przypadków wszystkich obserwowanych zdarzeń, ale pod warunkiem, że tych obserwowanych zdarzeń będzie dużo.

Powyższą intuicję potwierdzają tak zwane prawa wielkich liczb. Poniżej przytoczymy tak zwane mocne prawo wielkich liczb oraz pewną jego bardzo ważną konsekwencje.

Twierdzenie 7.22 [Mocne prawo wielkich liczb]

Niech (\Omega,\Sigma,P) będzie przestrzenią probabilistyczną, zaś X_1,X_2,X_3, \dots - ciągiem niezależnych zmiennych losowych o tym samym rozkładzie, określonych na przestrzeni \Omega. Zakładamy, że wspólna nadzieja matematyczna m tych zmiennych skończona. Oznaczmy:


S_n = X_1 + \dots + X_n.


Wtedy:


\frac{S_n}{n}    \stackrel{1}{\longrightarrow}    m, \mbox{ gdy } n \longrightarrow \infty.


Symbol \stackrel{1}{\longrightarrow} oznacza tak zwaną zbieżność prawie wszędzie, co rozumiemy w sposób następujący: zdarzenie polegające na tym, że ciąg \frac{S_n}{n} nie jest zbieżny do m ma prawdopodobieństwo równe zeru. Bardziej formalnie można więc tezę powyższego twierdzenia zapisać tak:


P\left(\left\{\omega \in \Omega: \lim_{n\longrightarrow \infty}\frac{S_n(\omega)}{n} = m\right\}\right) = 1.


Z twierdzenia 7.22 wynika natychmiast następujący, bardzo ważny wniosek:

Twierdzenie 7.23

Niech X_1, X_2, X_3, \dots będzie nieskończonym ciągiem niezależnych zmiennych losowych o takim samym rozkładzie dwupunktowym (takie zmienne losowe nazywa się próbami Bernoulliego) oraz niech


P(X_i = 1) = p\;\; \textrm{dla każdego} \;\; i=1,2,3\ldots.


Oznaczmy, jak zwykle:


S_n = X_1 + \dots + X_n.


Wtedy:


\frac{S_n}{n}    \stackrel{1}{\longrightarrow}    p, \mbox{ gdy } n \longrightarrow \infty.


Wróćmy do dyskusji o noworodkach. Urodzenie noworodka możemy traktować jako próbę Bernoulliego o prawdopodobieństwie sukcesu p = \frac{1}{2} (możemy jako sukces uznać urodzenie się dziewczynki). Tak więc S_n oznacza liczbę dziewczynek wśród n noworodków. Twierdzenie powyższe mówi, że w przybliżeniu:


\frac{S_n}{n} = \frac{1}{2}\;\;\textrm{gdy} \; n\; \textrm{jest duże}.


Tymczasem podane informacje mówią, że średnia \frac{S_n}{n} wynosi kolejno:


\frac{7}{10},\;\;  \frac{72}{103}\;\; \textrm{i}\;\; \frac{697}{994}.


Nasze twierdzenie orzeka, że w drugim, a zwłaszcza w trzecim przypadku jest to niemal zupełnie nieprawdopodobne.

Dowód mocnego prawa wielkich liczb jest trudny. Natomiast dość łatwo zauważyć, że podobny efekt wynika wprost z nierówności Czebyszewa.

Twierdzenie 7.24 [Słabe prawo wielkich liczb Bernoulliego]

Niech X_1, X_2, X_3, \dots będzie nieskończonym ciągiem prób Bernoulliego oraz niech:


P(X_i = 1) = p\;\; \textrm{dla każdego} \;\; i=1,2,3\ldots.


Oznaczmy, jak zwykle:


S_n = X_1 + \dots + X_n.


Wtedy:


P\left(\left|\frac{S_n}{n} - p\right|\ge \varepsilon \right) \le \frac{p(1-p)}{n\varepsilon^2}.


Dowód .

Korzystamy z nierówności 7.2, zastosowanej do zmiennej losowej \frac{S_n}{n}. Wiemy jednak (patrz twierdzenie 7.16), że wariancja tej zmiennej wynosi:


{\Bbb D}^2 \left(\frac{S_n}{n}\right) = \frac{p(1-p)}{n}.


W przypadku noworodków, dla n = 994 mieliśmy S_n = 697, a więc zaobserwowaliśmy zdarzenie:


\left|\frac{S_n}{n}-\frac{1}{2}\right|=\frac{697}{994} - \frac{1}{2} \approx 0.2.


Z ostatniego twierdzenia wynika, że jego prawdopodobieństwo jest mniejsze niż:


\frac{\frac{1}{4}}{994 \cdot 0.2^2} \approx 0.006.


Jak się niebawem okaże, prawdopodobieństwo tego zdarzenia jest istotnie dużo mniejsze. image:End_of_proof.gif
Uwaga 7.25

Z tezy powyższego twierdzenia wprost wynika, że:


\lim_{n\rightarrow \infty} P\left(\left|\frac{S_n}{n} - p\right|\ge \varepsilon \right)=0,


Mówimy wtedy, że ciąg \frac{S_n}{n} zmierza stochastycznie do p, co zapisujemy następująco:


\frac{S_n}{n}\stackrel{s}{\longrightarrow} p.


Uwaga 7.26
Mocne prawo wielkich liczb stanowi podstawę do formułowania przez przyrodników zasady, która mówi, że dla wielu wielkości fizycznych "średnia względem czasu (czyli \frac{S_n}{n}) jest równa średniej po przestrzeni (czyli m)".
Uwaga 7.27

Przed pojawieniem się w latach trzydziestych XX wieku aksjomatycznej definicji,

prawdopodobieństwo było rozumiane często jak następuje: chcąc wiedzieć, ile wynosi prawdopodobieństwo pewnego zdarzenia A, powtarzajmy wielokrotnie i niezależnie od siebie takie doświadczenie, którego pozytywnym wynikiem (sukcesem) jest właśnie A - wówczas granica stosunku liczby sukcesów do ilości doświadczeń, gdy ich liczba rośnie nieograniczenie, jest, z definicji, prawdopodobieństwem zdarzenia A. Okazuje się, że aksjomatyczna teoria prawdopodobieństwa jest zgodna z tak stawianą, nie całkiem formalną, definicją zwaną definicją częstościową. Gwarantują to właśnie prawa wielkich liczb - w schemacie Bernoulliego S_n jest liczbą sukcesów, zaś \lim_{n\longrightarrow \infty} \frac{S_n}{n} jest właśnie "prawdopodobieństwem częstościowym". Prawa wielkich liczb mówią, że owo prawdopodobieństwo częstościowe jest rzeczywiście równe prawdopodobieństwu sukcesu p.