Rachunek prawdopodobieństwa i statystyka/Wykład 9: Rozkład normalny i centralne twierdzenie graniczne: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Arek (dyskusja | edycje)
Nie podano opisu zmian
 
m Zastępowanie tekstu – „,↵</math>” na „</math>,”
 
(Nie pokazano 71 wersji utworzonych przez 8 użytkowników)
Linia 1: Linia 1:
{dal}{{-1.1cm}}[chapter]
==Rozkład normalny i centralne twierdzenie graniczne==
{dak}[dal]{{-0.1cm}}
{zad}{Zadanie }[chapter]
{zam}{Ćwiczenie}[chapter]
{ptst}{Pytanie}[chapter]


{{przyklad|||
Centralną rolę w rachunku prawdopodobieństwa i statystyce
pełni tak zwany rozkład normalny. Związane jest z nim słynne
twierdzenie nazywane centralnym twierdzeniem granicznym. Na jego
podstawie można w wielu sytuacjach zakładać, że zmienna losowa,
którą jesteśmy właśnie zainteresowani, ma rozkład normalny.


}
==Rozkład normalny==


{{przyklad|#1||
[[grafika:Gauss.jpg|thumb|right||Carl Friedrich Gauss (1777-1855)<br>[[Biografia Gauss|Zobacz biografię]]]]Chyba najważniejszym ze znanych rozkładów jest tak zwany rozkład normalny, określany niekiedy jako rozkład Gaussa.


}
Rozkład <math>P</math> nazywamy rozkładem normalnym,  jeżeli
istnieją takie liczby rzeczywiste <math>m</math> oraz <math>\sigma>0</math>, że funkcja
<math>f\colon {\Bbb R}\longrightarrow {\Bbb R}</math>, określona wzorem:


{mapleex}


{Przegląd ważniejszych rozkładów}
<center>
<math>


==Streszczenie==
f(x) = \frac{1}{\sqrt{2\pi}\sigma}\,e^{-\frac{1}{2}(\frac{x
- m}{\sigma})^2}\;\;\mbox{ dla } x\in {\Bbb R}</math>,
</center>


Omówimy kilka najczęściej spotykanych w zastosowaniach
rozkładów dyskretnych i ciągłych, charakteryzujących często
zmienne losowe związane ze zliczaniem oraz czasem oczekiwania na
szczególne zdarzenia. Jednak najważniejszy rozkład, tak zwany
rozkład normalny, zostanie omówiony w następnym rozdziale. 


'''Słowa kluczowe: ''' rozkład dwumianowy, rozkład wielomianowy, rozkład geometryczny, rozkład hipergeometryczny, rozkład Pascala,
jest gęstością tego rozkładu.
rozkład Poissona, rozkład wykładniczy, proces
Poissona.<br>[1cm]
W poprzednich wykładach  "uprawialiśmy" dość
ogólną teorię rachunku prawdopodobieństwa, dlatego teraz
zajmiemy się aspektem bardziej praktycznym i omówimy kilka
podstawowych rozkładów oraz wskażemy na niektóre typowe
sytuacje, w których rozkłady te występują. Pragniemy jednak
podkreślić, iż rozważane tutaj rozkłady nie wyczerpują
wszystkich ważnych, występujących w literaturze przedmiotu
rozkładów prawdopodobieństwa.


==Rozkłady związane ze zliczaniem==
Stosowana w tym przypadku notacja jest następująca:
* Ile eksperymentów zakończy się sukcesem?
<math>N(m,\sigma)</math> oznacza rozkład normalny o
* Ile jest zdarzeń sprzyjających wylosowaniu "naszych" numerów w grze
parametrach <math>m</math> oraz <math>\sigma</math> - jego
liczbowej?
dystrybuantę oznaczamy przez <math>\Phi_{m,\sigma}</math>. Wykres gęstości rozkładu normalnego nosi
* Ile zgłoszeń  napływa średnio w ciągu godziny do
nazwę krzywej Gaussa.
pogotowia ratunkowego w  godzinach nocnych?
* Ile wypadków śmiertelnych ma miejsce podczas kąpieli w  morzu?


-0.2in
Poniższy wykres przedstawia gęstości rozkładów
<math>N(20,1)</math>, <math>N(20,2)</math> i <math>N(20,3)</math>, przy czym mniejszym wartościom <math>\sigma</math>
odpowiada bardziej stromy wykres.


Aby umieć odpowiadać na te i podobne  pytania, najpierw należy zawsze zdać sobie
<center>
sprawę z natury rozważanego zjawiska, czyli, mówiąc bardziej precyzyjnie, z
<flash>file=Rp.1.91.swf|width=350|height=350</flash>  
charakteru rozkładu prawdopodobieństwa odpowiadającego  danej
</center>
sytuacji. Okazuje się, że wiele zupełnie różnych od siebie zjawisk
zachodzi według podobnych schematów -- na przykład jest  w istocie
losowaniem bez zwracania lub ze zwracaniem. Omówimy teraz kolejno kilka
podstawowych rozkładów, odpowiedzialnych za  większość  tego typu
sytuacji.


Na początku powtórzymy poznaną już wcześniej (patrz przykład [[##prd|Uzupelnic prd|]]) definicję rozkładu dwumianowego.
Znaczenie parametru <math>\sigma</math> ilustruje też następująca animacja (tutaj <math>m = 20</math>):


===Rozkład dwumianowy===
[[File:Rp91-rys.mp4|253x253px|thumb|center]]


Rozkład <math>\displaystyle P</math> nazywamy rozkładem  dwumianowym,  jeżeli
istnieją liczby <math>\displaystyle n > 0</math> oraz <math>\displaystyle p</math> i <math>\displaystyle q</math> takie, że <math>\displaystyle 0 <p,q <1</math>, <math>\displaystyle p +
q = 1</math>  oraz zachodzi równość:
<center><math>\displaystyle  P(k) = \left(\begin{array} {@{}c@{}}n\\k\end{array} \right)p^kq^{n-k}\;\; \mbox{
dla } k = 0,1,\dots,n.
</math></center>


Następujący wykres przedstawia rozkład dwumianowy z parametrami
Kolejny wykres przedstawia gęstości rozkładów
<math>\displaystyle n = 12</math> i <math>\displaystyle p = 0.6</math>:
<math>N(15,3)</math>, <math>N(20,3)</math> i <math>N(25,3)</math>.


''tutaj rysunek 81.eps''
<center>
<flash>file=Rp.1.92.swf|width=350|height=350</flash> 
</center>


Wzór dwumienny  Newtona  pozwala  stwierdzić,
Aby jeszcze lepiej uzmysłowić sobie znaczenie parametru <math>m</math>, proponujemy uruchomić następującą animację (<math>\sigma = 2</math>):
że <math>\displaystyle \sum_{k=0}^n P(k) = 1</math>, a&nbsp;więc powyższa równość
rzeczywiście określa rozkład <math>\displaystyle P</math> w  sposób
jednoznaczny (jest to oczywiście rozkład dyskretny).
Poprzednio mieliśmy już okazję poznać różne sytuacje, w których on występuje --
następujące twierdzenie formalizuje nasze dotychczasowe rozważania:


{{twierdzenie|||
[[File:Rp92-rys.mp4|253x253px|thumb|center]]


Niech  <math>\displaystyle X_1,\dots,  X_n</math> będą  niezależnymi
<span id="dystrybuanta">Dystrybuantę</span> <math>\Phi_{0,1}</math>
zmiennymi losowymi o takim  samym  rozkładzie
oznaczamy krótko przez <math>\Phi</math>. Wyraża się więc ona następującym wzorem:
dwupunktowym. Wtedy suma: <center><math>\displaystyle S_n = X_1 + \dots + X_n</math></center>
ma rozkład dwumianowy. }}


'''Dowód.  '''  Zdarzenie <math>\displaystyle \{S_n = k\}</math> jest sumą rozłącznych zdarzeń polegających na tym, że dokładnie <math>\displaystyle k</math> spośród
zmiennych losowych <math>\displaystyle X_1,  \dots , X_n</math> przyjmuje wartość <math>\displaystyle 1</math>, a więc pozostałe <math>\displaystyle n-k</math> zmiennych przyjmuje wartość <math>\displaystyle 0</math>.
Niech <math>\displaystyle A_{i_1, \dots, i_k}</math> będzie jednym z takich zdarzeń, gdzie <math>\displaystyle i_1, \dots, i_k</math> oznaczają numery tych zmiennych, które
przyjmują wartość <math>\displaystyle 1</math>. Z kolei każde zdarzenie <math>\displaystyle A_{i_1, \dots, i_k}</math> jest iloczynem <math>\displaystyle n</math> zdarzeń postaci <math>\displaystyle \{X_j = \varepsilon_j\}</math>,
gdzie <math>\displaystyle \varepsilon_j = 1</math> lub <math>\displaystyle \varepsilon_j = 0</math>, a prawdopodobieństwa tych zdarzeń są równe odpowiednio <math>\displaystyle p</math> i <math>\displaystyle q</math>. Z niezależności
zmiennych <math>\displaystyle X_1,  \dots , X_n</math> wynika, że: <center><math>\displaystyle P(A_{i_1, \dots, i_k} ) = p^kq^{n-k}.</math></center> Ponieważ wskaźniki
<math>\displaystyle i_1, \dots, i_k</math> można wybrać na <math>\displaystyle \left(\begin{array} {@{}c@{}}n\\k\end{array} \right)</math> sposobów, więc: <center><math>\displaystyle
P(A) = P\left(\bigcup_{i_1, \dots, i_k}A_{i_1, \dots, i_k}\right) = \sum_{i_1, \dots, i_k}P(A_{i_1, \dots, i_k})
</math></center>
<center><math>\displaystyle  =
\sum_{i_1, \dots, i_k}p^kq^{n-k} = \left(\begin{array} {@{}c@{}}n\\k\end{array} \right)p^kq^{n-k}.
</math></center>
<math>\displaystyle \hfill{\Box}</math>


{Losowanie ze zwracaniem} Przypuśćmy,  że  pewna
{{wzor|9.1|9.1|
populacja  składa  się  z  <math>\displaystyle N</math>  elementów.
<math>
Niech <math>\displaystyle p</math> będzie prawdopodobieństwem tego, że dany  element  z
\Phi(x) = \frac{1}{\sqrt{2\pi}}
tej populacji ma pewną własność, powiedzmy własność
\int_{-\infty}^xe^{-\frac{1}{2}t^2}dt
<math>\displaystyle W</math>. Losujemy ze zwracaniem  <math>\displaystyle n</math>  elementów  i
</math>}}
oznaczamy  przez  <math>\displaystyle X</math>  liczbę tych spośród nich, które
mają  własność  <math>\displaystyle W</math>.  Widać,  że zmienna losowa
<math>\displaystyle X</math> ma rozkład dwumianowy.


Przypomnimy teraz wyprowadzone w ćwiczeniu [[##cprd|Uzupelnic cprd|]] wzory na nadzieję matematyczną i wariancję zmiennej losowej
o rozkładzie dwumianowym.
Wyrażają się one następującymi wzorami:
<center><math>\displaystyle
{\Bbb E}(X) = np, \hspace{1.5cm} {\Bbb D}^2(X) = npq.
</math></center>


W celu wyrobienia sobie intuicji związanej z rozkładem dwumianowym, proponujemy obejrzeć animację:
Poniższy wykres przedstawia gęstość rozkładu
<math>N(0,1)</math>, który nazywamy standardowym rozkładem normalnym. Zauważmy, że zakreskowany obszar posiada pole równe <math>\Phi(1)</math>.


===Rozkład wielomianowy===
<center>
<flash>file=Rp.1.93.swf|width=350|height=350</flash> 
</center>


Uogólnieniem rozkładu  dwumianowego  jest  rozkład
wielomianowy.


Rozkład <math>\displaystyle P</math> nazywamy rozkładem
Wartości dystrybuanty <math>\Phi</math> zostały stablicowane
wielomianowym,  jeżeli  istnieje liczba naturalna <math>\displaystyle n</math>
oraz są dostępne w wielu komputerowych
oraz liczby <math>\displaystyle p_i > 0</math>, <math>\displaystyle  i  =  1.\dots  r</math>, <math>\displaystyle r>1</math>,
programach matematycznych lub statystycznych.
takie, że
Oczywiście, pakiety statystyczne programu Maple zawierają odpowiednie procedury (jakie?).
<math>\displaystyle \sum_{i= 1}^rp_i = 1</math> oraz  dla  wszystkich
układów liczb całkowitych nieujemnych <math>\displaystyle k_1, \dots ,k_r</math>,
dla których <math>\displaystyle \sum_{i=1}^r k_i = n</math>, zachodzi równość:
<center><math>\displaystyle
P(k_1,  \dots,  k_r)   =  \frac{n!}{k_1!  \cdot  \dots  \cdot
k_r!}p_1^{k_1} \cdot \dots \cdot p_r^{k_r}.
</math></center>


Widzimy oczywiście, że gdy <math>\displaystyle r= 2</math>, rozkład
Zwróćmy uwagę na dwie własności
wielomianowy  jest  w istocie równoważny rozkładowi
funkcji <math>\Phi</math>,posiadające (przede wszystkim)
dwumianowemu (kładziemy <math>\displaystyle p_1  =  p</math> i <math>\displaystyle p_2 =q</math>).
rachunkowe znaczenie. Wynikają one
bezpośrednio ze wzoru na [[#9.1|9.1]] <math>\Phi_{0,1}</math>
i mają oczywistą interpretację geometryczną (ćwiczenie). Mianowicie:


Wyobraźmy sobie, że  pewien  eksperyment powtarzamy
<math>\displaystyle n</math> razy, przy czym spełnione są następujące warunki:


każdy eksperyment może dać dokładnie <math>\displaystyle r</math>  różnych  wyników,
powiedzmy "<math>\displaystyle 1</math>", , "<math>\displaystyle r</math>",


prawdopodobieństwa poszczególnych  wyników  są  w  każdym
<center><math>
eksperymencie    zawsze  takie  same  --
\Phi (0) = \frac{1}{2}\;\; \mbox{ oraz } \;\;\Phi
oznaczamy  je przez <math>\displaystyle p_i</math>, <math>\displaystyle i = 1
(x) = 1 - \Phi (-x) \mbox{ dla każdego } x \in {\Bbb R}
\dots r</math>,
</math></center>


eksperymenty są niezależne od siebie.


Niech  <math>\displaystyle X_1,  \dots  ,  X_r</math>  oznaczają
oraz
odpowiednio  liczbę eksperymentów
zakończonych  wynikiem  "<math>\displaystyle 1</math>",  ,  "<math>\displaystyle r</math>". Wtedy
łatwo stwierdzić, stosując indukcję, że wektor
losowy  <math>\displaystyle (X, \dots ,X_r)</math> ma rozkład wielomianowy.


===Rozkład Poissona===


Rozkład <math>\displaystyle P</math> jest rozkładem Poissona, jeżeli istnieje
<center><math>
taka  liczba <math>\displaystyle \lambda > 0</math>, że:
\Phi^{-1} (\alpha) = -\Phi^{-1}(1-\alpha) \mbox{ dla każdego } \alpha \in [0,1]
<center><math>\displaystyle
P(k) = e^{-\lambda}\,\frac{\lambda^k}{k!}\;\; \mbox{ dla } k  =
0,1,2,\dots
</math></center>
</math></center>


Poniższy wykres przedstawia rozkład Poissona o parametrze <math>\displaystyle \lambda = 5</math>.


''tutaj rysunek 82.eps''
Użyteczność powyższych wzorów można zaobserwować zwłaszcza wtedy, gdy nie
dysponujemy odpowiednim pakietem komputerowym czy
kalkulatorem, ale są one także ważne przy pewnych
przekształceniach. Podobnie następna równość, którą
można otrzymać stosując prostą  zmianę zmiennych (patrz wykład z [[Analiza matematyczna|Analizy matematycznej]]), pozwala za
pomocą <math>\Phi</math> obliczać dystrybuanty
<math>\Phi_{m,\sigma}</math> dla pozostałych parametrów <math>m</math> i <math>\sigma</math>. Mianowicie:


Okazuje się, że wiele zjawisk podlega  właśnie
rozkładowi Poissona. Kolejne twierdzenie
mówi o tym, że  jest on  w  pewnym  sensie  granicą
rozkładów  dwumianowych.  W szczególności, gdy mamy do
czynienia z dużą  <math>\displaystyle (n  >100)</math>  liczbą  niezależnych
prób Bernoulliego, z jednakowym, małym <math>\displaystyle (p <0.1)</math>
prawdopodobieństwem sukcesu każda,  to liczba
sukcesów ma niemal dokładnie rozkład Poissona z
parametrem <math>\displaystyle \lambda  =  np</math>. Zgodność taka została
zaobserwowana w wielu konkretnych sytuacjach
praktycznych.  Co  więcej,  istnieją  dość  dokładne
oszacowania błędu, jaki popełniamy przybliżając
rozkład dwumianowy rozkładem Poissona. W tym miejscu
poprzestaniemy jedynie na wykazaniu prostego
twierdzenia wskazującego na możliwość takiego
przybliżania  oraz  na  podaniu danych liczbowych
ilustrujących jego dokładność.


{{twierdzenie|||
{{wzor|9.2|9.2|
<math>
\Phi_{m,\sigma}(x) = \Phi\left(\frac{x-m}{\sigma}\right)
</math>}}


Niech  liczby  <math>\displaystyle p_n  >0</math>   tworzą  taki
 
ciąg,    że: <center><math>\displaystyle \lim_{n\rightarrow \infty}n  p_n  =
Parametry  <math>m</math> i <math>\sigma</math> mają bardzo wyraźną interpretację
\lambda  >0</math></center>  oraz niech  <math>\displaystyle k  </math>   będzie nieujemną liczbą
probabilistyczną. Okazuje się bowiem, iż nadzieja
naturalną. Wtedy:
matematyczna oraz wariancja w rozkładzie <math>N(m,\sigma)</math>
<center><math>\displaystyle
wyrażają się wzorami:
\lim_{n\rightarrow \infty} \left(\begin{array} {@{}c@{}}n\\k\end{array} \right)p_n^k(1 - p_n)^{n-k} =
 
e^{-\lambda}\,\frac{\lambda^k}{k!}.
 
<center><math>
{\Bbb E}(X) = m, {\Bbb D}^2 (X) = \sigma^2
</math></center>
</math></center>


Zauważmy też, że <math>m</math> jest punktem, w którym  gęstość
rozkładu <math>N(m,\sigma)</math> osiąga wartość
największą, prosta <math>x = m</math> jest osią symetrii jej wykresu,
zaś punkty  <math>m-  \sigma</math> i  <math>m+\sigma</math> - punktami
przegięcia (patrz wykład z [[Analiza matematyczna|Analizy matematycznej]]).
{{przyklad|9.1|przy_9.1||
Postaramy się uzasadnić ilościowo, że  parametr  <math>\sigma</math>
jest miarą "rozrzutu" rozkładu
<math>N(m,\sigma)</math>, względem punktu <math>m</math>. Obliczmy w tym celu:
}}
}}


'''Dowód. '''Oznaczając  <math>\displaystyle \lambda_n  =  np_n</math>,  dostajemy
<center><math>
równość:
r_k = P(m - k\sigma,m +k\sigma) \;\;\mbox{ dla } k =1,2,3
<center><math>\displaystyle
\left(\begin{array} {@{}c@{}}n\\k\end{array} \right)p_n^k(1-p_n)^{n-k}  =
\frac{\lambda_n^k}{k!}\cdot\frac{n(n-1)\cdot
\dots \cdot(n-k+1)}{n^k}\cdot\left(1- \frac{\lambda_n}{n}\right)^n\cdot
\left(1-\frac{\lambda_n}{n}\right)^{-k}\!\!.
</math></center>
</math></center>
Ponieważ <math>\displaystyle k</math> jest ustalone, zatem  ostatni
czynnik  zmierza  do  1. Drugi czynnik jest równy:
<center><math>\displaystyle 1\cdot (1 - \frac{1}{n})  \cdot  \dots  \cdot (1-
\frac{k-1}{n}),</math></center> a więc też zmierza do 1. Istotne są
natomiast czynniki pierwszy oraz trzeci, które zmierzają
odpowiednio  do: <center><math>\displaystyle \frac{\lambda^k}{k!}\;\;\textrm {oraz}\;\;
e^{-\lambda}.</math></center> <math>\displaystyle \hfill{ \Box}</math>


Poniższa tabela porównuje  rozkład  dwumianowy
rozkładem Poissona.


{-0.6cm}
gdzie <math>P</math> jest rozkładem <math>N(m,\sigma)</math>.
Otrzymujemy:
 
 
<center><math>
r_k = \Phi_{m,\sigma}(m + k\sigma) - \Phi_{m,\sigma}(m - k\sigma)
= \Phi(k) - \Phi(-k) = 2\Phi(k) - 1</math></center>
 


{| border=1
Korzystając z tablic lub z komputera, bez trudu dostajemy:
|+ <span style="font-variant:small-caps">Uzupelnij tytul</span>
 
 
<center><math>
r1 \approx 0.682689492, \;\;r2 \approx 0.954499736, \;\;r3 \approx 0.997300204</math></center>
 
 
Tak  więc  szansa znajdowania się poza przedziałem  <math>(m  -3\sigma,\;m  +
3\sigma)</math> wynosi istotnie mniej niż <math>1\%</math>. Im mniejszy
jest parametr <math>\sigma</math>, tym bardziej rozkład
<math>N(m,\sigma)</math> jest "skupiony w  okolicy"  punktu <math>x
=m</math>. 
 
 
Dystrybuanta <math>\Phi</math> rozkładu normalnego <math>N(0,1)</math> (w tablicy podano wartości    <math>\Phi(x)</math> dla <math>x\in [0, 3.09]</math>).
{| border=1 align="center" cellpadding="5" cellspacing="0"
|+ <span style="font-variant:small-caps"></span>
|-  
|-  
|  
| <math>x</math> || 0,00 || 0,01 || 0,02 || 0,03 || 0,04 || 0,05 || 0,06 || 0,07 || 0,08 || 0,09
||  <math>\displaystyle n = 100</math>, || <math>\displaystyle p = 0,01</math>  || <math>\displaystyle n = 50</math>, || <math>\displaystyle p = 0,1</math>  || <math>\displaystyle n = 100</math>,   ||  
<math>\displaystyle p = 0,1</math>
|-
|-
| || rozkład  || rozkład  || rozkład  || rozkład  || rozkład  ||   rozkład 
| 0,0 || 0,5000 || 0,5040 || 0,5080 || 0,5120 || 0,5160 || 0,5199 || 0,5239 || 0,5279 || 0,5319 || 0,5359
|-
|-
| <math>\displaystyle k</math>  || dwum.  || Poissona || dwum.  || Poissona || dwum.  || Poissona
| 0,1 || 0,5398 || 0,5438 || 0,5478 || 0,5517 || 0,5557 || 0,5596 || 0,5636 || 0,5675 || 0,5714 || 0,5753
|-
|-
| 0 || 0,3660  || 0,3679  || 0,0052  || 0,0067  || 0,0000  || 0,0000
| 0,2 || 0,5793 || 0,5832 || 0,5871 || 0,5910 || 0,5948 || 0,5987 || 0,6026 || 0,6064 || 0,6103 || 0,6141
|-
|-
| || 0,3697  || 0,3679  || 0,0286  || 0,0337  || 0,0003  || 0,0005
| 0,3 || 0,6179 || 0,6217 || 0,6255 || 0,6293 || 0,6331 || 0,6368 || 0,6406 || 0,6443 || 0,6480 || 0,6517
|-
|-
| || 0,1849  || 0,1839  || 0,0779  || 0,0842  || 0,0016  || 0,0023
| 0,4 || 0,6554 || 0,6591 || 0,6628 || 0,6664 || 0,6700 || 0,6736 || 0,6772 || 0,6808 || 0,6844 || 0,6879
|-
|-
| || 0,0610  || 0,0613  || 0,1386  || 0,1404  || 0,0059  || 0,0076
| 0,5 || 0,6915 || 0,6950 || 0,6985 || 0,7019 || 0,7054 || 0,7088 || 0,7123 || 0,7157 || 0,7190 || 0,7224
|-
|-
| || 0,0149  || 0,0153  || 0,1809  || 0,1755  || 0,0159  || 0,0189
| 0,6 || 0,7257 || 0,7291 || 0,7324 || 0,7357 || 0,7389 || 0,7422 || 0,7454 || 0,7486 || 0,7517 || 0,7549
|-
|-
| || 0,0029  || 0,0031  || 0,1849  || 0,1755  || 0,0339  || 0,0378
| 0,7 || 0,7580 || 0,7611 || 0,7642 || 0,7673 || 0,7704 || 0,7734 || 0,7764 || 0,7794 || 0,7823 || 0,7852
|-
|-
| || 0,0005  || 0,0005  || 0,1541  || 0,1462  || 0,0596  || 0,0631
| 0,8 || 0,7881 || 0,7910 || 0,7939 || 0,7967 || 0,7995 || 0,8023 || 0,8051 || 0,8078 || 0,8106 || 0,8133
|-
|-
| || 0,0001  || 0,0001  || 0,1076  || 0,1044  || 0,0889  || 0,0901
| 0,9 || 0,8159 || 0,8186 || 0,8212 || 0,8238 || 0,8264 || 0,8289 || 0,8315 || 0,8340 || 0,8365 || 0,8389
|-
|-
| || 0,0000  || 0,0000  || 0,0643  || 0,0653  || 0,1148  || 0,1126
| 1,0 || 0,8413 || 0,8438 || 0,8461 || 0,8485 || 0,8508 || 0,8531 || 0,8554 || 0,8577 || 0,8599 || 0,8621
|-
|-
| || 0,0000  || 0,0000  || 0,0333  || 0,0363  || 0,1304  || 0,1251
| 1,1 || 0,8643 || 0,8665 || 0,8686 || 0,8708 || 0,8729 || 0,8749 || 0,8770 || 0,8790 || 0,8810 || 0,8830
|-
|-
| 10  || 0,0000  || 0,0000  || 0,0152  || 0,0181  || 0,1319  || 0,1251
| 1,2 || 0,8849 || 0,8869 || 0,8888 || 0,8907 || 0,8925 || 0,8944 || 0,8962 || 0,8980 || 0,8997 || 0,9015
|-
|-
| 11  || 0,0000  || 0,0000  || 0,0061  || 0,0082  || 0,1199  || 0,1137
| 1,3 || 0,9032 || 0,9049 || 0,9066 || 0,9082 || 0,9099 || 0,9115 || 0,9131 || 0,9147 || 0,9162 || 0,9177
|-
|-
| 12  || 0,0000  || 0,0000  || 0,0022  || 0,0034  || 0,0988  || 0,0948
| 1,4 || 0,9192 || 0,9207 || 0,9222 || 0,9236 || 0,9251 || 0,9265 || 0,9279 || 0,9292 || 0,9306 || 0,9319
|-
|-
| 13  || 0,0000  || 0,0000  || 0,0007  || 0,0013  || 0,0743  || 0,0729
| 1,5 || 0,9332 || 0,9345 || 0,9357 || 0,9370 || 0,9382 || 0,9394 || 0,9406 || 0,9418 || 0,9429 || 0,9441
|-
|-
| 14  || 0,0000  || 0,0000  || 0,0002  || 0,0005  || 0,0513  || 0,0521
| 1,6 || 0,9452 || 0,9463 || 0,9474 || 0,9484 || 0,9495 || 0,9505 || 0,9515 || 0,9525 || 0,9535 || 0,9545
|-
|-
| 15  || 0,0000  || 0,0000  || 0,0001  || 0,0002  || 0,0327  || 0,0347
| 1,7 || 0,9554 || 0,9564 || 0,9573 || 0,9582 || 0,9591 || 0,9599 || 0,9608 || 0,9616 || 0,9625 || 0,9633
|-
|-
|  
| 1,8 || 0,9641 || 0,9649 || 0,9656 || 0,9664 || 0,9671 || 0,9678 || 0,9686 || 0,9693 || 0,9699 || 0,9706
|-
| 1,9 || 0,9713 || 0,9719 || 0,9726 || 0,9732 || 0,9738 || 0,9744 || 0,9750 || 0,9756 || 0,9761 || 0,9767
|-
| 2,0 || 0,9772 || 0,9778 || 0,9783 || 0,9788 || 0,9793 || 0,9798 || 0,9803 || 0,9808 || 0,9812 || 0,9817
|-
| 2,1 || 0,9821 || 0,9826 || 0,9830 || 0,9834 || 0,9838 || 0,9842 || 0,9846 || 0,9850 || 0,9854 || 0,9857
|-
| 2,2 || 0,9861 || 0,9864 || 0,9868 || 0,9871 || 0,9875 || 0,9878 || 0,9881 || 0,9884 || 0,9887 || 0,9890
|-
| 2,3 || 0,9893 || 0,9896 || 0,9898 || 0,9901 || 0,9904 || 0,9906 || 0,9909 || 0,9911 || 0,9913 || 0,9916
|-
| 2,4 || 0,9918 || 0,9920 || 0,9922 || 0,9925 || 0,9927 || 0,9929 || 0,9931 || 0,9932 || 0,9934 || 0,9936
|-
| 2,5 || 0,9938 || 0,9940 || 0,9941 || 0,9943 || 0,9945 || 0,9946 || 0,9948 || 0,9949 || 0,9951 || 0,9952
|-
| 2,6 || 0,9953 || 0,9955 || 0,9956 || 0,9957 || 0,9959 || 0,9960 || 0,9961 || 0,9962 || 0,9963 || 0,9964
|-
| 2,7 || 0,9965 || 0,9966 || 0,9967 || 0,9968 || 0,9969 || 0,9970 || 0,9971 || 0,9972 || 0,9973 || 0,9974
|-
| 2,8 || 0,9974 || 0,9975 || 0,9976 || 0,9977 || 0,9977 || 0,9978 || 0,9979 || 0,9979 || 0,9980 || 0,9981
|-
| 2,9 || 0,9981 || 0,9982 || 0,9982 || 0,9983 || 0,9984 || 0,9984 || 0,9985 || 0,9985 || 0,9986 || 0,9986
|-
| 3,0 || 0,9987 || 0,9987 || 0,9987 || 0,9988 || 0,9988 || 0,9989 || 0,9989 || 0,9989 || 0,9990 || 0,9990
|-
|}
 
 
Jak powyżej wspomnieliśmy,  rozkład  normalny
jest bardzo ważnym rozkładem. Dzieje się tak między
innymi dlatego, że wiele  zjawisk przyrodniczych,
społecznych i  innych  przebiega  zgodnie  z  tym
rozkładem. Ma on również olbrzymie znaczenie
teoretyczne. Poniżej przedstawiamy tak  zwane
centralne  twierdzenie  graniczne, które częściowo
wyjaśnia znaczenie rozkładu normalnego. Twierdzenie to
gwarantuje,  że (pod  pewnymi  dość  naturalnymi
założeniami) suma dużej ilości niezależnych
zmiennych  losowych  ma  w  przybliżeniu rozkład
normalny. Na zakończenie tego punktu wypowiemy jeszcze jedno ważne twierdzenie dotyczące rozkładu normalnego.
 
{{twierdzenie|9.2|tw_9.2|
Niech <math>X_1</math> oraz <math>X_2</math> będą niezależnymi zmiennymi losowymi o rozkładach normalnych, odpowiednio <math>N(m_1,\sigma_1)</math> oraz <math>N(m_2,\sigma_2)</math>.
Wtedy:
# <math>X_1 + X_2 \sim N(m_1+m_2, \sqrt{\sigma_1^2+ \sigma_2^2})</math>,
# <math>aX_1 + b \sim N(am_1 + b, |a|\sigma_1)</math> dla wszystkich <math>a, b \in {\Bbb R}</math>.
 
}}


|}
==Centralne twierdzenie graniczne==
 
Prawa wielkich liczb mówią o zbieżności średnich
arytmetycznych, interpretowanych czasem jako średnie
czasowe,  niezależnych zmiennych losowych.
Twierdzenia te mają olbrzymią  wartość poznawczą,
jednak  ich  wartość  praktyczna  jest  nieco
mniejsza.  W szczególności, prawa wielkich liczb nie
dają żadnej informacji o rozkładzie sumy zmiennych
losowych, podczas gdy  w  wielu  konkretnych  zagadnieniach
znajomość rozkładu ma podstawowe znaczenie.  Właśnie  centralne twierdzenie
graniczne  pozwala rozwiązać ten problem. Jak  już
wspominaliśmy,  wynika  z&nbsp;niego, że  suma
niezależnych zmiennych  losowych spełniających
zupełnie naturalne warunki ma w przybliżeniu rozkład
normalny.
 
Ze względu na wagę centralnego twierdzenia granicznego
wypowiemy je w trzech wersjach. Pierwsza z nich - do
niedawna  najczęściej używana - ma w dobie komputerów
mniejsze  znaczenie  praktyczne,jednak w dalszym
ciągu jest najbardziej popularna.
 
'''Założenie.'''<br>
 
''<math>(\Omega, \Sigma,P)</math> jest przestrzenią
probabilistyczną, zaś  <math>X_1,\,X_2,\, X_3,\dots</math>
- ciągiem niezależnych zmiennych losowych
określonych na <math>\Omega</math>. Wszystkie zmienne losowe
<math>X_i</math> mają taki sam rozkład, a ich wspólna nadzieja
matematyczna <math>m</math> oraz wariancja <math>\sigma^2</math> istnieją i
są skończone, przy czym <math>\sigma
> 0</math> (ten ostatni warunek oznacza, że zmienne losowe nie są stałymi). Jak zawsze oznaczamy:''
 
 
<center><math>
S_n = X_1 + \dots +X_n</math></center>


Nadzieja  matematyczna  oraz  wariancja  w rozkładzie
Poissona wyrażają się wzorami:


<center><math>\displaystyle
Będziemy  badać  najpierw zbieżność tak zwanych
{\Bbb E}(X) = \lambda, \hspace{2cm} {\Bbb D}^2 (X) = \lambda.
sum standaryzowanych, a dopiero potem wyciągniemy
</math></center>
wnioski dotyczące samych sum <math>S_n</math> oraz średnich <math>S_n
\over n</math>.


Następująca animacja pokazuje, jak zmienia się kształt rozkładu Poissona dla najczęściej spotykanych wartości parametrów:
Zmienną losową:


===Rozkład hipergeometryczny===


Rozkład <math>\displaystyle P</math> nazywamy hipergeometrycznym, jeżeli
<center><math>
istnieją  liczby naturalne <math>\displaystyle N</math> i <math>\displaystyle n</math> oraz liczby
Z_n  :=   \frac{S_n  -E(S_n)}{\sqrt{D^2(S_n)}}   =    \frac{S_n
dodatnie <math>\displaystyle p</math> i <math>\displaystyle q</math> takie, że <math>\displaystyle p+q=1</math>  oraz dla każdego <math>\displaystyle k
-nm}{\sigma \sqrt{n}}
=0,1,2, \dots n</math> zachodzi równość:
<center><math>\displaystyle
P(k) =\frac{\left(\begin{array} {@{}c@{}}Np\\k\end{array} \right) \left(\begin{array} {@{}c@{}}Nq\\n-k\end{array} \right)} {\left(\begin{array} {@{}c@{}}N\\k\end{array} \right)}. </math></center>
Mamy tutaj
do czynienia z uogólnionym  symbolem  Newtona  (<math>\displaystyle Np</math>
nie jest na ogół liczbą naturalną). Symbol ten
definiuje się  dla <math>\displaystyle x\in {\Bbb R}</math> oraz <math>\displaystyle k\in \mathbb{N}</math>
w sposób nastpujący:
<center><math>\displaystyle
\left(\begin{array} {@{}c@{}}x\\k\end{array} \right) = \frac{x(x-1) \dots (x-k+1)}{k!},
</math></center>
</math></center>
co oczywiście jest zgodne ze standardową definicją, gdy
<math>\displaystyle x</math>  jest liczbą naturalną.


Poniższy wykres przedstawia rozkład hipergeometryczny o
parametrach <math>\displaystyle N = 50</math>,  <math>\displaystyle n = 5</math> oraz  <math>\displaystyle p = 0.4</math>.


''tutaj rysunek 83.eps''
nazywamy standaryzacją  sumy <math>S_n</math>.
Jak łatwo zauważyć:


{Losowanie bez zwracania} Przypuśćmy,  że  pewna
populacja  składa  się  z  <math>\displaystyle N</math>  elementów.
Niech <math>\displaystyle p</math> będzie prawdopodobieństwem tego, że dany  element  z
tej populacji ma pewną własność, powiedzmy własność
<math>\displaystyle A</math>. Losujemy bez zwracania  <math>\displaystyle n</math>  elementów  i
oznaczamy  przez  <math>\displaystyle X</math>  liczbę wylosowanych elementów
mających  własność  <math>\displaystyle A</math>.  Dość  łatwo zauważyć,
nawiązując  do przeprowadzonych w  punkcie  [[##schkl|Uzupelnic schkl|]] rozważań  dotyczących losowania  ze
zwracaniem,  że zmienna  losowa
<math>\displaystyle X</math>  ma rozkład hipergeometryczny.


Nadzieja    matematyczna    oraz    wariancja    w
<center><math>
rozkładzie hipergeometrycznym wyrażają się wzorami:
E(Z_n) = 0\;\; \text{oraz}\;\; D^2(Z_n) = 1</math></center>
<center><math>\displaystyle
{\Bbb E}(X) = np, \hspace{2cm} {\Bbb D}^2 (X) = npq\frac{N-n}{N-1}.
</math></center>


{{uwaga|||


Przy losowaniu <math>\displaystyle n</math> elementów ze zwracaniem i przy
{{twierdzenie|9.3 [Lindeberga-Levy'ego]|tw 9.3|
losowaniu  <math>\displaystyle n</math> elementów  bez  zwracania  z  populacji
o  liczebności  <math>\displaystyle N</math>  z frakcją elementów wyróżnionych, losujemy
średnio '''tyle samo'''  elementów  wyróżnionych.
Zauważmy jednak, że przy losowaniu bez zwracania wariancja  jest
mniejsza. }}


W poniższej animacji założono, że losujemy bez zwracania <math>\displaystyle n</math> elementów spośród 50 elementów, przy czym wiadomo,
że 20 elementów ma własność <math>\displaystyle A</math>. Animacja pokazuje rozkład liczby wylosowanych elementów mających własność <math>\displaystyle A</math>, w
zależności od <math>\displaystyle n</math>.


==Rozkłady czasu oczekiwania==
Dla każdego <math>x \in  {\Bbb R}</math> zachodzi równość:


[*]
Jak długo trzeba rzucać kostką, aby wypadła "szóstka"?


Jak  długi jest  czas oczekiwania na kolejne
<center><math>
zgłoszenie  do  centrali telefonicznej?
\lim_{n\rightarrow \infty}P(Z_n \le x) = \Phi(x)</math>,</center>


Jak często dochodzi  do  wypadków  drogowych?
Podobnie jak  w
poprzednim  punkcie,  omówimy tutaj  kilka  typowych
rozkładów  prawdopodobieństwa,  które  na  ogół
występują,  gdy rozważamy zmienną losową będącą
czasem  czekania  na  określone zdarzenie.


===Rozkład geometryczny===
gdzie <math>\Phi</math>  jest
dystrybuantą rozkładu <math>N(0,1)</math>.
}}


Rozkład <math>\displaystyle P</math> jest rozkładem geometrycznym, jeżeli
{{dowod|||
istnieją liczby <math>\displaystyle p</math> i <math>\displaystyle q</math> takie, że <math>\displaystyle 0<p</math>, <math>\displaystyle q <1</math>, <math>\displaystyle p + q = 1</math>
Dowód tego twierdzenia jest długi  i skomplikowany, więc nie przytaczamy go tutaj.
oraz zachodzi równość:
}}
<center><math>\displaystyle
P(k) = q^{k-1}p \;\; \mbox{ dla } k = 1,2,3,\dots
</math></center>


Następujący wykres przedstawia rozkład geometryczny o parametrze <math>\displaystyle p = 0.25</math>:
Twierdzenie Lindeberga-Levy'ego można wypowiedzieć
w  wersjach bardziej naturalnych - bez używania
standaryzacji <math>Z_n</math>.


''tutaj rysunek 84.eps''
{{twierdzenie|9.4 [Centralne tw. graniczne dla sum]|tw 9.4|


Zauważmy, że jest to rozkład dyskretny skupiony  na
Rozkład zmiennej losowej <math>S_n</math> jest asymptotycznie równy rozkładowi
zbiorze nieskończonym.
<math>N(nm,\sigma\sqrt{n})</math>. Inaczej:


Rozkład  geometryczny  jest  związany    z
nieskończonym ciągiem niezależnych prób Bernoulliego.
Wykażemy mianowicie, że czas oczekiwania na pierwszy
sukces w takim ciągu posiada właśnie rozkład geometryczny.
Konkretną  sytuację  (oczekiwanie  na pierwszą "szóstkę") omawia ćwiczenie [[##cw41|Uzupelnic cw41|]].


{{twierdzenie|||
<center><math>
\lim_{n\rightarrow              \infty}(F_{S_n}(x)              -
\Phi_{nm,\sigma\sqrt{n}}(x)) = 0</math>,</center>


Niech  <math>\displaystyle X_1,X_2,X_3,\dots  </math>  będą
niezależnymi zmiennymi losowymi o&nbsp;takim samym
rozkładzie  dwupunktowym.  Wtedy funkcja:
<center><math>\displaystyle T =\min  \{n  \ge  1:  X_n  =  1\},</math></center>
nazywana    czasem    oczekiwania    na pierwszy
sukces w&nbsp;nieskończonym ciągu prób Bernoulliego,
jest  zmienną  losową  o rozkładzie  geometrycznym.
}}


'''Dowód. '''
dla  <math>x
Zauważmy, że zdarzenie <math>\displaystyle \{T = n\}</math> jest takie samo jak
\in {\Bbb R}</math>. }}
zdarzenie: <center><math>\displaystyle \{X_1 = 0,\dots,X_{n-1}  =  0,  X_n  =
1\}.</math></center> Z niezależności zmiennych losowych <math>\displaystyle X_i</math>
otrzymujemy:
<center><math>\displaystyle
P(T=n) = P(X_1 =  0,\dots,X_{n-1} =  0,  X_n  =
1) =
</math></center>
<center><math>\displaystyle
P(X_1 = 0)\cdot\dots\cdot P(X_{n-1} =  0)\cdot  P(X_n  =
1) =  q^{n-1}p.
</math></center>
<math>\displaystyle \hfill{ \Box}</math>


Pokażemy jeszcze inną sytuację, w  której
{{twierdzenie|9.5 [Centralne tw. graniczne dla średnich]|tw_9.5|
pojawia się rozkład geometryczny -- będzie  to, w pewnym sensie,
Rozkład zmiennej losowej <math>\frac{S_n}{n}</math> jest  asymptotycznie  równy
uogólnienie poprzedniego twierdzenia. Mianowicie,  intuicja  podpowiada,  że
rozkładowi <math>N(m,{\sigma\over \sqrt{n}})</math>.
czas oczekiwania na pierwszy sukces w&nbsp;nieskończonym
Inaczej:
ciągu  niezależnych  prób Bernoulliego ma następującą
własność,    zwaną    brakiem pamięci:


<center><math>\displaystyle P(T > m + n|T > n) = P(T > m)\;\; \mbox{ dla wszystkich } m,n  \ge
1.
</math></center>


Poniższe    twierdzenie,  a  w    szczególności
<center><math>
implikacja "<math>\displaystyle \Longleftarrow</math>", odpowiada powyższej
\lim_{n\rightarrow        \infty}(F_{\frac{S_n}{n}}(x)        -
intuicji.  Ponieważ  zachodzi nawet równoważność,
\Phi_{m,{\sigma\over \sqrt{n}}}(x)) = 0</math>,</center>
warunek ([[##eq:42|Uzupelnic eq:42|]]) może  być  przyjęty  za  inną
definicję rozkładu geometrycznego.


{{twierdzenie|||


Niech    <math>\displaystyle T</math>    będzie    zmienną      losową przyjmującą
dla  <math>x
jedynie wartości naturalne taką, że
\in  {\Bbb R}</math>. }}
<math>\displaystyle P(T>1)>0</math>. Wtedy:


<math>\displaystyle T</math>       spełnia        warunek        ([[##eq:42|Uzupelnic eq:42|]])
{{przyklad|9.6.|przy_9.6|
<math>\displaystyle \,\Longleftrightarrow\,\displaystyle T</math> ma rozkład geometryczny.
Zinterpretujemy twierdzenie, mówiące
}}
o  rozkładzie sumy niezależnych zmiennych losowych.
Wyobraźmy sobie  eksperyment polegający na wielokrotnym
rzucie kostką do gry. Suma  uzyskanych oczek <math>S</math> jest
zmienną losową mającą, zgodnie  z  cytowanym twierdzeniem,  w
przybliżeniu rozkład <math>N(nm, \sigma \sqrt{n})</math>,
gdzie <math>m</math> oraz <math>\sigma</math> są odpowiednio nadzieją
matematyczną oraz odchyleniem standardowym zmiennej
losowej <math>X</math>, reprezentującej wynik pojedynczego
rzutu, a <math>n</math> jest liczbą wykonanych prób. Ponieważ
<math>X</math> ma rozkład dyskretny,  skupiony  w  punktach
<math>1,2,3,4,5,6</math>  przyjmowanych  z jednakowym
prawdopodobieństwem  <math>\frac{1}{6}</math>, więc  bez
trudu    można stwierdzić, że:


'''Dowód.  '''<math>\displaystyle (\Longrightarrow)</math>  Oznaczmy  <math>\displaystyle a_n  =
P(T>n)</math>. Z założenia otrzymujemy: <center><math>\displaystyle a_{n+1} = P(T>  n+1)  =
P(T>  n+  1,T>  1)  =  P(T  >n  + 1|T > 1)\,P(T>1)</math></center>
<center><math>\displaystyle =P(T>n)\,P(T>1)  =  a_nq,</math></center>  gdzie  <math>\displaystyle q  = P(T>1)</math>. Tak
więc liczby <math>\displaystyle a_n</math>  tworzą  ciąg  geometryczny  i stąd
mamy: <center><math>\displaystyle a_n = q^{n-1}a_1  =  q^n.</math></center>  Następnie
obliczamy:  <center><math>\displaystyle P(T=n)  = P(T>n-1) - P(T>n) = q^{n-1} -
q^n = q^{n-1}p,</math></center> gdzie <math>\displaystyle p = 1  -q</math>.


<math>\displaystyle (\Longleftarrow)</math> Obliczmy lewą stronę  wzoru
<center><math>
([[##eq:42|Uzupelnic eq:42|]]):
m = 3.5 \;\;\text{oraz}\;\; \sigma  =
<center><math>\displaystyle
\frac{\sqrt{105}}{6} \approx  1.7078251</math></center> }}
P(T>m+n|T      >n)      =     \frac{P(T>m+n,T>n)}{P(T>n)}      =
\frac{P(T>m+n)}{P(T>n)}= </math></center>
<center><math>\displaystyle
\frac{\sum_{k>m+n}P(T=k)}{\sum_{k>n}P(T=k)} =
\frac{\sum_{k>m+n}q^{k-1}p}{\sum_{k>n}q^{k-1}p} =
\frac{\frac{q^{n+m}p}{1-q}}{\frac{q^np}{1-q}}  =  q^m.
</math></center>
Jak łatwo sprawdzić, również <math>\displaystyle P(T > m) = q^m</math>. <math>\displaystyle \hfill{
\Box}</math>


Nadzieja matematyczna oraz wariancja  w  rozkładzie
geometrycznym wyrażają się wzorami:


<center><math>\displaystyle
Przypuśćmy, że wykonano 1000 rzutów (<math>n = 1000</math>). Wówczas  suma <math>S_{1000}</math>
{\Bbb E}(X) = \frac{1}{p}, \hspace{2cm} {\Bbb D}^2 (X) = \frac{1-p}{p^2}.
ma w przybliżeniu rozkład <math>N(3500,54,00617)</math>.
</math></center>


Poniższa animacja pokazuje kształt rozkładu geometrycznego w zależności od parametru <math>\displaystyle p</math>.  
Zweryfikujmy "doświadczalnie" uzyskany wynik. W  tym
celu  można przeprowadzić  symulację  tysiąca rzutów
kostką  za  pomocą komputera, uzyskując odpowiednią
wartość  sumy  wszystkich  uzyskanych oczek.
Doświadczenie to powtórzymy 400 razy, uzyskując <math>400</math>
wartości sumy oczek. Poniżej przytaczamy kod programu Maple, umożliwiający przeprowadzenie takiej symulacji.


===Rozkład Pascala===
  > kostka := rand(1..6):
  > k := 400: n := 1000: lista := NULL:
  > from 1 to k do
  > S := 0:
  > from 1 to n do
  > S := S + kostka():
  > od:
  > lista := lista,S
  > od:''


Rozkład <math>\displaystyle P</math>  nazywamy  ujemnym rozkładem
Aby graficznie zinterpretować otrzymane dane, najpierw sporządzamy odpowiedni szereg rozdzielczy
dwumianowym (lub
(rozważamy 18 klas):
rozkładem  Pascala),  jeżeli istnieją liczba
naturalna <math>\displaystyle r \ge 1</math> oraz liczba rzeczywista  <math>\displaystyle p  >0</math> takie,
że:
<center><math>\displaystyle
P(r+k) = \left(\begin{array} {@{}c@{}}r+k-1\\\ r-1\end{array} \right)p^r(1-p)^k\;\; \mbox{ dla
} k = 0,1,2,\dots
</math></center>


Poniższy wykres przedstawia ujemny rozkład dwumianowy
  ''> dane := stats[transform,tallyinto['skrajne']]([lista],
o parametrach <math>\displaystyle r = 5</math> i <math>\displaystyle p = 0.25</math>.
  > [seq(3320 + (i - 1)*20..3320 + i*20, i = 1..18)]);


''tutaj rysunek 85.eps''
          dane := [Weight(3480 .. 3500,55),
          Weight(3560 .. 3580,33), Weight(3660 .. 3680,0),
          Weight(3340 .. 3360,5), Weight(3540 .. 3560,31),
          Weight(3640 .. 3660,4), Weight(3360 .. 3380,2),
          Weight(3520 .. 3540,43), Weight(3420 .. 3440,28),
          Weight(3620 .. 3640,4), Weight(3460 .. 3480,53),
          Weight(3320 .. 3340,0), Weight(3500 .. 3520,66),
          Weight(3600 .. 3620,10), Weight(3380 .. 3400,8),
          Weight(3400 .. 3420,13), Weight(3440 .. 3460,28),
          Weight(3580 .. 3600,17)];''


Zauważmy, że rozkład geometryczny  jest  szczególnym
Sprawdzamy, czy są sumy, które nie zostały
przypadkiem ujemnego rozkładu dwumianowego.
uwzględnione - sumy te byłyby wpisane na listę o nazwie
<tt>skrajne</tt>:


{{twierdzenie|||
  ''> skrajne;''


Niech <math>\displaystyle X_1,X_2,X_3,\dots</math> będzie ciągiem
<center><math>\mathit{skrajne}
niezależnych  prób Bernoulliego o takim samym
prawdopodobieństwie sukcesu <math>\displaystyle p</math> w każdej
próbie. Określmy:
<center><math>\displaystyle
T_r =  \min\{n: \exists k_1,\ldots, k_r
\mbox{ takie, że } 1\leq k_1<\ldots<k_r=n</math></center>
<center><math>\displaystyle  \textrm{ oraz } X_{k_i} =1 \mbox{ dla } i =1,\dots,r\}.
</math></center>
</math></center>
Wtedy  <math>\displaystyle T_r</math>  jest  zmienną  losową  o  ujemnym
rozkładzie dwumianowym.


Inaczej: czas  oczekiwania  na  pierwszych  <math>\displaystyle r</math>
Okazało się więc, że w tym przypadku wszystkie sumy zostały uwzględnione.
sukcesów  w nieskończonym  schemacie  Bernoulliego
ma  ujemny  rozkład dwumianowy. }}


'''Dowód.  '''Dowód  jest  bardzo  podobny  do
W celu sporządzenia histogramu, dobieramy wysokości słupków tak,
analogicznego twierdzenia o&nbsp;rozkładzie geometrycznym
aby pola wszystkich słupków dawały w sumie <math>1</math>:
(twierdzenie [[##d41|Uzupelnic d41|]]). <math>\displaystyle \hfill{ \Box}</math>


Można  także  udowodnić następujące twierdzenie, które jeszcze
  > dane1 := stats[transform,
inaczej pozwala spojrzeć na problem czasu oczekiwania:
  > scaleweight[1/nops([lista])]](dane);}{}


{{twierdzenie|||
          dane1 := [Weight(3480 .. 3500,11/80), Weight(3560 .. 3580,33/400),
          Weight(3660 .. 3680,0), Weight(3340 .. 3360,1/80), Weight(3540 .. 3560,31/400),
          Weight(3640 .. 3660,1/100), Weight(3360 .. 3380,1/200), Weight(3520 .. 3540,43/400),
          Weight(3420 .. 3440,7/100), Weight(3620 .. 3640,1/100), Weight(3460 .. 3480,53/400),
          Weight(3320 .. 3340,0), Weight(3500 .. 3520,33/200), Weight(3600 .. 3620,1/40),
          Weight(3380 .. 3400,1/50), Weight(3400 .. 3420,13/400), Weight(3440 .. 3460,7/100),
          Weight(3580 .. 3600,17/400)];''


Niech  <math>\displaystyle T_1,\dots,T_r</math>  będzie
Teraz rysujemy histogram:
ciągiem    niezależnych zmiennych losowych
o&nbsp;takim samym rozkładzie geometrycznym każda.
Wtedy suma <math>\displaystyle T_1 + \dots +  T_r</math>  ma  ujemny  rozkład
dwumianowy. }}


Nadzieja matematyczna oraz wariancja  w  rozkładzie
  ''> stats[statplots,histogram](dane1);''
Pascala wyrażają się wzorami:
 
<center><math>\displaystyle
<center>
{\Bbb E}(X) = \frac{r}{p}, \hspace{2cm} {\Bbb D}^2 (X) = \frac{r(1-p)}{p^2}.
<flash>file=Rp.1.94.swf|width=350|height=350</flash>
</math></center>
</center>


===Rozkład wykładniczy===
oraz zachowujemy powyższy wykres:


Rozkład  <math>\displaystyle P</math> nazywamy  rozkładem  wykładniczym, jeżeli
''<pre> > g1 := %:</pre>''
istnieje taka liczba <math>\displaystyle \lambda > 0</math>, że funkcja <math>\displaystyle f\colon {\Bbb R}\longrightarrow {\Bbb R}</math>,
określona wzorem:


<center><math>\displaystyle f(x) = \left\{ \begin{array} {rl}
Dla wygody obliczamy jeszcze raz nadzieję i wariancję dla pojedynczej kostki:
0 & \mbox{ dla } x<0\\
\lambda e^{-\lambda x} & \mbox{ dla }  x \ge 0,
\end{array}  \right. </math></center>


jest gęstością tego rozkładu.
''> ek := add(i,i=1..6)/6: vk := add(i^2,i=1..6)/6 - ek^2:''


Poniższy wykres przedstawia rozkład wykładniczy o parametrze <math>\displaystyle \lambda = 0.25</math>.
a następnie obliczamy nadzieję i wariancję sumy:


''tutaj rysunek 86.eps''
''> es := n*ek;  vs := n*vk;''


Wykres ten oraz wykres  ze strony {prr13} sugerują, że
między rozkładem geometrycznym i wykładniczym mogą
istnieć  pewne związki. Tak rzeczywiście  jest -- będzie to
uzasadnione poniżej.


Jak łatwo sprawdzić, dystrybuanta tego rozkładu wyraża
<center><math>\mathit{es} := 3500
się wzorem:
</math></center>


<center><math>\displaystyle F(x) = \int_{-\infty}^xf(t)\,dt =
\left\{ \begin{array} {rl}
0 & \mbox{ dla } x<0\\
1 -  e^{-\lambda x} & \mbox{ dla }  x \ge 0.
\end{array}  \right. </math></center>


Nadzieja matematyczna oraz  wariancja  w  rozkładzie
<center><math>
wykładniczym wyrażają się wzorami:
\mathit{vs} := {\frac {8750}{3}}
<center><math>\displaystyle
{\Bbb E}(X) = \frac{1}{\lambda},  \hspace{2cm} {\Bbb D}^2 (X)  =
\frac{1}{\lambda^2}.
</math></center>
</math></center>


Następująca animacja pokazuje, jak zmienia się gęstość rozkładu wykładniczego w zależności od parametru <math>\displaystyle \lambda</math>:


Spróbujemy  teraz uzasadnić,  że  rozkład wykładniczy jest
Przygotowujemy wykres gęstości rozkładu teoretycznego (lecz go
ciągłym  odpowiednikiem  rozkładu
jeszcze nie wyświetlamy):
geometrycznego. Mówiąc niezbyt ściśle, najpierw pokażemy, że
 
czas oczekiwania  na  pierwszy sukces w
  ''> g2 := plot(f(es,sqrt(vs)),3320..3680, color=black):''
nieskończonym ciągu niezależnych prób Bernoulliego ma  w
przybliżeniu rozkład  wykładniczy  o  parametrze
<math>\displaystyle \lambda</math>,  o  ile  czas pomiędzy kolejnymi
próbami jest bardzo mały, a
prawdopodobieństwo sukcesu w pojedynczej
próbie jest małe i wprost proporcjonalne do tego czasu, przy
czym parametr  <math>\displaystyle \lambda</math>  jest współczynnikiem tej
proporcjonalności.


Niech  <math>\displaystyle \lambda  >  0</math>
Obliczamy średnią i odchylenie standardowe dla szeregu rozdzielczego:
będzie ustalone. Oznaczamy:  <center><math>\displaystyle p  =
p_\delta  =  \lambda \delta\;\; \textrm{dla każdego} \;\delta >0.</math></center> Niech
<math>\displaystyle X_1,X_2,X_3,\dots</math>      będzie      ciągiem
niezależnych zmiennych losowych, z których każda ma
rozkład  dwupunktowy  o parametrze <math>\displaystyle p</math> oraz niech: <center><math>\displaystyle T =
\delta \min\{n \ge 1: X_n = 1\}.</math></center> Oznaczmy przez <math>\displaystyle F</math>
dystrybuantę rozkładu wykładniczego o  parametrze
<math>\displaystyle \lambda</math>.


{{twierdzenie|||
  ''> ee := evalf(stats[describe,mean]([lista]));''


Dla każdego <math>\displaystyle t \in {\Bbb R}</math>:
<center><math>\displaystyle
F_T(t)  \longrightarrow  F(t),    \;\;    \mbox{    gdy    }\;
\delta\longrightarrow 0. </math></center>
}}


'''Dowód. '''Dla <math>\displaystyle t\le  0</math>  sytuacja  jest  trywialna.
<center><math>\mathit{ee} := 3501.587500
Niech zatem <math>\displaystyle t > 0</math>. Zauważając, że zmienna losowa <math>\displaystyle \displaystyle T\over
\delta</math>  ma rozkład geometryczny  (patrz twierdzenie
[[##d41|Uzupelnic d41|]])  i&nbsp;oznaczając część całkowitą liczby
<math>\displaystyle t\over \delta</math> przez <math>\displaystyle n</math>, mamy kolejno:
<center><math>\displaystyle
F_T(t) = P(T \le t) = 1 - P(T>t) = 1 - P(\frac{T}{\delta}  >
\frac{t}{\delta}) = 1 - \sum_{k = n+1}^\infty (1-p)^{k-1}p
</math></center>
</math></center>
<center><math>\displaystyle
 
=1    -    (1    -    p)^n    =    1    -    (1    -
 
\frac{\lambda}{\delta^{-1}})^{\delta ^{-1}t
  ''> ve := evalf(stats[describe,standarddeviation]([lista]));''
-r_\delta} \longrightarrow 1 - e^{-\lambda t} = F(t),
 
 
<center><math>\mathit{ve} := 57.07764311
</math></center>
</math></center>
przy  <math>\displaystyle \delta  \rightarrow  0</math>,  gdyż  <math>\displaystyle 0  \le
r_\delta  = \frac{t}{\delta} - n < 1</math>. <math>\displaystyle \hfill{ \Box}</math>


Można też  pokazać (dowody pomijamy)  odpowiedniki
twierdzeń [[##d42|Uzupelnic d42|]] i [[##duj2|Uzupelnic duj2|]] dla przypadku ciągłego.


{{twierdzenie|||
Teraz przygotowujemy wykres gęstości rozkładu normalnego o parametrach
obliczonych z szeregu rozdzielczego:
 
  ''> g3 := plot(f(ee,ve),3320..3680, color=black,thickness=2):''
 
aby następnie wyświetlić, na jednym rysunku, histogram i dwie
poprzednio otrzymane gęstości:
 
  ''> plots[display](g1,g2,g3);''
 
 
<center>
<flash>file=Rp.1.95.swf|width=350|height=350</flash> 
</center>
 
 
Ponieważ bardzo  często zmiennymi losowymi są
niezależne próby Bernoulliego, więc  sformułujemy centralne  twierdzenie
graniczne specjalnie dla tego przypadku. Jest
to  natychmiastowy wniosek z&nbsp;twierdzenia Lindeberga-Levy'ego ([[#tw_9.3|twierdzenie 9.3]]).


Niech <math>\displaystyle T</math> będzie  nieujemną  zmienną  losową,
spełniającą warunek:
<center><math>\displaystyle
P(T  >  t  +  s|T  >  s)  = P(T  >  t)\;  \mbox{  dla  wszystkich } s,t > 0,
</math></center>
zwany  brakiem  pamięci.  Wówczas  <math>\displaystyle T</math>  ma  rozkład
wykładniczy.
}}


{{uwaga|||
{{twierdzenie|9.7 [de Moivre'a-Laplace'a]|tw_9.7|
Niech  <math>X_1,
\,X_2,  \,  X_3,\dots</math>  będzie  ciągiem
niezależnych prób Bernoulliego, z takim samym
prawdopodobieństwem  sukcesu <math>p</math> i
porażki <math>q = 1 - p</math> w każdej próbie (<math>0<p<1</math>). Wtedy:


Zachodzi także twierdzenie odwrotne do twierdzenia [[##trwbp|Uzupelnic trwbp|]]. }}


{{twierdzenie|||
<center><math>
P\left(\frac{S_n - np}{\sqrt{npq}} \le  x\right)  \longrightarrow
\Phi(x)</math>,</center>


Niech  <math>\displaystyle T_1,\dots, T_n</math>  będą  niezależnymi zmiennymi  losowymi
o&nbsp;takim  samym  rozkładzie
wykładniczym  z parametrem <math>\displaystyle \lambda</math> oraz niech <math>\displaystyle S_n
=T_1+\dots+T_n</math>.
Wtedy <math>\displaystyle S_n</math> ma rozkład o gęstości <math>\displaystyle f_n</math>, zadanej wzorem:
<center><math>\displaystyle
f_n(x)=\left\{ \begin{array} {rl}
\frac{\lambda(\lambda x)^{n-1}}{(n-1)!}  e^{-\lambda  x} & \mbox{ dla } x>0\\
0 & \mbox{ dla }  x \le 0.
\end{array}  \right.
</math></center>
Rozkład ten nosi
nazwę  rozkładu Erlanga. }}


===Proces Poissona===
dla każdego <math>x \in {\Bbb R}</math>. }}


Na zakończenie niniejszego wykładu sformułujemy twierdzenie, które pokazuje
Oczywiście, [[#tw_9.4|twierdzenie 9.4]] i [[#tw_9.5|twierdzenie 9.5]] można także z&nbsp;łatwością przeformułować dla
głęboki  związek między rozkładem wykładniczym i
przypadku  niezależnych prób Bernoulliego.
rozkładem Poissona.  Zdefiniujemy mianowicie tak
zwany  proces  Poissona, czyli  dla  każdego
dodatniego <math>\displaystyle t</math> określimy  zmienną  losową  <math>\displaystyle N_t</math>
mającą  rozkład Poissona  o  parametrze  <math>\displaystyle \lambda
t</math>.  Mówiąc  (na    razie) nieprecyzyjnie, zmienna
<math>\displaystyle N_t</math> oznacza  liczbę  sukcesów  w&nbsp;ciągu niezależnych
prób Bernoulliego, o ile próby te mogą być powtarzane
nieskończenie często, zaś prawdopodobieństwo pojawienia się
sukcesu w bardzo krótkim odcinku czasu <math>\displaystyle \Delta t</math> wynosi w
przybliżeniu  <math>\displaystyle \lambda t</math> -- mamy więc sytuację  opisaną
w  twierdzeniu  [[##dgw3|Uzupelnic dgw3|]] i w poprzedzającym go
komentarzu. W takim razie, czas  oczekiwania  na
pierwszy sukces ma rozkład wykładniczy o parametrze
<math>\displaystyle \lambda</math>,  a czas  oczekiwania  na  <math>\displaystyle n</math>  sukcesów  ma,
zgodnie  z  twierdzeniem
[[##derlang|Uzupelnic derlang|]], rozkład Erlanga. Na tej podstawie
nietrudno jest już określić rozkład zmiennej <math>\displaystyle N_t</math>.


{{twierdzenie|||
{{uwaga|9.8|uw 9.8|
Wyraźnie zaznaczamy,  że  centralne  twierdzenie
graniczne  jest prawdziwe przy dużo ogólniejszych
założeniach.  W  szczególności zmienne losowe nie muszą
mieć takiego samego rozkładu, a nawet nie  muszą być
niezależne. Jednakże, różnym wersjom centralnego  twierdzenia
granicznego  przyświeca ta sama idea:


Niech <math>\displaystyle T_1,T_2, T_3,\dots </math>  będą niezależnymi zmiennymi  losowymi
suma niewiele zależnych od siebie   składników
o&nbsp;takim samym rozkładzie
losowych, z których żaden nie dominuje istotnie nad
wykładniczym   z parametrem  <math>\displaystyle \lambda</math>.  Niech  <math>\displaystyle S_n
pozostałymi, ma w przybliżeniu rozkład normalny.
=T_1+\dots+T_n</math> oraz niech <math>\displaystyle S_0 = 0</math>.
Wtedy zmienna losowa <math>\displaystyle N_t</math>, zdefiniowana wzorem:
<center><math>\displaystyle
N_t := \max \{n: S_n \le  t\},
</math></center>
gdzie <math>\displaystyle t> 0</math> jest ustaloną liczbą,
ma rozkład Poissona  o
parametrze <math>\displaystyle \lambda t.</math> }}


'''Dowód. ''' Zauważmy, że zdarzenie <math>\displaystyle \{N_t  =  k\}</math>
}}
jest  równoważne zdarzeniu: <center><math>\displaystyle \{S_k \le t\} \setminus
<div class="references-small">  
\{S_{k+1} \le t \}.</math></center> Tak więc:
<references/>  
<center><math>\displaystyle
</div>
P(N_t = k) = F_k(t) - F_{k+1}(t),
</math></center>
gdzie  <math>\displaystyle F_k</math> oznacza  dystrybuantę  zmiennej  losowej
<math>\displaystyle S_k</math>.  Z twierdzenia  [[##derlang|Uzupelnic derlang|]] wynika, że <math>\displaystyle S_k</math> na rozkład Erlanga, tak więc:
<center><math>\displaystyle
F_k(t)  =  \int_0^t  \frac{\lambda(\lambda  x)^{k-1}}{(k-1)!}
e^{-\lambda x}\, dx \;\; \mbox{ dla } t >0.
</math></center>
Indukcyjnie można pokazać, że:
<center><math>\displaystyle
F_k(t) = 1 - e^{-\lambda t} \left(1  +  \frac{\lambda  t}{1!}  +
\dots + \frac{(\lambda t)^{k-1}}{(k-1)!} \right),
</math></center>
a stąd: <center><math>\displaystyle  \displaystyle P(N_t = k) = \frac{(\lambda
t)^k}{k!}e^{-\lambda t}.</math></center> <math>\displaystyle \hfill{ \Box}</math>

Aktualna wersja na dzień 21:46, 11 wrz 2023

Rozkład normalny i centralne twierdzenie graniczne

Centralną rolę w rachunku prawdopodobieństwa i statystyce pełni tak zwany rozkład normalny. Związane jest z nim słynne twierdzenie nazywane centralnym twierdzeniem granicznym. Na jego podstawie można w wielu sytuacjach zakładać, że zmienna losowa, którą jesteśmy właśnie zainteresowani, ma rozkład normalny.

Rozkład normalny

Carl Friedrich Gauss (1777-1855)
Zobacz biografię

Chyba najważniejszym ze znanych rozkładów jest tak zwany rozkład normalny, określany niekiedy jako rozkład Gaussa.

Rozkład P nazywamy rozkładem normalnym, jeżeli istnieją takie liczby rzeczywiste m oraz σ>0, że funkcja f:, określona wzorem:


f(x)=12πσe12(xmσ)2 dla x,


jest gęstością tego rozkładu.

Stosowana w tym przypadku notacja jest następująca: N(m,σ) oznacza rozkład normalny o parametrach m oraz σ - jego dystrybuantę oznaczamy przez Φm,σ. Wykres gęstości rozkładu normalnego nosi nazwę krzywej Gaussa.

Poniższy wykres przedstawia gęstości rozkładów N(20,1), N(20,2) i N(20,3), przy czym mniejszym wartościom σ odpowiada bardziej stromy wykres.

<flash>file=Rp.1.91.swf|width=350|height=350</flash>

Znaczenie parametru σ ilustruje też następująca animacja (tutaj m=20):


Kolejny wykres przedstawia gęstości rozkładów N(15,3), N(20,3) i N(25,3).

<flash>file=Rp.1.92.swf|width=350|height=350</flash>

Aby jeszcze lepiej uzmysłowić sobie znaczenie parametru m, proponujemy uruchomić następującą animację (σ=2):

Dystrybuantę Φ0,1 oznaczamy krótko przez Φ. Wyraża się więc ona następującym wzorem:


Φ(x)=12πxe12t2dt      (9.1)


Poniższy wykres przedstawia gęstość rozkładu N(0,1), który nazywamy standardowym rozkładem normalnym. Zauważmy, że zakreskowany obszar posiada pole równe Φ(1).

<flash>file=Rp.1.93.swf|width=350|height=350</flash>


Wartości dystrybuanty Φ zostały stablicowane oraz są dostępne w wielu komputerowych programach matematycznych lub statystycznych. Oczywiście, pakiety statystyczne programu Maple zawierają odpowiednie procedury (jakie?).

Zwróćmy uwagę na dwie własności funkcji Φ,posiadające (przede wszystkim) rachunkowe znaczenie. Wynikają one bezpośrednio ze wzoru na 9.1 Φ0,1 i mają oczywistą interpretację geometryczną (ćwiczenie). Mianowicie:


Φ(0)=12 oraz Φ(x)=1Φ(x) dla każdego x


oraz


Φ1(α)=Φ1(1α) dla każdego α[0,1]


Użyteczność powyższych wzorów można zaobserwować zwłaszcza wtedy, gdy nie dysponujemy odpowiednim pakietem komputerowym czy kalkulatorem, ale są one także ważne przy pewnych przekształceniach. Podobnie następna równość, którą można otrzymać stosując prostą zmianę zmiennych (patrz wykład z Analizy matematycznej), pozwala za pomocą Φ obliczać dystrybuanty Φm,σ dla pozostałych parametrów m i σ. Mianowicie:


Φm,σ(x)=Φ(xmσ)      (9.2)


Parametry m i σ mają bardzo wyraźną interpretację probabilistyczną. Okazuje się bowiem, iż nadzieja matematyczna oraz wariancja w rozkładzie N(m,σ) wyrażają się wzorami:


𝔼(X)=m,𝔻2(X)=σ2


Zauważmy też, że m jest punktem, w którym gęstość rozkładu N(m,σ) osiąga wartość największą, prosta x=m jest osią symetrii jej wykresu, zaś punkty mσ i m+σ - punktami przegięcia (patrz wykład z Analizy matematycznej).

Przykład 9.1

rk=P(mkσ,m+kσ) dla k=1,2,3


gdzie P jest rozkładem N(m,σ). Otrzymujemy:


rk=Φm,σ(m+kσ)Φm,σ(mkσ)=Φ(k)Φ(k)=2Φ(k)1


Korzystając z tablic lub z komputera, bez trudu dostajemy:


r10.682689492,r20.954499736,r30.997300204


Tak więc szansa znajdowania się poza przedziałem (m3σ,m+3σ) wynosi istotnie mniej niż 1%. Im mniejszy jest parametr σ, tym bardziej rozkład N(m,σ) jest "skupiony w okolicy" punktu x=m.


Dystrybuanta Φ rozkładu normalnego N(0,1) (w tablicy podano wartości Φ(x) dla x[0,3.09]).

x 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990


Jak powyżej wspomnieliśmy, rozkład normalny jest bardzo ważnym rozkładem. Dzieje się tak między innymi dlatego, że wiele zjawisk przyrodniczych, społecznych i innych przebiega zgodnie z tym rozkładem. Ma on również olbrzymie znaczenie teoretyczne. Poniżej przedstawiamy tak zwane centralne twierdzenie graniczne, które częściowo wyjaśnia znaczenie rozkładu normalnego. Twierdzenie to gwarantuje, że (pod pewnymi dość naturalnymi założeniami) suma dużej ilości niezależnych zmiennych losowych ma w przybliżeniu rozkład normalny. Na zakończenie tego punktu wypowiemy jeszcze jedno ważne twierdzenie dotyczące rozkładu normalnego.

Twierdzenie 9.2

Niech X1 oraz X2 będą niezależnymi zmiennymi losowymi o rozkładach normalnych, odpowiednio N(m1,σ1) oraz N(m2,σ2).

Wtedy:

  1. X1+X2N(m1+m2,σ12+σ22),
  2. aX1+bN(am1+b,|a|σ1) dla wszystkich a,b.

Centralne twierdzenie graniczne

Prawa wielkich liczb mówią o zbieżności średnich arytmetycznych, interpretowanych czasem jako średnie czasowe, niezależnych zmiennych losowych. Twierdzenia te mają olbrzymią wartość poznawczą, jednak ich wartość praktyczna jest nieco mniejsza. W szczególności, prawa wielkich liczb nie dają żadnej informacji o rozkładzie sumy zmiennych losowych, podczas gdy w wielu konkretnych zagadnieniach znajomość rozkładu ma podstawowe znaczenie. Właśnie centralne twierdzenie graniczne pozwala rozwiązać ten problem. Jak już wspominaliśmy, wynika z niego, że suma niezależnych zmiennych losowych spełniających zupełnie naturalne warunki ma w przybliżeniu rozkład normalny.

Ze względu na wagę centralnego twierdzenia granicznego wypowiemy je w trzech wersjach. Pierwsza z nich - do niedawna najczęściej używana - ma w dobie komputerów mniejsze znaczenie praktyczne,jednak w dalszym ciągu jest najbardziej popularna.

Założenie.

(Ω,Σ,P) jest przestrzenią probabilistyczną, zaś X1,X2,X3, - ciągiem niezależnych zmiennych losowych określonych na Ω. Wszystkie zmienne losowe Xi mają taki sam rozkład, a ich wspólna nadzieja matematyczna m oraz wariancja σ2 istnieją i są skończone, przy czym σ>0 (ten ostatni warunek oznacza, że zmienne losowe nie są stałymi). Jak zawsze oznaczamy:


Sn=X1++Xn


Będziemy badać najpierw zbieżność tak zwanych sum standaryzowanych, a dopiero potem wyciągniemy wnioski dotyczące samych sum Sn oraz średnich Snn.

Zmienną losową:


Zn:=SnE(Sn)D2(Sn)=Snnmσn


nazywamy standaryzacją sumy Sn. Jak łatwo zauważyć:


E(Zn)=0orazD2(Zn)=1


Twierdzenie 9.3 [Lindeberga-Levy'ego]


Dla każdego x zachodzi równość:


limnP(Znx)=Φ(x),


gdzie Φ jest dystrybuantą rozkładu N(0,1).

Dowód

Dowód tego twierdzenia jest długi i skomplikowany, więc nie przytaczamy go tutaj.

Twierdzenie Lindeberga-Levy'ego można wypowiedzieć w wersjach bardziej naturalnych - bez używania standaryzacji Zn.

Twierdzenie 9.4 [Centralne tw. graniczne dla sum]

Rozkład zmiennej losowej Sn jest asymptotycznie równy rozkładowi N(nm,σn). Inaczej:


limn(FSn(x)Φnm,σn(x))=0,


dla x.

Twierdzenie 9.5 [Centralne tw. graniczne dla średnich]

Rozkład zmiennej losowej Snn jest asymptotycznie równy rozkładowi N(m,σn). Inaczej:


limn(FSnn(x)Φm,σn(x))=0,


dla x.

Przykład 9.6.

Zinterpretujemy twierdzenie, mówiące o rozkładzie sumy niezależnych zmiennych losowych. Wyobraźmy sobie eksperyment polegający na wielokrotnym rzucie kostką do gry. Suma uzyskanych oczek S jest zmienną losową mającą, zgodnie z cytowanym twierdzeniem, w przybliżeniu rozkład N(nm,σn), gdzie m oraz σ są odpowiednio nadzieją matematyczną oraz odchyleniem standardowym zmiennej losowej X, reprezentującej wynik pojedynczego rzutu, a n jest liczbą wykonanych prób. Ponieważ X ma rozkład dyskretny, skupiony w punktach 1,2,3,4,5,6 przyjmowanych z jednakowym prawdopodobieństwem 16, więc bez trudu można stwierdzić, że:


m=3.5orazσ=10561.7078251


Przypuśćmy, że wykonano 1000 rzutów (n=1000). Wówczas suma S1000 ma w przybliżeniu rozkład N(3500,54,00617).

Zweryfikujmy "doświadczalnie" uzyskany wynik. W tym celu można przeprowadzić symulację tysiąca rzutów kostką za pomocą komputera, uzyskując odpowiednią wartość sumy wszystkich uzyskanych oczek. Doświadczenie to powtórzymy 400 razy, uzyskując 400 wartości sumy oczek. Poniżej przytaczamy kod programu Maple, umożliwiający przeprowadzenie takiej symulacji.

 > kostka := rand(1..6):
 > k := 400: n := 1000: lista := NULL:
 > from 1 to k do
 > S := 0:
 > from 1 to n do
 > S := S + kostka():
 > od:
 > lista := lista,S
 > od:

Aby graficznie zinterpretować otrzymane dane, najpierw sporządzamy odpowiedni szereg rozdzielczy (rozważamy 18 klas):

 > dane := stats[transform,tallyinto['skrajne']]([lista],
 > [seq(3320 + (i - 1)*20..3320 + i*20, i = 1..18)]);
         dane := [Weight(3480 .. 3500,55),
         Weight(3560 .. 3580,33), Weight(3660 .. 3680,0),
         Weight(3340 .. 3360,5), Weight(3540 .. 3560,31),
         Weight(3640 .. 3660,4), Weight(3360 .. 3380,2),
         Weight(3520 .. 3540,43), Weight(3420 .. 3440,28),
         Weight(3620 .. 3640,4), Weight(3460 .. 3480,53),
         Weight(3320 .. 3340,0), Weight(3500 .. 3520,66),
         Weight(3600 .. 3620,10), Weight(3380 .. 3400,8),
         Weight(3400 .. 3420,13), Weight(3440 .. 3460,28),
         Weight(3580 .. 3600,17)];

Sprawdzamy, czy są sumy, które nie zostały uwzględnione - sumy te byłyby wpisane na listę o nazwie skrajne:

 > skrajne;
skrajne

Okazało się więc, że w tym przypadku wszystkie sumy zostały uwzględnione.

W celu sporządzenia histogramu, dobieramy wysokości słupków tak, aby pola wszystkich słupków dawały w sumie 1:

 > dane1 := stats[transform,
 > scaleweight[1/nops([lista])]](dane);}{}
         dane1 := [Weight(3480 .. 3500,11/80), Weight(3560 .. 3580,33/400),
         Weight(3660 .. 3680,0), Weight(3340 .. 3360,1/80), Weight(3540 .. 3560,31/400),
         Weight(3640 .. 3660,1/100), Weight(3360 .. 3380,1/200), Weight(3520 .. 3540,43/400),
         Weight(3420 .. 3440,7/100), Weight(3620 .. 3640,1/100), Weight(3460 .. 3480,53/400),
         Weight(3320 .. 3340,0), Weight(3500 .. 3520,33/200), Weight(3600 .. 3620,1/40),
         Weight(3380 .. 3400,1/50), Weight(3400 .. 3420,13/400), Weight(3440 .. 3460,7/100),
         Weight(3580 .. 3600,17/400)];

Teraz rysujemy histogram:

 > stats[statplots,histogram](dane1);

<flash>file=Rp.1.94.swf|width=350|height=350</flash>

oraz zachowujemy powyższy wykres:

 > g1 := %:

Dla wygody obliczamy jeszcze raz nadzieję i wariancję dla pojedynczej kostki:

> ek := add(i,i=1..6)/6: vk := add(i^2,i=1..6)/6 - ek^2:

a następnie obliczamy nadzieję i wariancję sumy:

> es := n*ek;  vs := n*vk;


es:=3500


vs:=87503


Przygotowujemy wykres gęstości rozkładu teoretycznego (lecz go jeszcze nie wyświetlamy):

 > g2 := plot(f(es,sqrt(vs)),3320..3680, color=black):

Obliczamy średnią i odchylenie standardowe dla szeregu rozdzielczego:

 > ee := evalf(stats[describe,mean]([lista]));


ee:=3501.587500


 > ve := evalf(stats[describe,standarddeviation]([lista]));


ve:=57.07764311


Teraz przygotowujemy wykres gęstości rozkładu normalnego o parametrach obliczonych z szeregu rozdzielczego:

 > g3 := plot(f(ee,ve),3320..3680, color=black,thickness=2):

aby następnie wyświetlić, na jednym rysunku, histogram i dwie poprzednio otrzymane gęstości:

 > plots[display](g1,g2,g3);


<flash>file=Rp.1.95.swf|width=350|height=350</flash>


Ponieważ bardzo często zmiennymi losowymi są niezależne próby Bernoulliego, więc sformułujemy centralne twierdzenie graniczne specjalnie dla tego przypadku. Jest to natychmiastowy wniosek z twierdzenia Lindeberga-Levy'ego (twierdzenie 9.3).


Twierdzenie 9.7 [de Moivre'a-Laplace'a]

Niech X1,X2,X3, będzie ciągiem niezależnych prób Bernoulliego, z takim samym prawdopodobieństwem sukcesu p i porażki q=1p w każdej próbie (0<p<1). Wtedy:


P(Snnpnpqx)Φ(x),


dla każdego x.

Oczywiście, twierdzenie 9.4 i twierdzenie 9.5 można także z łatwością przeformułować dla przypadku niezależnych prób Bernoulliego.

Uwaga 9.8

Wyraźnie zaznaczamy, że centralne twierdzenie graniczne jest prawdziwe przy dużo ogólniejszych założeniach. W szczególności zmienne losowe nie muszą mieć takiego samego rozkładu, a nawet nie muszą być niezależne. Jednakże, różnym wersjom centralnego twierdzenia granicznego przyświeca ta sama idea:

suma niewiele zależnych od siebie składników losowych, z których żaden nie dominuje istotnie nad pozostałymi, ma w przybliżeniu rozkład normalny.

<references/>