Rachunek prawdopodobieństwa i statystyka/Wykład 9: Rozkład normalny i centralne twierdzenie graniczne: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Arek (dyskusja | edycje)
Nie podano opisu zmian
 
Arek (dyskusja | edycje)
Nie podano opisu zmian
Linia 1: Linia 1:
{dal}{{-1.1cm}}[chapter]
==Streszczenie==
{dak}[dal]{{-0.1cm}}
{zad}{Zadanie }[chapter]
{zam}{Ćwiczenie}[chapter]
{ptst}{Pytanie}[chapter]


{{przyklad|||
Centralną rolę w rachunku prawdopodobieństwa i statystyce
pełni tak zwany rozkład normalny. Związane jest z nim słynne
twierdzenie nazywane centralnym twierdzeniem granicznym. Na jego
podstawie można w wielu sytuacjach zakładać, że zmienna losowa,
którą jesteśmy właśnie zainteresowani, ma rozkład normalny. 


}
'''Słowa kluczowe: ''' rozkład normalny, krzywa Gaussa, standaryzacja,
centralne twierdzenie graniczne.


{{przyklad|#1||
==Rozkład normalny==


}
Chyba najważniejszym ze znanych rozkładów jest tak zwany rozkład
normalny, określany niekiedy jako rozkład Gaussa.


{mapleex}
Rozkład <math>\displaystyle P</math> nazywamy rozkładem normalnym,  jeżeli
istnieją takie liczby rzeczywiste <math>\displaystyle m</math> oraz <math>\displaystyle \sigma>0</math>, że funkcja
<math>\displaystyle f\colon {\Bbb R}\longrightarrow {\Bbb R}</math>, określona wzorem:
<center><math>\displaystyle
f(x) =  \frac{1}{\sqrt{2\pi}\sigma}\,e^{-\frac{1}{2}(\frac{x
- m}{\sigma})^2}\;\;\mbox{ dla } x\in {\Bbb R},
</math></center>
jest gęstością tego rozkładu.


{Przegląd ważniejszych rozkładów}
Stosowana  w tym przypadku notacja  jest    następująca:
<math>\displaystyle N(m,\sigma)</math> oznacza rozkład normalny  o
parametrach  <math>\displaystyle m</math>  oraz    <math>\displaystyle \sigma</math> -- jego
dystrybuantę oznaczamy przez  <math>\displaystyle \Phi_{m,\sigma}</math>. Wykres gęstości rozkładu normalnego nosi
nazwę krzywej Gaussa.


==Streszczenie==
Poniższy wykres przedstawia gęstości rozkładów
<math>\displaystyle N(20,1)</math>, <math>\displaystyle N(20,2)</math> i <math>\displaystyle N(20,3)</math>, przy czym większym wartościom <math>\displaystyle \sigma</math>
odpowiada bardziej stromy wykres.


Omówimy kilka najczęściej spotykanych w zastosowaniach
''tutaj rysunek 91.eps''
rozkładów dyskretnych i ciągłych, charakteryzujących często
zmienne losowe związane ze zliczaniem oraz czasem oczekiwania na
szczególne zdarzenia. Jednak najważniejszy rozkład, tak zwany
rozkład normalny, zostanie omówiony w następnym rozdziale. 


'''Słowa kluczowe: ''' rozkład dwumianowy, rozkład wielomianowy, rozkład geometryczny, rozkład hipergeometryczny, rozkład Pascala,
Znaczenie parametru <math>\displaystyle \sigma</math> ilustruje też następująca animacja (tutaj <math>\displaystyle m = 20</math>):
rozkład Poissona, rozkład wykładniczy, proces
Poissona.<br>[1cm]
W poprzednich wykładach  "uprawialiśmy" dość
ogólną teorię rachunku prawdopodobieństwa, dlatego teraz
zajmiemy się aspektem bardziej praktycznym i omówimy kilka
podstawowych rozkładów oraz wskażemy na niektóre typowe
sytuacje, w których rozkłady te występują. Pragniemy jednak
podkreślić, iż rozważane tutaj rozkłady nie wyczerpują
wszystkich ważnych, występujących w literaturze przedmiotu
rozkładów prawdopodobieństwa.


==Rozkłady związane ze zliczaniem==
Kolejny wykres przedstawia gęstości rozkładów
* Ile eksperymentów zakończy się sukcesem?
<math>\displaystyle N(15,3)</math>, <math>\displaystyle N(20,3)</math> i <math>\displaystyle N(25,3)</math>.
* Ile jest zdarzeń sprzyjających wylosowaniu "naszych" numerów w grze
liczbowej?
* Ile zgłoszeń  napływa średnio w ciągu godziny do
pogotowia ratunkowego w  godzinach nocnych?
* Ile wypadków śmiertelnych ma miejsce podczas kąpieli w  morzu?


-0.2in
''tutaj rysunek 92.eps''


Aby umieć odpowiadać na te i podobne pytania, najpierw należy zawsze zdać sobie
Aby jeszcze lepiej uzmysłowić sobie znaczenie parametru <math>\displaystyle m</math>, proponujemy uruchomić następującą animację
sprawę z natury rozważanego zjawiska, czyli, mówiąc bardziej precyzyjnie, z
(tutaj <math>\displaystyle \sigma = 2</math>):  
charakteru rozkładu prawdopodobieństwa odpowiadającego  danej
sytuacji. Okazuje się, że wiele zupełnie różnych od siebie zjawisk
zachodzi według podobnych schematów -- na przykład jest  w istocie
losowaniem bez zwracania lub ze zwracaniem. Omówimy teraz kolejno kilka
podstawowych rozkładów, odpowiedzialnych za  większość  tego typu
sytuacji.


Na początku powtórzymy poznaną już wcześniej (patrz przykład [[##prd|Uzupelnic prd|]]) definicję rozkładu dwumianowego.
.5in


===Rozkład dwumianowy===
Dystrybuantę <math>\displaystyle \Phi_{0,1}</math>
oznaczamy krótko przez <math>\displaystyle \Phi</math>. Wyraża się więc ona następującym wzorem:


Rozkład <math>\displaystyle P</math> nazywamy rozkładem  dwumianowym,  jeżeli
<center><math>\displaystyle  
istnieją liczby <math>\displaystyle n > 0</math> oraz <math>\displaystyle p</math> i <math>\displaystyle q</math> takie, że <math>\displaystyle 0 <p,q <1</math>, <math>\displaystyle p +
\Phi(x)                 =                 \frac{1}{\sqrt{2\pi}}
q = 1</math>  oraz zachodzi równość:
\int_{-\infty}^xe^{-\frac{1}{2}t^2}dt.
<center><math>\displaystyle  P(k) = \left(\begin{array} {@{}c@{}}n\\k\end{array} \right)p^kq^{n-k}\;\; \mbox{
dla } k = 0,1,\dots,n.
</math></center>
</math></center>


Następujący wykres przedstawia rozkład dwumianowy z parametrami
Poniższy wykres przedstawia gęstość rozkładu
<math>\displaystyle n = 12</math> i <math>\displaystyle p = 0.6</math>:
<math>\displaystyle N(0,1)</math>, który nazywamy standardowym rozkładem normalnym. Zauważmy, że zakreskowany obszar posiada pole równe <math>\displaystyle \Phi(1)</math>.


''tutaj rysunek 81.eps''
''tutaj rysunek 93.eps''


Wzór  dwumienny  Newtona  pozwala  stwierdzić,
Wartości dystrybuanty <math>\displaystyle \Phi</math> zostały stablicowane
że <math>\displaystyle \sum_{k=0}^n P(k) = 1</math>, a&nbsp;więc powyższa równość
(patrz  strona&nbsp;{rnor})  oraz są dostępne w wielu komputerowych
rzeczywiście określa rozkład <math>\displaystyle P</math> w  sposób
programach  matematycznych  lub statystycznych.
jednoznaczny (jest to oczywiście rozkład dyskretny).
Oczywiście, pakiety statystyczne programu Maple zawierają odpowiednie procedury (jakie?).
Poprzednio mieliśmy już okazję poznać różne sytuacje, w których on występuje --
następujące twierdzenie formalizuje nasze dotychczasowe rozważania:


{{twierdzenie|||
Zwróćmy uwagę na dwie  własności
 
funkcji   <math>\displaystyle \Phi</math>,   posiadające (przede wszystkim)
Niech  <math>\displaystyle X_1,\dots, X_n</math> będą  niezależnymi
rachunkowe    znaczenie.   Wynikają    one
zmiennymi losowymi o takim  samym  rozkładzie
bezpośrednio ze  wzoru  ([[##eq:par01|Uzupelnic eq:par01|]]) i mają oczywistą
dwupunktowym. Wtedy suma: <center><math>\displaystyle S_n = X_1 + \dots + X_n</math></center>
interpretację geometryczną (ćwiczenie). Mianowicie:
ma rozkład dwumianowy.  }}
<center><math>\displaystyle  
 
\Phi (0) = \frac{1}{2}\;\; \mbox{ oraz } \;\;\Phi
'''Dowód.  '''   Zdarzenie <math>\displaystyle \{S_n = k\}</math> jest sumą rozłącznych zdarzeń polegających na tym, że dokładnie <math>\displaystyle k</math> spośród
(x) = 1 - \Phi (-x) \mbox{ dla każdego } x \in {\Bbb R}
zmiennych losowych <math>\displaystyle X_1,  \dots , X_n</math> przyjmuje wartość <math>\displaystyle 1</math>, a więc pozostałe <math>\displaystyle n-k</math> zmiennych przyjmuje wartość <math>\displaystyle 0</math>.
Niech <math>\displaystyle A_{i_1, \dots, i_k}</math> będzie jednym z takich zdarzeń, gdzie <math>\displaystyle i_1, \dots, i_k</math> oznaczają numery tych zmiennych, które
przyjmują wartość <math>\displaystyle 1</math>. Z kolei każde zdarzenie <math>\displaystyle A_{i_1, \dots, i_k}</math> jest iloczynem <math>\displaystyle n</math> zdarzeń postaci <math>\displaystyle \{X_j = \varepsilon_j\}</math>,
gdzie <math>\displaystyle \varepsilon_j = 1</math> lub <math>\displaystyle \varepsilon_j = 0</math>, a prawdopodobieństwa tych zdarzeń są równe odpowiednio <math>\displaystyle p</math> i <math>\displaystyle q</math>. Z niezależności
zmiennych <math>\displaystyle X_1,  \dots , X_n</math> wynika, że: <center><math>\displaystyle P(A_{i_1, \dots, i_k} ) = p^kq^{n-k}.</math></center> Ponieważ wskaźniki
<math>\displaystyle i_1, \dots, i_k</math> można wybrać na <math>\displaystyle \left(\begin{array} {@{}c@{}}n\\k\end{array} \right)</math> sposobów, więc: <center><math>\displaystyle
P(A) = P\left(\bigcup_{i_1, \dots, i_k}A_{i_1, \dots, i_k}\right) = \sum_{i_1, \dots, i_k}P(A_{i_1, \dots, i_k})
</math></center>
</math></center>
<center><math>\displaystyle =
oraz
\sum_{i_1, \dots, i_k}p^kq^{n-k} = \left(\begin{array} {@{}c@{}}n\\k\end{array} \right)p^kq^{n-k}.
<center><math>\displaystyle  
\Phi^{-1} (\alpha) = -\Phi^{-1}(1-\alpha) \mbox{ dla każdego } \alpha \in [0,1].
</math></center>
</math></center>
<math>\displaystyle \hfill{\Box}</math>
Użyteczność powyższych wzorów można zaobserwować zwłaszcza wtedy, gdy nie
dysponujemy odpowiednim pakietem komputerowym czy
kalkulatorem, ale są one także ważne przy pewnych
przekształceniach. Podobnie następna równość, którą
można otrzymać stosując prostą  zmianę zmiennych[[AM]], pozwala za
pomocą <math>\displaystyle \Phi</math> obliczać dystrybuanty
<math>\displaystyle \Phi_{m,\sigma}</math> dla pozostałych parametrów <math>\displaystyle m</math> i <math>\displaystyle \sigma</math>. Mianowicie:


{Losowanie ze zwracaniem} Przypuśćmy,  że  pewna
<center><math>\displaystyle \Phi_{m,\sigma}(x) = \Phi\left(\frac{x-m}{\sigma}\right).
populacja  składa  się  z  <math>\displaystyle N</math>  elementów.
Niech <math>\displaystyle p</math> będzie prawdopodobieństwem tego, że dany  element  z
tej populacji ma pewną własność, powiedzmy własność
<math>\displaystyle W</math>. Losujemy ze zwracaniem  <math>\displaystyle n</math>  elementów  i
oznaczamy  przez  <math>\displaystyle X</math>  liczbę tych spośród nich, które
mają  własność  <math>\displaystyle W</math>.  Widać,  że zmienna losowa
<math>\displaystyle X</math> ma rozkład dwumianowy.  


Przypomnimy teraz wyprowadzone w ćwiczeniu [[##cprd|Uzupelnic cprd|]] wzory na nadzieję matematyczną i wariancję zmiennej losowej
o rozkładzie dwumianowym.
Wyrażają się one następującymi wzorami:
<center><math>\displaystyle
{\Bbb E}(X) = np, \hspace{1.5cm} {\Bbb D}^2(X) = npq.
</math></center>
</math></center>


W celu wyrobienia sobie intuicji związanej z rozkładem dwumianowym, proponujemy obejrzeć animację:
Parametry <math>\displaystyle m</math> i <math>\displaystyle \sigma</math>  mają  bardzo wyraźną  interpretację
 
probabilistycznąOkazuje się bowiem, iż  nadzieja
===Rozkład wielomianowy===
matematyczna oraz wariancja w rozkładzie <math>\displaystyle N(m,\sigma)</math>
 
wyrażają się wzorami:
Uogólnieniem rozkładu dwumianowego  jest  rozkład
wielomianowy.
 
Rozkład <math>\displaystyle P</math> nazywamy rozkładem
wielomianowym,  jeżeli  istnieje liczba naturalna <math>\displaystyle n</math>
oraz liczby <math>\displaystyle p_i > 0</math>, <math>\displaystyle  i = 1.\dots r</math>, <math>\displaystyle r>1</math>,
takie, że
<math>\displaystyle \sum_{i= 1}^rp_i = 1</math> oraz dla  wszystkich
układów liczb całkowitych nieujemnych <math>\displaystyle k_1, \dots ,k_r</math>,
dla których <math>\displaystyle \sum_{i=1}^r k_i = n</math>, zachodzi równość:
<center><math>\displaystyle  
<center><math>\displaystyle  
P(k_1,  \dots,  k_r)   =   \frac{n!}{k_1!  \cdot  \dots  \cdot
{\Bbb E}(X) = m, \hspace{2cm} {\Bbb D}^2 (X) = \sigma^2.
k_r!}p_1^{k_1} \cdot \dots \cdot p_r^{k_r}.
</math></center>
</math></center>


Widzimy oczywiście, że gdy <math>\displaystyle r= 2</math>, rozkład
Zauważmy też, że <math>\displaystyle m</math> jest punktem, w którym gęstość
wielomianowy  jest  w istocie równoważny rozkładowi
rozkładu <math>\displaystyle N(m,\sigma)</math>  osiąga wartość
dwumianowemu (kładziemy <math>\displaystyle p_1  = p</math> i <math>\displaystyle p_2 =q</math>).
największą, prosta <math>\displaystyle x = m</math> jest osią symetrii jej wykresu,
 
zaś punkty <math>\displaystyle m- \sigma </math> i <math>\displaystyle m+\sigma</math>  -- punktami
Wyobraźmy sobie, że  pewien  eksperyment powtarzamy
przegięcia[[AM]].
<math>\displaystyle n</math> razy, przy czym spełnione są następujące warunki:
 
każdy eksperyment może dać dokładnie <math>\displaystyle r</math>  różnych wyników,
powiedzmy "<math>\displaystyle 1</math>", , "<math>\displaystyle r</math>",
 
prawdopodobieństwa poszczególnych  wyników  są  w  każdym
eksperymencie    zawsze  takie  same  --
oznaczamy  je przez <math>\displaystyle p_i</math>, <math>\displaystyle i = 1
\dots r</math>,
 
eksperymenty są niezależne od siebie.
 
Niech <math>\displaystyle X_1, \dots  ,  X_r</math>  oznaczają
odpowiednio  liczbę eksperymentów
zakończonych  wynikiem  "<math>\displaystyle 1</math>", ,  "<math>\displaystyle r</math>". Wtedy
łatwo stwierdzić, stosując indukcję, że wektor
losowy  <math>\displaystyle (X, \dots ,X_r)</math> ma rozkład wielomianowy.
 
===Rozkład Poissona===


Rozkład <math>\displaystyle P</math> jest rozkładem Poissona, jeżeli istnieje
Postaramy się uzasadnić ilościowo, że  parametr  <math>\displaystyle \sigma</math>
taka  liczba <math>\displaystyle \lambda > 0</math>, że:
jest miarą "rozrzutu" rozkładu
<math>\displaystyle N(m,\sigma)</math>, względem punktu <math>\displaystyle m</math>. Obliczmy w tym celu:
<center><math>\displaystyle  
<center><math>\displaystyle  
P(k) = e^{-\lambda}\,\frac{\lambda^k}{k!}\;\; \mbox{ dla } k =
r_k = P(m - k\sigma,m +k\sigma) \;\;\mbox{ dla } k =1,2,3,
0,1,2,\dots
</math></center>
</math></center>
 
gdzie  <math>\displaystyle P</math>   jest  rozkładem   <math>\displaystyle N(m,\sigma)</math>.
Poniższy wykres przedstawia rozkład Poissona o parametrze <math>\displaystyle \lambda = 5</math>.
Otrzymujemy:
 
''tutaj rysunek 82.eps''
 
Okazuje się, że wiele zjawisk podlega  właśnie
rozkładowi Poissona. Kolejne twierdzenie
mówi o tym, że  jest on  w   pewnym   sensie  granicą
rozkładów  dwumianowych.  W szczególności, gdy mamy do
czynienia z dużą  <math>\displaystyle (n  >100)</math>  liczbą  niezależnych
prób Bernoulliego, z jednakowym, małym <math>\displaystyle (p <0.1)</math>
prawdopodobieństwem sukcesu każda,  to liczba
sukcesów ma niemal dokładnie rozkład Poissona z
parametrem <math>\displaystyle \lambda  =  np</math>. Zgodność taka została
zaobserwowana w wielu konkretnych sytuacjach
praktycznych.  Co  więcej,  istnieją  dość  dokładne
oszacowania błędu, jaki popełniamy przybliżając
rozkład dwumianowy rozkładem Poissona. W tym miejscu
poprzestaniemy jedynie na wykazaniu prostego
twierdzenia wskazującego na możliwość takiego
przybliżania  oraz  na  podaniu danych liczbowych
ilustrujących jego dokładność.
 
{{twierdzenie|||
 
Niech  liczby  <math>\displaystyle p_n  >0</math>  tworzą  taki
ciąg,    że: <center><math>\displaystyle \lim_{n\rightarrow \infty}n  p_n  =
\lambda  >0</math></center>  oraz niech  <math>\displaystyle k  </math>  będzie nieujemną liczbą
naturalną. Wtedy:
<center><math>\displaystyle  
<center><math>\displaystyle  
\lim_{n\rightarrow \infty} \left(\begin{array} {@{}c@{}}n\\k\end{array} \right)p_n^k(1 - p_n)^{n-k} =
r_k = \Phi_{m,\sigma}(m + k\sigma) - \Phi_{m,\sigma}(m - k\sigma)
e^{-\lambda}\,\frac{\lambda^k}{k!}.
= \Phi(k) - \Phi(-k) = 2\Phi(k) - 1.
</math></center>
</math></center>


}}
Korzystając z tablic lub z komputera, bez trudu dostajemy:


'''Dowód. '''Oznaczając  <math>\displaystyle \lambda_n  =  np_n</math>,  dostajemy
<center><math>\displaystyle r1 \approx 0.682689492, \;\;r2 \approx 0.954499736, \;\;r3 \approx 0.997300204.
równość:
<center><math>\displaystyle  
\left(\begin{array} {@{}c@{}}n\\k\end{array} \right)p_n^k(1-p_n)^{n-k}  =
\frac{\lambda_n^k}{k!}\cdot\frac{n(n-1)\cdot
\dots \cdot(n-k+1)}{n^k}\cdot\left(1- \frac{\lambda_n}{n}\right)^n\cdot
\left(1-\frac{\lambda_n}{n}\right)^{-k}\!\!.
</math></center>
</math></center>
Ponieważ <math>\displaystyle k</math> jest ustalone, zatem  ostatni
czynnik  zmierza  do  1. Drugi czynnik jest równy:
<center><math>\displaystyle 1\cdot (1 - \frac{1}{n})  \cdot  \dots  \cdot (1-
\frac{k-1}{n}),</math></center> a więc też zmierza do 1. Istotne są
natomiast czynniki pierwszy oraz trzeci, które zmierzają
odpowiednio  do: <center><math>\displaystyle \frac{\lambda^k}{k!}\;\;\textrm {oraz}\;\;
e^{-\lambda}.</math></center> <math>\displaystyle \hfill{ \Box}</math>


Poniższa tabela porównuje rozkład  dwumianowy
Tak więc  szansa znajdowania się poza przedziałem  <math>\displaystyle (m  -3\sigma,\;m  +
rozkładem Poissona.  
3\sigma)</math> wynosi istotnie mniej niż <math>\displaystyle 1\%</math>. Im mniejszy
jest parametr <math>\displaystyle \sigma</math>, tym bardziej rozkład
<math>\displaystyle N(m,\sigma)</math> jest "skupiony w okolicy"  punktu <math>\displaystyle x
=m</math>.


{-0.6cm}
{Dystrybuanta    <math>\displaystyle \Phi</math>      rozkładu
normalnego <math>\displaystyle N(0,1)</math>{W tablicy podano wartości
<math>\displaystyle \Phi(x)</math> dla <math>\displaystyle x\in [0, 3.09]</math>.}}
.1in
 
{


{| border=1
{| border=1
Linia 227: Linia 140:
|-  
|-  
|  
|  
||  <math>\displaystyle n = 100</math>, || <math>\displaystyle p = 0,01</math>  || <math>\displaystyle n = 50</math>, || <math>\displaystyle p = 0,1</math>  || <math>\displaystyle n = 100</math>,   ||  
<math>\displaystyle x</math> || 0,00 || 0,01 || 0,02 || 0,03 || 0,04 || 0,05 || 0,06 || 0,07 || 0,08 || 0,09
<math>\displaystyle p = 0,1</math>
|-
|-
| || rozkład  || rozkład  || rozkład  || rozkład  || rozkład  ||   rozkład 
|  
0,0 || 0,5000 || 0,5040 || 0,5080 || 0,5120 || 0,5160 || 0,5199 || 0,5239 || 0,5279 || 0,5319 || 0,5359
|-
| 0,1 || 0,5398 || 0,5438 || 0,5478 || 0,5517 || 0,5557 || 0,5596 || 0,5636 || 0,5675 || 0,5714 || 0,5753
|-
| 0,2 || 0,5793 || 0,5832 || 0,5871 || 0,5910 || 0,5948 || 0,5987 || 0,6026 || 0,6064 || 0,6103 || 0,6141
|-
| 0,3 || 0,6179 || 0,6217 || 0,6255 || 0,6293 || 0,6331 || 0,6368 || 0,6406 || 0,6443 || 0,6480 || 0,6517
|-
| 0,4 || 0,6554 || 0,6591 || 0,6628 || 0,6664 || 0,6700 || 0,6736 || 0,6772 || 0,6808 || 0,6844 || 0,6879
|-
| 0,5 || 0,6915 || 0,6950 || 0,6985 || 0,7019 || 0,7054 || 0,7088 || 0,7123 || 0,7157 || 0,7190 || 0,7224
|-
| 0,6 || 0,7257 || 0,7291 || 0,7324 || 0,7357 || 0,7389 || 0,7422 || 0,7454 || 0,7486 || 0,7517 || 0,7549
|-
| 0,7 || 0,7580 || 0,7611 || 0,7642 || 0,7673 || 0,7704 || 0,7734 || 0,7764 || 0,7794 || 0,7823 || 0,7852
|-
| 0,8 || 0,7881 || 0,7910 || 0,7939 || 0,7967 || 0,7995 || 0,8023 || 0,8051 || 0,8078 || 0,8106 || 0,8133
|-
| 0,9 || 0,8159 || 0,8186 || 0,8212 || 0,8238 || 0,8264 || 0,8289 || 0,8315 || 0,8340 || 0,8365 || 0,8389
|-
|
1,0 || 0,8413 || 0,8438 || 0,8461 || 0,8485 || 0,8508 || 0,8531 || 0,8554 || 0,8577 || 0,8599 || 0,8621
|-
| 1,1 || 0,8643 || 0,8665 || 0,8686 || 0,8708 || 0,8729 || 0,8749 || 0,8770 || 0,8790 || 0,8810 || 0,8830
|-
| 1,2 || 0,8849 || 0,8869 || 0,8888 || 0,8907 || 0,8925 || 0,8944 || 0,8962 || 0,8980 || 0,8997 || 0,9015
|-
| 1,3 || 0,9032 || 0,9049 || 0,9066 || 0,9082 || 0,9099 || 0,9115 || 0,9131 || 0,9147 || 0,9162 || 0,9177
|-
|-
| <math>\displaystyle k</math>  || dwum.  || Poissona || dwum.  || Poissona || dwum.  || Poissona
| 1,4 || 0,9192 || 0,9207 || 0,9222 || 0,9236 || 0,9251 || 0,9265 || 0,9279 || 0,9292 || 0,9306 || 0,9319
|-
|-
| 0 || 0,3660  || 0,3679  || 0,0052  || 0,0067  || 0,0000  || 0,0000
| 1,5 || 0,9332 || 0,9345 || 0,9357 || 0,9370 || 0,9382 || 0,9394 || 0,9406 || 0,9418 || 0,9429 || 0,9441
|-
|-
| 1 || 0,3697  || 0,3679  || 0,0286  || 0,0337  || 0,0003  || 0,0005
| 1,6 || 0,9452 || 0,9463 || 0,9474 || 0,9484 || 0,9495 || 0,9505 || 0,9515 || 0,9525 || 0,9535 || 0,9545
|-
|-
| || 0,1849  || 0,1839  || 0,0779  || 0,0842  || 0,0016  || 0,0023
| 1,7 || 0,9554 || 0,9564 || 0,9573 || 0,9582 || 0,9591 || 0,9599 || 0,9608 || 0,9616 || 0,9625 || 0,9633
|-
|-
| || 0,0610  || 0,0613  || 0,1386  || 0,1404  || 0,0059  || 0,0076
| 1,8 || 0,9641 || 0,9649 || 0,9656 || 0,9664 || 0,9671 || 0,9678 || 0,9686 || 0,9693 || 0,9699 || 0,9706
|-
|-
| || 0,0149  || 0,0153  || 0,1809  || 0,1755  || 0,0159  || 0,0189
| 1,9 || 0,9713 || 0,9719 || 0,9726 || 0,9732 || 0,9738 || 0,9744 || 0,9750 || 0,9756 || 0,9761 || 0,9767
|-
|-
| || 0,0029  || 0,0031  || 0,1849  || 0,1755  || 0,0339  || 0,0378
|  
2,0 || 0,9772 || 0,9778 || 0,9783 || 0,9788 || 0,9793 || 0,9798 || 0,9803 || 0,9808 || 0,9812 || 0,9817
|-
|-
| || 0,0005  || 0,0005  || 0,1541  || 0,1462  || 0,0596  || 0,0631
| 2,1 || 0,9821 || 0,9826 || 0,9830 || 0,9834 || 0,9838 || 0,9842 || 0,9846 || 0,9850 || 0,9854 || 0,9857
|-
|-
| || 0,0001  || 0,0001  || 0,1076  || 0,1044  || 0,0889  || 0,0901
| 2,2 || 0,9861 || 0,9864 || 0,9868 || 0,9871 || 0,9875 || 0,9878 || 0,9881 || 0,9884 || 0,9887 || 0,9890
|-
|-
| || 0,0000  || 0,0000  || 0,0643  || 0,0653  || 0,1148  || 0,1126
| 2,3 || 0,9893 || 0,9896 || 0,9898 || 0,9901 || 0,9904 || 0,9906 || 0,9909 || 0,9911 || 0,9913 || 0,9916
|-
|-
| || 0,0000  || 0,0000  || 0,0333  || 0,0363  || 0,1304  || 0,1251
| 2,4 || 0,9918 || 0,9920 || 0,9922 || 0,9925 || 0,9927 || 0,9929 || 0,9931 || 0,9932 || 0,9934 || 0,9936
|-
|-
| 10  || 0,0000  || 0,0000  || 0,0152  || 0,0181  || 0,1319  || 0,1251
| 2,5 || 0,9938 || 0,9940 || 0,9941 || 0,9943 || 0,9945 || 0,9946 || 0,9948 || 0,9949 || 0,9951 || 0,9952
|-
|-
| 11  || 0,0000  || 0,0000  || 0,0061  || 0,0082  || 0,1199  || 0,1137
| 2,6 || 0,9953 || 0,9955 || 0,9956 || 0,9957 || 0,9959 || 0,9960 || 0,9961 || 0,9962 || 0,9963 || 0,9964
|-
|-
| 12  || 0,0000  || 0,0000  || 0,0022  || 0,0034  || 0,0988  || 0,0948
| 2,7 || 0,9965 || 0,9966 || 0,9967 || 0,9968 || 0,9969 || 0,9970 || 0,9971 || 0,9972 || 0,9973 || 0,9974
|-
|-
| 13  || 0,0000  || 0,0000  || 0,0007  || 0,0013  || 0,0743  || 0,0729
| 2,8 || 0,9974 || 0,9975 || 0,9976 || 0,9977 || 0,9977 || 0,9978 || 0,9979 || 0,9979 || 0,9980 || 0,9981
|-
|-
| 14  || 0,0000  || 0,0000  || 0,0002  || 0,0005  || 0,0513  || 0,0521
| 2,9 || 0,9981 || 0,9982 || 0,9982 || 0,9983 || 0,9984 || 0,9984 || 0,9985 || 0,9985 || 0,9986 || 0,9986
|-
|-
| 15  || 0,0000  || 0,0000  || 0,0001  || 0,0002  || 0,0327  || 0,0347
| 3,0 || 0,9987 || 0,9987 || 0,9987 || 0,9988 || 0,9988 || 0,9989 || 0,9989 || 0,9989 || 0,9990 || 0,9990
|-
|-
|  
|  
Linia 270: Linia 211:
|}
|}


Nadzieja matematyczna oraz wariancja w rozkładzie
}
Poissona wyrażają się wzorami:
 
Jak powyżej wspomnieliśmy,  rozkład  normalny
jest bardzo ważnym rozkładem. Dzieje się tak między
innymi dlatego, że wiele  zjawisk przyrodniczych,
społecznych i  innych  przebiega  zgodnie  z tym
rozkładem. Ma on również olbrzymie znaczenie
teoretyczne. Poniżej przedstawiamy tak zwane
centralne twierdzenie  graniczne, które częściowo
wyjaśnia znaczenie rozkładu normalnego. Twierdzenie to
gwarantuje,  że (pod  pewnymi  dość  naturalnymi
założeniami) suma dużej ilości niezależnych
zmiennych  losowych  ma w przybliżeniu rozkład
normalny. Na zakończenie tego punktu wypowiemy jeszcze jedno ważne twierdzenie dotyczące rozkładu normalnego.
 
{{twierdzenie|||


<center><math>\displaystyle  
Niech <math>\displaystyle X_1</math> oraz <math>\displaystyle X_2</math> będą niezależnymi zmiennymi losowymi o rozkładach normalnych, odpowiednio <math>\displaystyle N(m_1,\sigma_1)</math> oraz <math>\displaystyle N(m_2,\sigma_2)</math>. Wtedy:
{\Bbb E}(X) = \lambda, \hspace{2cm} {\Bbb D}^2 (X) = \lambda.
# <math>\displaystyle X_1 + X_2 \sim N(m_1+m_2, \sqrt{\sigma_1^2+ \sigma_2^2})</math>,
</math></center>
# <math>\displaystyle aX_1 + b \sim N(am_1 + b, |a|\sigma_1)</math> dla wszystkich <math>\displaystyle a, b \in {\Bbb R}</math>.


Następująca animacja pokazuje, jak zmienia się kształt rozkładu Poissona dla najczęściej spotykanych wartości parametrów:
}}


===Rozkład hipergeometryczny===
==Centralne twierdzenie graniczne==


Rozkład <math>\displaystyle P</math> nazywamy hipergeometrycznym, jeżeli
Prawa wielkich liczb mówią o zbieżności średnich
istnieją liczby naturalne <math>\displaystyle N</math> i <math>\displaystyle n</math> oraz liczby
arytmetycznych, interpretowanych czasem jako średnie
dodatnie <math>\displaystyle p</math> i <math>\displaystyle q</math> takie, że <math>\displaystyle p+q=1</math> oraz dla każdego <math>\displaystyle k
czasowe, niezależnych zmiennych losowych.
=0,1,2, \dots n</math> zachodzi równość:
Twierdzenia te mają olbrzymią wartość poznawczą,
<center><math>\displaystyle
jednak  ich  wartość  praktyczna  jest  nieco
P(k) =\frac{\left(\begin{array} {@{}c@{}}Np\\k\end{array} \right) \left(\begin{array} {@{}c@{}}Nq\\n-k\end{array} \right)} {\left(\begin{array} {@{}c@{}}N\\k\end{array} \right)}. </math></center>
mniejsza.   W szczególności, prawa wielkich liczb nie
Mamy tutaj
dają żadnej informacji o rozkładzie sumy zmiennych
do czynienia z uogólnionym symbolem Newtona (<math>\displaystyle Np</math>
losowych, podczas gdy  w wielu konkretnych zagadnieniach
nie jest na ogół liczbą naturalną). Symbol ten
znajomość rozkładu ma podstawowe znaczenie. Właśnie  centralne twierdzenie
definiuje się dla <math>\displaystyle x\in {\Bbb R}</math> oraz <math>\displaystyle k\in \mathbb{N}</math>
graniczne  pozwala rozwiązać ten problem. Jak  już
w sposób nastpujący:
wspominaliśmy, wynika  z&nbsp;niego, że  suma
<center><math>\displaystyle
niezależnych zmiennych  losowych spełniających
\left(\begin{array} {@{}c@{}}x\\k\end{array} \right) = \frac{x(x-1) \dots (x-k+1)}{k!},
zupełnie naturalne warunki ma w przybliżeniu rozkład
</math></center>
normalny.
co oczywiście jest zgodne ze standardową definicją, gdy
<math>\displaystyle x</math>  jest liczbą naturalną.


Poniższy wykres przedstawia rozkład hipergeometryczny o
Ze względu na wagę centralnego twierdzenia granicznego
parametrach <math>\displaystyle N = 50</math>, <math>\displaystyle n = 5</math> oraz <math>\displaystyle p = 0.4</math>.
wypowiemy je w trzech wersjach. Pierwsza z nich -- do
niedawna  najczęściej używana -- ma w dobie komputerów
mniejsze znaczenie praktyczne, jednak  w&nbsp;dalszym
ciągu    jest    najbardziej    popularna.


''tutaj rysunek 83.eps''
'''Założenie.'''<br>
''<math>\displaystyle (\Omega, \Sigma,P)</math> jest przestrzenią
probabilistyczną, zaś  <math>\displaystyle X_1,\,X_2,\, X_3,\dots</math>
-- ciągiem  niezależnych zmiennych losowych
określonych  na  <math>\displaystyle \Omega.</math>  Wszystkie  zmienne losowe
<math>\displaystyle X_i</math> mają taki sam rozkład, a ich wspólna nadzieja
matematyczna <math>\displaystyle m</math> oraz wariancja <math>\displaystyle \sigma^2</math> istnieją i
są skończone, przy czym <math>\displaystyle \sigma
> 0</math> (ten ostatni warunek oznacza, że zmienne losowe nie są
stałymi). Jak zawsze oznaczamy: <center><math>\displaystyle S_n = X_1 + \dots +X_n.</math></center> ''


{Losowanie bez zwracania} Przypuśćmy, że  pewna
Będziemy  badać najpierw  zbieżność  tak zwanych
populacja  składa  się  z  <math>\displaystyle N</math>  elementów.
sum standaryzowanych, a dopiero potem wyciągniemy
Niech <math>\displaystyle p</math> będzie prawdopodobieństwem tego, że dany  element  z
wnioski dotyczące samych sum <math>\displaystyle S_n</math>  oraz średnich <math>\displaystyle \displaystyle S_n
tej populacji ma pewną własność, powiedzmy własność
\over n</math>.
<math>\displaystyle A</math>. Losujemy bez zwracania  <math>\displaystyle n</math>  elementów  i
oznaczamy  przez  <math>\displaystyle X</math>  liczbę wylosowanych elementów
mających  własność  <math>\displaystyle A</math>.  Dość  łatwo zauważyć,
nawiązując  do przeprowadzonych w  punkcie  [[##schkl|Uzupelnic schkl|]] rozważań  dotyczących losowania  ze
zwracaniem,  że zmienna  losowa
<math>\displaystyle X</math> ma rozkład hipergeometryczny.  


Nadzieja    matematyczna    oraz    wariancja    w
Zmienną losową:
rozkładzie hipergeometrycznym wyrażają się wzorami:
<center><math>\displaystyle  
<center><math>\displaystyle  
{\Bbb E}(X) = np, \hspace{2cm} {\Bbb D}^2 (X) = npq\frac{N-n}{N-1}.
Z_n  :=  \frac{S_n  -E(S_n)}{\sqrt{D^2(S_n)}}  =   \frac{S_n
-nm}{\sigma \sqrt{n}}
</math></center>
</math></center>
nazywamy standaryzacją  sumy <math>\displaystyle S_n.</math>
Jak łatwo zauważyć: <center><math>\displaystyle E(Z_n) = 0\;\; \textrm{oraz}\;\; D^2(S_n) = 1.</math></center>


{{uwaga|||
{{twierdzenie|Lindeberga-Levy'ego||


Przy losowaniu <math>\displaystyle n</math> elementów ze zwracaniem i przy
Dla każdego <math>\displaystyle x \in  {\Bbb R}</math> zachodzi równość:
losowaniu <math>\displaystyle n</math> elementów bez  zwracania  z  populacji
<center><math>\displaystyle
o  liczebności  <math>\displaystyle N</math>   z frakcją elementów wyróżnionych, losujemy
\lim_{n\rightarrow \infty}P(Z_n \le  x)  =  \Phi(x),
średnio '''tyle samo'''  elementów  wyróżnionych.
</math></center>
Zauważmy jednak, że przy losowaniu bez zwracania wariancja  jest
gdzie <math>\displaystyle \Phi</math>  jest
mniejsza. }}
dystrybuantą rozkładu <math>\displaystyle N(0,1)</math>.  
}}


W poniższej animacji założono, że losujemy bez zwracania <math>\displaystyle n</math> elementów spośród 50 elementów, przy czym wiadomo,
Dowód tego twierdzenia jest długi  i
że 20 elementów ma własność <math>\displaystyle A</math>. Animacja pokazuje rozkład liczby wylosowanych elementów mających własność <math>\displaystyle A</math>, w
skomplikowany, więc nie przytaczamy go tutaj. <math>\displaystyle \hfill{
zależności od <math>\displaystyle n</math>.
\Box}</math>


==Rozkłady czasu oczekiwania==
Twierdzenie Lindeberga-Levy'ego można wypowiedzieć
w  wersjach bardziej naturalnych -- bez używania
standaryzacji <math>\displaystyle Z_n</math>.


[*]
{{twierdzenie|Centralne tw. graniczne dla sum||
Jak długo trzeba rzucać kostką, aby wypadła "szóstka"?


Jak długi jest czas  oczekiwania  na  kolejne
Rozkład
zgłoszenie   do   centrali telefonicznej?
zmiennej losowej <math>\displaystyle S_n</math> jest  asymptotycznie  równy   rozkładowi
 
<math>\displaystyle N(nm,\sigma\sqrt{n})</math>. Inaczej:
Jak często dochodzi  do  wypadków  drogowych?
<center><math>\displaystyle
Podobnie jak  w
\lim_{n\rightarrow              \infty}(F_{S_n}(x)              -
poprzednim  punkcie, omówimy tutaj  kilka  typowych
\Phi_{nm,\sigma\sqrt{n}}(x)) = 0,
rozkładów  prawdopodobieństwa, które  na  ogół
</math></center>
występują,  gdy rozważamy zmienną losową będącą
dla <math>\displaystyle x
czasem czekania na określone zdarzenie.
\in {\Bbb R}.</math> }}


===Rozkład geometryczny===
{{twierdzenie|Centralne tw. graniczne dla średnich||


Rozkład <math>\displaystyle P</math> jest rozkładem geometrycznym, jeżeli
Rozkład zmiennej losowej <math>\displaystyle S_n</math> jest   asymptotycznie  równy
istnieją liczby <math>\displaystyle p</math> i <math>\displaystyle q</math> takie, że <math>\displaystyle 0<p</math>, <math>\displaystyle q <1</math>, <math>\displaystyle p + q = 1</math>
rozkładowi <math>\displaystyle N(m,{\sigma\over \sqrt{n}})</math>.
oraz zachodzi równość:
Inaczej:
<center><math>\displaystyle  
<center><math>\displaystyle  
P(k) = q^{k-1}p \;\; \mbox{ dla } k = 1,2,3,\dots
\lim_{n\rightarrow        \infty}(F_{\frac{S_n}{n}}(x)         -
\Phi_{m,{\sigma\over \sqrt{n}}}(x)) = 0,
</math></center>
</math></center>
dla  <math>\displaystyle x
\in  {\Bbb R}.</math> }}


Następujący wykres przedstawia rozkład geometryczny o parametrze <math>\displaystyle p = 0.25</math>:
Zinterpretujemy twierdzenie  [[##rozsum|Uzupelnic rozsum|]],  mówiące
 
o  rozkładzie sumy niezależnych zmiennych losowych.
''tutaj rysunek 84.eps''
Wyobraźmy sobie  eksperyment polegający na wielokrotnym
rzucie kostką do gry. Suma  uzyskanych oczek <math>\displaystyle S</math> jest
zmienną losową mającą, zgodnie  z  cytowanym twierdzeniem,  w
przybliżeniu rozkład <math>\displaystyle N(nm, \sigma \sqrt{n})</math>,
gdzie <math>\displaystyle m</math> oraz <math>\displaystyle \sigma</math> są odpowiednio nadzieją
matematyczną oraz odchyleniem standardowym  zmiennej
losowej  <math>\displaystyle X</math>,  reprezentującej  wynik pojedynczego
rzutu, a <math>\displaystyle n</math> jest liczbą wykonanych prób. Ponieważ
<math>\displaystyle X</math>  ma rozkład dyskretny,  skupiony  w  punktach
<math>\displaystyle 1,2,3,4,5,6</math>  przyjmowanych  z jednakowym
prawdopodobieństwem  <math>\displaystyle \frac{1}{6}</math>,  więc  bez
trudu    można stwierdzić, że: <center><math>\displaystyle m = 3.5 \;\;\textrm{oraz}\;\; \sigma  =
\frac{\sqrt{105}}{6}  \approx  1.7078251.</math></center>
Przypuśćmy, że
wykonano 1000 rzutów (<math>\displaystyle n = 1000</math>). Wówczas  suma <math>\displaystyle S_{1000}</math>
ma w przybliżeniu rozkład <math>\displaystyle N(3500,54,00617)</math>.


Zauważmy, że jest to rozkład dyskretny skupiony  na
Zweryfikujmy "doświadczalnie" uzyskany wynik. W  tym
zbiorze nieskończonym.
celu  można przeprowadzić  symulację  tysiąca rzutów
kostką  za  pomocą komputera, uzyskując odpowiednią
wartość  sumy  wszystkich  uzyskanych oczek.
Doświadczenie to powtórzymy 400 razy, uzyskując <math>\displaystyle 400</math>
wartości sumy oczek. Poniżej przytaczamy kod programu Maple, umożliwiający przeprowadzenie takiej symulacji.


Rozkład  geometryczny  jest  związany    z
{active}{1d}{kostka :<nowiki>=</nowiki> rand(1..6):}{}
nieskończonym ciągiem niezależnych prób Bernoulliego.
Wykażemy mianowicie, że czas oczekiwania na pierwszy
sukces w takim ciągu posiada właśnie rozkład geometryczny.
Konkretną  sytuację  (oczekiwanie  na pierwszą "szóstkę") omawia ćwiczenie [[##cw41|Uzupelnic cw41|]].


{{twierdzenie|||
{active}{1d}{k :<nowiki>=</nowiki> 400: n :<nowiki>=</nowiki> 1000: lista :<nowiki>=</nowiki> NULL: }{}


Niech  <math>\displaystyle X_1,X_2,X_3,\dots  </math>   będą
{active}{1d}{from 1 to k do
niezależnymi zmiennymi losowymi o&nbsp;takim samym
S :<nowiki>=</nowiki> 0:
rozkładzie  dwupunktowym.  Wtedy funkcja:
from 1 to n do
<center><math>\displaystyle T =\min  \{n  \ge  1: X_n  =  1\},</math></center>
S :<nowiki>=</nowiki> S + kostka():
nazywana    czasem    oczekiwania    na pierwszy
od:
sukces w&nbsp;nieskończonym ciągu prób Bernoulliego,
lista :<nowiki>=</nowiki> lista,S
jest  zmienną  losową  o rozkładzie  geometrycznym.
od:}{}
}}


'''Dowód. '''
Aby graficznie zinterpretować otrzymane danenajpierw sporządzamy odpowiedni szereg rozdzielczy
Zauważmy, że zdarzenie <math>\displaystyle \{T = n\}</math> jest takie samo jak
(rozważamy 18 klas):
zdarzenie: <center><math>\displaystyle \{X_1 = 0,\dots,X_{n-1} =  0,  X_n  =
1\}.</math></center> Z niezależności zmiennych losowych <math>\displaystyle X_i</math>
otrzymujemy:
<center><math>\displaystyle
P(T=n) = P(X_1 =  0,\dots,X_{n-1}  =  0,  X_n  =
1) =
</math></center>
<center><math>\displaystyle
P(X_1 = 0)\cdot\dots\cdot P(X_{n-1} =  0)\cdot  P(X_n  =
1) =  q^{n-1}p.
</math></center>
<math>\displaystyle \hfill{ \Box}</math>


Pokażemy jeszcze inną sytuację, w  której
{active}{1d}{dane :<nowiki>=</nowiki> stats[transform,tallyinto['skrajne']]([lista],
pojawia się rozkład geometryczny -- będzie  to, w pewnym sensie,
[seq(3320 + (i - 1)*20..3320 + i*20, i <nowiki>=</nowiki> 1..18)]);}{}
uogólnienie poprzedniego twierdzenia. Mianowicie,  intuicja  podpowiada,  że
czas oczekiwania na pierwszy sukces w&nbsp;nieskończonym
ciągu  niezależnych  prób Bernoulliego ma następującą
własność,    zwaną    brakiem pamięci:


<center><math>\displaystyle P(T > m + n|T > n) = P(T > m)\;\; \mbox{ dla wszystkich } m,n \ge
{inert}{2d}{dane :<nowiki>=</nowiki> [Weight(3480 .. 3500,55), Weight(3560 .. 3580,33),
1.  
Weight(3660 .. 3680,0), Weight(3340 .. 3360,5), Weight(3540 ..
</math></center>
3560,31), Weight(3640 .. 3660,4), Weight(3360 .. 3380,2), Weight(3520
.. 3540,43), Weight(3420 .. 3440,28), Weight(3620 .. 3640,4),
Weight(3460 .. 3480,53), Weight(3320 .. 3340,0), Weight(3500 ..
3520,66), Weight(3600 .. 3620,10), Weight(3380 .. 3400,8), Weight(3400
.. 3420,13), Weight(3440 .. 3460,28), Weight(3580 .. 3600,17)];}{{
{dane} :<nowiki>=</nowiki> [{Weight}(3480 .. 3500, 55),  <br>
{Weight}(3560 .. 3580, 33), {Weight}(3660 ..
3680, 0),  <br>
{Weight}(3340 .. 3360, 5), {Weight}(3540 ..
3560, 31),  <br>
{Weight}(3640 .. 3660, 4), {Weight}(3360 ..
3380, 2),  <br>
{Weight}(3520 .. 3540, 43), {Weight}(3420 ..
3440, 28),  <br>
{Weight}(3620 .. 3640, 4), {Weight}(3460 ..
3480, 53),  <br>
{Weight}(3320 .. 3340, 0), {Weight}(3500 ..
3520, 66)<br>
{Weight}(3600 .. 3620, 10), {Weight}(3380 ..
3400, 8),  <br>
{Weight}(3400 .. 3420, 13), {Weight}(3440 ..
3460, 28),  <br>
{Weight}(3580 .. 3600, 17)] }
}


Poniższe    twierdzenie, a  w    szczególności
Sprawdzamy, czy są sumy, które nie zostały
implikacja "<math>\displaystyle \Longleftarrow</math>", odpowiada powyższej
uwzględnione -- sumy te byłyby wpisane na listę o nazwie
intuicji.  Ponieważ  zachodzi nawet równoważność,
<tt>skrajne</tt>:
warunek ([[##eq:42|Uzupelnic eq:42|]]) może  być  przyjęty  za  inną
definicję rozkładu geometrycznego.


{{twierdzenie|||
{active}{1d}{skrajne;}{}


Niech    <math>\displaystyle T</math>    będzie    zmienną      losową przyjmującą
{inert}{2d}{skrajne;}{
jedynie wartości naturalne taką, że
<math>\displaystyle P(T>1)>0</math>. Wtedy:


<math>\displaystyle T</math>       spełnia        warunek        ([[##eq:42|Uzupelnic eq:42|]])
<center><math>\displaystyle \mathit{skrajne}
<math>\displaystyle \,\Longleftrightarrow\,\displaystyle T</math> ma rozkład geometryczny.
</math></center>
}}


'''Dowód.  '''<math>\displaystyle (\Longrightarrow)</math>  Oznaczmy  <math>\displaystyle a_n  =
}
P(T>n)</math>. Z założenia otrzymujemy: <center><math>\displaystyle a_{n+1} = P(T>  n+1)  =
P(T>  n+  1,T>  1)  =  P(T  >n  + 1|T > 1)\,P(T>1)</math></center>
<center><math>\displaystyle =P(T>n)\,P(T>1)  =  a_nq,</math></center>  gdzie  <math>\displaystyle q  = P(T>1)</math>. Tak
więc liczby <math>\displaystyle a_n</math>  tworzą  ciąg  geometryczny  i stąd
mamy: <center><math>\displaystyle a_n = q^{n-1}a_1  =  q^n.</math></center>  Następnie
obliczamy:  <center><math>\displaystyle P(T=n)  = P(T>n-1) - P(T>n) = q^{n-1} -
q^n = q^{n-1}p,</math></center> gdzie <math>\displaystyle p = 1  -q</math>.
 
<math>\displaystyle (\Longleftarrow)</math> Obliczmy lewą stronę  wzoru
([[##eq:42|Uzupelnic eq:42|]]):
<center><math>\displaystyle
P(T>m+n|T      >n)      =      \frac{P(T>m+n,T>n)}{P(T>n)}      =
\frac{P(T>m+n)}{P(T>n)}= </math></center>
<center><math>\displaystyle
\frac{\sum_{k>m+n}P(T=k)}{\sum_{k>n}P(T=k)} =
\frac{\sum_{k>m+n}q^{k-1}p}{\sum_{k>n}q^{k-1}p} =
\frac{\frac{q^{n+m}p}{1-q}}{\frac{q^np}{1-q}}  =  q^m.
</math></center>
Jak łatwo sprawdzić, również <math>\displaystyle P(T > m) = q^m</math>. <math>\displaystyle \hfill{
\Box}</math>


Nadzieja matematyczna oraz wariancja  w rozkładzie
Okazało się więc, że w tym przypadku wszystkie sumy zostały uwzględnione.
geometrycznym wyrażają się wzorami:


<center><math>\displaystyle  
W celu sporządzenia histogramu, dobieramy wysokości słupków tak,
{\Bbb E}(X) = \frac{1}{p}, \hspace{2cm} {\Bbb D}^2 (X) = \frac{1-p}{p^2}.
aby pola wszystkich słupków dawały w sumie <math>\displaystyle 1</math>:
</math></center>


Poniższa animacja pokazuje kształt rozkładu geometrycznego w zależności od parametru <math>\displaystyle p</math>.
{active}{1d}{dane1 :<nowiki>=</nowiki> stats[transform,
scaleweight[1/nops([lista])]](dane);}{}


===Rozkład Pascala===
{inert}{2d}{dane1 :<nowiki>=</nowiki> [Weight(3480 .. 3500,11/80), Weight(3560 .. 3580,33/400),
Weight(3660 .. 3680,0), Weight(3340 .. 3360,1/80), Weight(3540 ..
3560,31/400), Weight(3640 .. 3660,1/100), Weight(3360 .. 3380,1/200),
Weight(3520 .. 3540,43/400), Weight(3420 .. 3440,7/100), Weight(3620
.. 3640,1/100), Weight(3460 .. 3480,53/400), Weight(3320 .. 3340,0),
Weight(3500 .. 3520,33/200), Weight(3600 .. 3620,1/40), Weight(3380 ..
3400,1/50), Weight(3400 .. 3420,13/400), Weight(3440 .. 3460,7/100),
Weight(3580 .. 3600,17/400)];}{{
{dane1} :<nowiki>=</nowiki> [{Weight}(3480 .. 3500,
{  {11}{80}} ),
{Weight}(3560 .. 3580, {  {33}{400}} )
, <br>
{Weight}(3660 .. 3680, 0), 
{Weight}(3340 .. 3360, {  {1}{80}} ),


Rozkład <math>\displaystyle P</mathnazywamy ujemnym rozkładem
{Weight}(3540 .. 3560, {  {31}{400}} )
dwumianowym (lub
, <br>
rozkładem Pascala),  jeżeli istnieją liczba
{Weight}(3640 .. 3660, {  {1}{100}} )
naturalna <math>\displaystyle r \ge 1</math> oraz liczba rzeczywista <math>\displaystyle p >0</math> takie,
,  
że:
{Weight}(3360 .. 3380, { {1}{200}} )
<center><math>\displaystyle
,  
P(r+k) = \left(\begin{array} {@{}c@{}}r+k-1\\\ r-1\end{array} \right)p^r(1-p)^k\;\; \mbox{ dla
{Weight}(3520 .. 3540, { {43}{400}} )
} k = 0,1,2,\dots
,  <br>
</math></center>
{Weight}(3420 .. 3440, { {7}{100}} )
,  
{Weight}(3620 .. 3640, {  {1}{100}} )
{Weight}(3460 .. 3480, {  {53}{400}} )
, <br> {Weight}(3320 .. 3340, 0)
{Weight}(3500 .. 3520, { {33}{200}} )
{Weight}(3600 .. 3620, {  {1}{40}} ),
<br> {Weight}(3380 .. 3400, {  {1}{50}} )
{Weight}(3400 .. 3420, {  {13}{400}} )
,
{Weight}(3440 .. 3460, {  {7}{100}} )
<br>
{Weight}(3580 .. 3600, {  {17}{400}} )
] }
}


Poniższy wykres przedstawia ujemny rozkład dwumianowy
Teraz rysujemy histogram:
o parametrach <math>\displaystyle r = 5</math> i <math>\displaystyle p = 0.25</math>.


''tutaj rysunek 85.eps''
{active}{1d}{stats[statplots,histogram](dane1);}{}


Zauważmy, że rozkład geometryczny  jest  szczególnym
''tutaj rysunek 94.eps''
przypadkiem ujemnego rozkładu dwumianowego.


{{twierdzenie|||
oraz zachowujemy powyższy wykres:


Niech <math>\displaystyle X_1,X_2,X_3,\dots</math> będzie ciągiem
{active}{1d}{g1 :<nowiki>=</nowiki> :}{}
niezależnych  prób Bernoulliego o takim samym
prawdopodobieństwie sukcesu <math>\displaystyle p</math> w każdej
próbie. Określmy:
<center><math>\displaystyle
T_r =  \min\{n: \exists k_1,\ldots, k_r
\mbox{ takie, że } 1\leq k_1<\ldots<k_r=n</math></center>
<center><math>\displaystyle  \textrm{ oraz } X_{k_i} =1 \mbox{ dla } i =1,\dots,r\}.
</math></center>
Wtedy  <math>\displaystyle T_r</math>  jest  zmienną  losową  o  ujemnym
rozkładzie dwumianowym.


Inaczej: czas  oczekiwania  na  pierwszych  <math>\displaystyle r</math>
Dla wygody obliczamy jeszcze raz nadzieję i
sukcesów  w nieskończonym  schemacie  Bernoulliego
wariancję dla pojedynczej kostki:
ma  ujemny  rozkład dwumianowy. }}


'''Dowód'''Dowód  jest  bardzo  podobny  do
{active}{1d}{ek :<nowiki>=</nowiki> add(i,i<nowiki>=</nowiki>1..6)/6: vk :<nowiki>=</nowiki> add(i^2,i<nowiki>=</nowiki>1..6)/6 - ek^2:}{}
analogicznego twierdzenia o&nbsp;rozkładzie geometrycznym
(twierdzenie [[##d41|Uzupelnic d41|]]). <math>\displaystyle \hfill{ \Box}</math>


Można  także  udowodnić następujące twierdzenie,  które jeszcze
a następnie obliczamy nadzieję i wariancję sumy:
inaczej pozwala spojrzeć na problem czasu oczekiwania:


{{twierdzenie|||
{active}{1d}{es :<nowiki>=</nowiki> n*ek;  vs :<nowiki>=</nowiki> n*vk;}{}


Niech  <math>\displaystyle T_1,\dots,T_r</math>   będzie
{inert}{2d}{es :<nowiki>=</nowiki> 3500;}{
ciągiem    niezależnych zmiennych losowych
o&nbsp;takim samym rozkładzie geometrycznym każda.
Wtedy suma <math>\displaystyle T_1 + \dots +  T_r</math>  ma  ujemny  rozkład
dwumianowy. }}


Nadzieja matematyczna oraz wariancja  w  rozkładzie
<center><math>\displaystyle \mathit{es} := 3500
Pascala wyrażają się wzorami:
<center><math>\displaystyle  
{\Bbb E}(X) = \frac{r}{p}, \hspace{2cm} {\Bbb D}^2 (X) = \frac{r(1-p)}{p^2}.
</math></center>
</math></center>


===Rozkład wykładniczy===
}


Rozkład  <math>\displaystyle P</math> nazywamy  rozkładem  wykładniczym, jeżeli
{inert}{2d}{vs :<nowiki>=</nowiki> 8750/3;}{
istnieje taka liczba <math>\displaystyle \lambda > 0</math>, że funkcja <math>\displaystyle f\colon {\Bbb R}\longrightarrow {\Bbb R}</math>,
określona wzorem:


<center><math>\displaystyle f(x) = \left\{ \begin{array} {rl}
<center><math>\displaystyle \mathit{vs} := {\displaystyle \frac {8750}{3}}
0 & \mbox{ dla } x<0\\
</math></center>
\lambda e^{-\lambda x} & \mbox{ dla } x \ge 0,
\end{array}  \right. </math></center>


jest gęstością tego rozkładu.
}


Poniższy wykres przedstawia rozkład wykładniczy o parametrze <math>\displaystyle \lambda = 0.25</math>.
Przygotowujemy wykres gęstości rozkładu teoretycznego (lecz go
jeszcze nie wyświetlamy):


''tutaj rysunek 86.eps''
{active}{1d}{g2 :<nowiki>=</nowiki> plot(f(es,sqrt(vs)),3320..3680, color<nowiki>=</nowiki>black):}{}


Wykres ten oraz wykres  ze strony {prr13} sugerują, że
Obliczamy średnią i odchylenie standardowe dla szeregu rozdzielczego:
między rozkładem geometrycznym i wykładniczym mogą
istnieć  pewne związki. Tak rzeczywiście  jest -- będzie to
uzasadnione poniżej.


Jak łatwo sprawdzić, dystrybuanta tego rozkładu wyraża
{active}{1d}{ee :<nowiki>=</nowiki> evalf(stats[describe,mean]([lista]));}{}
się wzorem:


<center><math>\displaystyle F(x) = \int_{-\infty}^xf(t)\,dt =
{inert}{2d}{ee :<nowiki>=</nowiki> 3501.587500;}{
\left\{ \begin{array} {rl}
0 & \mbox{ dla } x<0\\
1 -  e^{-\lambda x} & \mbox{ dla } x \ge 0.
\end{array}  \right. </math></center>


Nadzieja matematyczna oraz  wariancja  w  rozkładzie
<center><math>\displaystyle \mathit{ee} := 3501.587500
wykładniczym wyrażają się wzorami:
<center><math>\displaystyle  
{\Bbb E}(X) = \frac{1}{\lambda},  \hspace{2cm}  {\Bbb D}^2 (X)  =
\frac{1}{\lambda^2}.
</math></center>
</math></center>


Następująca animacja pokazuje, jak zmienia się gęstość rozkładu wykładniczego w zależności od parametru <math>\displaystyle \lambda</math>:
}


Spróbujemy  teraz uzasadnić,  że  rozkład wykładniczy jest
{active}{1d}{ve :<nowiki>=</nowiki> evalf(stats[describe,standarddeviation]([lista]));}{}
ciągłym  odpowiednikiem  rozkładu
geometrycznego. Mówiąc niezbyt ściśle, najpierw pokażemy, że
czas oczekiwania  na  pierwszy sukces w
nieskończonym ciągu niezależnych prób Bernoulliego ma  w
przybliżeniu rozkład  wykładniczy  o  parametrze
<math>\displaystyle \lambda</math>,   o  ile  czas pomiędzy kolejnymi
próbami jest bardzo mały, a
prawdopodobieństwo sukcesu w pojedynczej
próbie jest małe i wprost proporcjonalne do tego czasu, przy
czym parametr  <math>\displaystyle \lambda</math>  jest współczynnikiem tej
proporcjonalności.


Niech  <math>\displaystyle \lambda  >  0</math>
{inert}{2d}{ve :<nowiki>=</nowiki> 57.07764311;}{
będzie ustalone. Oznaczamy:  <center><math>\displaystyle p  =
p_\delta  =  \lambda \delta\;\; \textrm{dla każdego} \;\delta >0.</math></center> Niech
<math>\displaystyle X_1,X_2,X_3,\dots</math>      będzie      ciągiem
niezależnych zmiennych losowych, z których każda ma
rozkład  dwupunktowy  o parametrze <math>\displaystyle p</math> oraz niech: <center><math>\displaystyle T =
\delta \min\{n \ge 1: X_n = 1\}.</math></center> Oznaczmy przez <math>\displaystyle F</math>
dystrybuantę rozkładu wykładniczego o  parametrze
<math>\displaystyle \lambda</math>.


{{twierdzenie|||
<center><math>\displaystyle \mathit{ve} := 57.07764311
</math></center>


Dla każdego <math>\displaystyle t \in {\Bbb R}</math>:
}
<center><math>\displaystyle
F_T(t)  \longrightarrow  F(t),    \;\;    \mbox{    gdy    }\;
\delta\longrightarrow 0. </math></center>
}}


'''Dowód. '''Dla <math>\displaystyle t\le  0</math>  sytuacja  jest  trywialna.
Teraz przygotowujemy wykres gęstości rozkładu normalnego o parametrach
Niech zatem <math>\displaystyle t > 0</math>. Zauważając, że zmienna losowa <math>\displaystyle \displaystyle T\over
obliczonych z szeregu rozdzielczego:
\delta</math>  ma rozkład geometryczny  (patrz twierdzenie
[[##d41|Uzupelnic d41|]])  i&nbsp;oznaczając część całkowitą liczby
<math>\displaystyle t\over \delta</math> przez <math>\displaystyle n</math>, mamy kolejno:
<center><math>\displaystyle
F_T(t) = P(T \le t) = 1 - P(T>t) = 1 - P(\frac{T}{\delta}  >
\frac{t}{\delta}) = 1 - \sum_{k = n+1}^\infty (1-p)^{k-1}p
</math></center>
<center><math>\displaystyle
=1    -    (1    -    p)^n    =    1    -    (1    -
\frac{\lambda}{\delta^{-1}})^{\delta ^{-1}t
-r_\delta} \longrightarrow 1 - e^{-\lambda t} = F(t),
</math></center>
przy  <math>\displaystyle \delta  \rightarrow  0</math>,  gdyż  <math>\displaystyle 0  \le
r_\delta  = \frac{t}{\delta} - n < 1</math>. <math>\displaystyle \hfill{ \Box}</math>


Można też  pokazać (dowody pomijamy) odpowiedniki
{active}{1d}{g3 :<nowiki>=</nowiki> plot(f(ee,ve),3320..3680, color<nowiki>=</nowiki>black,thickness<nowiki>=</nowiki>2):}{}
twierdzeń [[##d42|Uzupelnic d42|]] i [[##duj2|Uzupelnic duj2|]] dla przypadku ciągłego.


{{twierdzenie|||
aby następnie wyświetlić, na jednym rysunku, histogram i dwie
poprzednio otrzymane gęstości:


Niech <math>\displaystyle T</math> będzie  nieujemną  zmienną  losową,
{active}{1d}{plots[display](g1,g2,g3);}{}
spełniającą warunek:
<center><math>\displaystyle
P(T  >  t  +  s|T  >  s)  = P(T  >  t)\;  \mbox{ dla  wszystkich } s,t > 0,
</math></center>
zwany  brakiem  pamięci.  Wówczas  <math>\displaystyle T</math>  ma  rozkład
wykładniczy.
}}


{{uwaga|||
''tutaj rysunek 95.eps''


Zachodzi także twierdzenie odwrotne do twierdzenia [[##trwbp|Uzupelnic trwbp|]]. }}
Ponieważ bardzo  często  zmiennymi  losowymi  są
niezależne  próby Bernoulliego, więc  sformułujemy  centralne  twierdzenie
graniczne specjalnie  dla  tego  przypadku. Jest
to  natychmiastowy wniosek z&nbsp;twierdzenia Lindeberga-Levy'ego (twierdzenie [[##da35|Uzupelnic da35|]]).


{{twierdzenie|||
{{twierdzenie|de Moivre'a-Laplace'a||


Niech <math>\displaystyle T_1,\dots, T_n</math>  będą   niezależnymi zmiennymi  losowymi
Niech   <math>\displaystyle X_1,
o&nbsp;takim samym  rozkładzie
\,X_2,  \,  X_3,\dots</math>  będzie   ciągiem
wykładniczym  z parametrem <math>\displaystyle \lambda</math> oraz niech <math>\displaystyle S_n
niezależnych prób Bernoulliego, z takim samym
=T_1+\dots+T_n</math>.
prawdopodobieństwem sukcesu <math>\displaystyle p</math> i
Wtedy <math>\displaystyle S_n</math> ma rozkład o gęstości <math>\displaystyle f_n</math>, zadanej wzorem:
porażki <math>\displaystyle q = 1 - p</math> w każdej próbie (<math>\displaystyle 0<p<1</math>). Wtedy:
<center><math>\displaystyle  
<center><math>\displaystyle  
f_n(x)=\left\{ \begin{array} {rl}
P\left(\frac{S_n - np}{\sqrt{npq}} \le x\right)  \longrightarrow
\frac{\lambda(\lambda x)^{n-1}}{(n-1)!} e^{-\lambda x} & \mbox{ dla } x>0\\
\Phi(x),
0 & \mbox{ dla }  x \le 0.
\end{array}  \right.
</math></center>
</math></center>
Rozkład ten nosi
dla każdego <math>\displaystyle x \in {\Bbb R}</math>. }}
nazwę  rozkładu Erlanga. }}


===Proces Poissona===
Oczywiście, twierdzenia [[##rozsum|Uzupelnic rozsum|]] i [[##ctgsr|Uzupelnic ctgsr|]] można także z&nbsp;łatwością przeformułować dla
przypadku  niezależnych  prób Bernoulliego.


Na zakończenie niniejszego wykładu sformułujemy twierdzenie, które pokazuje
{{uwaga|||
głęboki  związek między rozkładem wykładniczym i
rozkładem Poissona.  Zdefiniujemy mianowicie tak
zwany  proces  Poissona,  czyli  dla  każdego
dodatniego <math>\displaystyle t</math> określimy  zmienną  losową  <math>\displaystyle N_t</math>
mającą  rozkład Poissona  o  parametrze  <math>\displaystyle \lambda
t</math>.  Mówiąc  (na    razie) nieprecyzyjnie, zmienna
<math>\displaystyle N_t</math> oznacza  liczbę  sukcesów  w&nbsp;ciągu niezależnych
prób Bernoulliego, o ile próby te mogą być powtarzane
nieskończenie często, zaś prawdopodobieństwo pojawienia się
sukcesu w bardzo krótkim odcinku czasu <math>\displaystyle \Delta t</math> wynosi w
przybliżeniu  <math>\displaystyle \lambda t</math> -- mamy więc sytuację  opisaną
w  twierdzeniu  [[##dgw3|Uzupelnic dgw3|]]  i  w poprzedzającym go
komentarzu. W takim razie, czas  oczekiwania  na
pierwszy sukces ma rozkład wykładniczy o parametrze
<math>\displaystyle \lambda</math>,  a czas  oczekiwania  na  <math>\displaystyle n</math>  sukcesów  ma,
zgodnie  z  twierdzeniem
[[##derlang|Uzupelnic derlang|]], rozkład Erlanga. Na  tej podstawie
nietrudno jest już określić rozkład zmiennej <math>\displaystyle N_t</math>.


{{twierdzenie|||
Wyraźnie zaznaczamy,  że  centralne  twierdzenie
graniczne  jest prawdziwe przy dużo ogólniejszych
założeniach.  W  szczególności zmienne losowe nie muszą
mieć takiego samego rozkładu, a nawet nie  muszą być
niezależne. Jednakże, różnym wersjom centralnego  twierdzenia
granicznego  przyświeca ta sama idea:


Niech <math>\displaystyle T_1,T_2, T_3,\dots </math>  będą niezależnymi zmiennymi  losowymi
suma niewiele zależnych od siebie   składników
o&nbsp;takim samym rozkładzie
losowych, z których żaden nie dominuje istotnie nad
wykładniczym   z parametrem  <math>\displaystyle \lambda</math>.  Niech  <math>\displaystyle S_n
pozostałymi, ma w przybliżeniu rozkład normalny.
=T_1+\dots+T_n</math> oraz niech <math>\displaystyle S_0 = 0</math>.
Wtedy zmienna losowa <math>\displaystyle N_t</math>, zdefiniowana wzorem:
<center><math>\displaystyle
N_t := \max \{n: S_n \le  t\},
</math></center>
gdzie <math>\displaystyle t> 0</math> jest ustaloną liczbą,
ma rozkład Poissona  o
parametrze <math>\displaystyle \lambda t.</math> }}


'''Dowód. ''' Zauważmy, że zdarzenie <math>\displaystyle \{N_t  =  k\}</math>
}}
jest  równoważne zdarzeniu: <center><math>\displaystyle \{S_k \le t\} \setminus
\{S_{k+1} \le t \}.</math></center> Tak więc:
<center><math>\displaystyle
P(N_t = k) = F_k(t) - F_{k+1}(t),
</math></center>
gdzie  <math>\displaystyle F_k</math>  oznacza  dystrybuantę  zmiennej  losowej
<math>\displaystyle S_k</math>.  Z twierdzenia  [[##derlang|Uzupelnic derlang|]] wynika, że <math>\displaystyle S_k</math> na rozkład Erlanga, tak więc:
<center><math>\displaystyle
F_k(t)  =  \int_0^t  \frac{\lambda(\lambda  x)^{k-1}}{(k-1)!}
e^{-\lambda x}\, dx \;\; \mbox{ dla } t >0.
</math></center>
Indukcyjnie można pokazać, że:
<center><math>\displaystyle
F_k(t) = 1 - e^{-\lambda t} \left(1  +  \frac{\lambda  t}{1!}  +
\dots + \frac{(\lambda t)^{k-1}}{(k-1)!} \right),
</math></center>
a stąd: <center><math>\displaystyle  \displaystyle P(N_t = k) = \frac{(\lambda
t)^k}{k!}e^{-\lambda t}.</math></center> <math>\displaystyle \hfill{ \Box}</math>

Wersja z 10:05, 22 sie 2006

Streszczenie

Centralną rolę w rachunku prawdopodobieństwa i statystyce pełni tak zwany rozkład normalny. Związane jest z nim słynne twierdzenie nazywane centralnym twierdzeniem granicznym. Na jego podstawie można w wielu sytuacjach zakładać, że zmienna losowa, którą jesteśmy właśnie zainteresowani, ma rozkład normalny.

Słowa kluczowe: rozkład normalny, krzywa Gaussa, standaryzacja, centralne twierdzenie graniczne.

Rozkład normalny

Chyba najważniejszym ze znanych rozkładów jest tak zwany rozkład normalny, określany niekiedy jako rozkład Gaussa.

Rozkład P nazywamy rozkładem normalnym, jeżeli istnieją takie liczby rzeczywiste m oraz σ>0, że funkcja f:, określona wzorem:

f(x)=12πσe12(xmσ)2 dla x,

jest gęstością tego rozkładu.

Stosowana w tym przypadku notacja jest następująca: N(m,σ) oznacza rozkład normalny o parametrach m oraz σ -- jego dystrybuantę oznaczamy przez Φm,σ. Wykres gęstości rozkładu normalnego nosi nazwę krzywej Gaussa.

Poniższy wykres przedstawia gęstości rozkładów N(20,1), N(20,2) i N(20,3), przy czym większym wartościom σ odpowiada bardziej stromy wykres.

tutaj rysunek 91.eps

Znaczenie parametru σ ilustruje też następująca animacja (tutaj m=20):

Kolejny wykres przedstawia gęstości rozkładów N(15,3), N(20,3) i N(25,3).

tutaj rysunek 92.eps

Aby jeszcze lepiej uzmysłowić sobie znaczenie parametru m, proponujemy uruchomić następującą animację (tutaj σ=2):

.5in

Dystrybuantę Φ0,1 oznaczamy krótko przez Φ. Wyraża się więc ona następującym wzorem:

Φ(x)=12πxe12t2dt.

Poniższy wykres przedstawia gęstość rozkładu N(0,1), który nazywamy standardowym rozkładem normalnym. Zauważmy, że zakreskowany obszar posiada pole równe Φ(1).

tutaj rysunek 93.eps

Wartości dystrybuanty Φ zostały stablicowane (patrz strona {rnor}) oraz są dostępne w wielu komputerowych programach matematycznych lub statystycznych. Oczywiście, pakiety statystyczne programu Maple zawierają odpowiednie procedury (jakie?).

Zwróćmy uwagę na dwie własności funkcji Φ, posiadające (przede wszystkim) rachunkowe znaczenie. Wynikają one bezpośrednio ze wzoru (Uzupelnic eq:par01|) i mają oczywistą interpretację geometryczną (ćwiczenie). Mianowicie:

Φ(0)=12 oraz Φ(x)=1Φ(x) dla każdego x

oraz

Φ1(α)=Φ1(1α) dla każdego α[0,1].

Użyteczność powyższych wzorów można zaobserwować zwłaszcza wtedy, gdy nie dysponujemy odpowiednim pakietem komputerowym czy kalkulatorem, ale są one także ważne przy pewnych przekształceniach. Podobnie następna równość, którą można otrzymać stosując prostą zmianę zmiennychAM, pozwala za pomocą Φ obliczać dystrybuanty Φm,σ dla pozostałych parametrów m i σ. Mianowicie:

Φm,σ(x)=Φ(xmσ).

Parametry m i σ mają bardzo wyraźną interpretację probabilistyczną. Okazuje się bowiem, iż nadzieja matematyczna oraz wariancja w rozkładzie N(m,σ) wyrażają się wzorami:

Parser nie mógł rozpoznać (błąd składni): {\displaystyle \displaystyle {\Bbb E}(X) = m, \hspace{2cm} {\Bbb D}^2 (X) = \sigma^2. }

Zauważmy też, że m jest punktem, w którym gęstość rozkładu N(m,σ) osiąga wartość największą, prosta x=m jest osią symetrii jej wykresu, zaś punkty mσ i m+σ -- punktami przegięciaAM.

Postaramy się uzasadnić ilościowo, że parametr σ jest miarą "rozrzutu" rozkładu N(m,σ), względem punktu m. Obliczmy w tym celu:

rk=P(mkσ,m+kσ) dla k=1,2,3,

gdzie P jest rozkładem N(m,σ). Otrzymujemy:

rk=Φm,σ(m+kσ)Φm,σ(mkσ)=Φ(k)Φ(k)=2Φ(k)1.

Korzystając z tablic lub z komputera, bez trudu dostajemy:

r10.682689492,r20.954499736,r30.997300204.

Tak więc szansa znajdowania się poza przedziałem (m3σ,m+3σ) wynosi istotnie mniej niż 1%. Im mniejszy jest parametr σ, tym bardziej rozkład N(m,σ) jest "skupiony w okolicy" punktu x=m.

{Dystrybuanta Φ rozkładu normalnego N(0,1){W tablicy podano wartości Φ(x) dla x[0,3.09].}} .1in

{

Uzupelnij tytul

x || 0,00 || 0,01 || 0,02 || 0,03 || 0,04 || 0,05 || 0,06 || 0,07 || 0,08 || 0,09

0,0 || 0,5000 || 0,5040 || 0,5080 || 0,5120 || 0,5160 || 0,5199 || 0,5239 || 0,5279 || 0,5319 || 0,5359

0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389

1,0 || 0,8413 || 0,8438 || 0,8461 || 0,8485 || 0,8508 || 0,8531 || 0,8554 || 0,8577 || 0,8599 || 0,8621

1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767

2,0 || 0,9772 || 0,9778 || 0,9783 || 0,9788 || 0,9793 || 0,9798 || 0,9803 || 0,9808 || 0,9812 || 0,9817

2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990

}

Jak powyżej wspomnieliśmy, rozkład normalny jest bardzo ważnym rozkładem. Dzieje się tak między innymi dlatego, że wiele zjawisk przyrodniczych, społecznych i innych przebiega zgodnie z tym rozkładem. Ma on również olbrzymie znaczenie teoretyczne. Poniżej przedstawiamy tak zwane centralne twierdzenie graniczne, które częściowo wyjaśnia znaczenie rozkładu normalnego. Twierdzenie to gwarantuje, że (pod pewnymi dość naturalnymi założeniami) suma dużej ilości niezależnych zmiennych losowych ma w przybliżeniu rozkład normalny. Na zakończenie tego punktu wypowiemy jeszcze jedno ważne twierdzenie dotyczące rozkładu normalnego.

Twierdzenie

Niech X1 oraz X2 będą niezależnymi zmiennymi losowymi o rozkładach normalnych, odpowiednio N(m1,σ1) oraz N(m2,σ2). Wtedy:

  1. X1+X2N(m1+m2,σ12+σ22),
  2. aX1+bN(am1+b,|a|σ1) dla wszystkich a,b.

Centralne twierdzenie graniczne

Prawa wielkich liczb mówią o zbieżności średnich arytmetycznych, interpretowanych czasem jako średnie czasowe, niezależnych zmiennych losowych. Twierdzenia te mają olbrzymią wartość poznawczą, jednak ich wartość praktyczna jest nieco mniejsza. W szczególności, prawa wielkich liczb nie dają żadnej informacji o rozkładzie sumy zmiennych losowych, podczas gdy w wielu konkretnych zagadnieniach znajomość rozkładu ma podstawowe znaczenie. Właśnie centralne twierdzenie graniczne pozwala rozwiązać ten problem. Jak już wspominaliśmy, wynika z niego, że suma niezależnych zmiennych losowych spełniających zupełnie naturalne warunki ma w przybliżeniu rozkład normalny.

Ze względu na wagę centralnego twierdzenia granicznego wypowiemy je w trzech wersjach. Pierwsza z nich -- do niedawna najczęściej używana -- ma w dobie komputerów mniejsze znaczenie praktyczne, jednak w dalszym ciągu jest najbardziej popularna.

Założenie.
(Ω,Σ,P) jest przestrzenią probabilistyczną, zaś X1,X2,X3, -- ciągiem niezależnych zmiennych losowych określonych na Ω. Wszystkie zmienne losowe Xi mają taki sam rozkład, a ich wspólna nadzieja matematyczna m oraz wariancja σ2 istnieją i są skończone, przy czym σ>0 (ten ostatni warunek oznacza, że zmienne losowe nie są

stałymi). Jak zawsze oznaczamy:

Sn=X1++Xn.

Będziemy badać najpierw zbieżność tak zwanych sum standaryzowanych, a dopiero potem wyciągniemy wnioski dotyczące samych sum Sn oraz średnich Snn.

Zmienną losową:

Zn:=SnE(Sn)D2(Sn)=Snnmσn

nazywamy standaryzacją sumy Sn.

Jak łatwo zauważyć:

E(Zn)=0orazD2(Sn)=1.

Twierdzenie Lindeberga-Levy'ego

Dla każdego x zachodzi równość:

limnP(Znx)=Φ(x),

gdzie Φ jest dystrybuantą rozkładu N(0,1).

Dowód tego twierdzenia jest długi i skomplikowany, więc nie przytaczamy go tutaj. Parser nie mógł rozpoznać (nieznana funkcja „\hfill”): {\displaystyle \displaystyle \hfill{ \Box}}

Twierdzenie Lindeberga-Levy'ego można wypowiedzieć w wersjach bardziej naturalnych -- bez używania standaryzacji Zn.

Twierdzenie Centralne tw. graniczne dla sum

Rozkład zmiennej losowej Sn jest asymptotycznie równy rozkładowi N(nm,σn). Inaczej:

limn(FSn(x)Φnm,σn(x))=0,
dla x.

Twierdzenie Centralne tw. graniczne dla średnich

Rozkład zmiennej losowej Sn jest asymptotycznie równy rozkładowi N(m,σn). Inaczej:

limn(FSnn(x)Φm,σn(x))=0,
dla x.

Zinterpretujemy twierdzenie Uzupelnic rozsum|, mówiące o rozkładzie sumy niezależnych zmiennych losowych. Wyobraźmy sobie eksperyment polegający na wielokrotnym rzucie kostką do gry. Suma uzyskanych oczek S jest zmienną losową mającą, zgodnie z cytowanym twierdzeniem, w przybliżeniu rozkład N(nm,σn), gdzie m oraz σ są odpowiednio nadzieją matematyczną oraz odchyleniem standardowym zmiennej losowej X, reprezentującej wynik pojedynczego rzutu, a n jest liczbą wykonanych prób. Ponieważ X ma rozkład dyskretny, skupiony w punktach 1,2,3,4,5,6 przyjmowanych z jednakowym prawdopodobieństwem 16, więc bez

trudu można stwierdzić, że:

m=3.5orazσ=10561.7078251.

Przypuśćmy, że wykonano 1000 rzutów (n=1000). Wówczas suma S1000 ma w przybliżeniu rozkład N(3500,54,00617).

Zweryfikujmy "doświadczalnie" uzyskany wynik. W tym celu można przeprowadzić symulację tysiąca rzutów kostką za pomocą komputera, uzyskując odpowiednią wartość sumy wszystkich uzyskanych oczek. Doświadczenie to powtórzymy 400 razy, uzyskując 400 wartości sumy oczek. Poniżej przytaczamy kod programu Maple, umożliwiający przeprowadzenie takiej symulacji.

{active}{1d}{kostka := rand(1..6):}{}

{active}{1d}{k := 400: n := 1000: lista := NULL: }{}

{active}{1d}{from 1 to k do S := 0: from 1 to n do S := S + kostka(): od: lista := lista,S od:}{}

Aby graficznie zinterpretować otrzymane dane, najpierw sporządzamy odpowiedni szereg rozdzielczy (rozważamy 18 klas):

{active}{1d}{dane := stats[transform,tallyinto['skrajne']]([lista], [seq(3320 + (i - 1)*20..3320 + i*20, i = 1..18)]);}{}

{inert}{2d}{dane := [Weight(3480 .. 3500,55), Weight(3560 .. 3580,33), Weight(3660 .. 3680,0), Weight(3340 .. 3360,5), Weight(3540 .. 3560,31), Weight(3640 .. 3660,4), Weight(3360 .. 3380,2), Weight(3520 .. 3540,43), Weight(3420 .. 3440,28), Weight(3620 .. 3640,4), Weight(3460 .. 3480,53), Weight(3320 .. 3340,0), Weight(3500 .. 3520,66), Weight(3600 .. 3620,10), Weight(3380 .. 3400,8), Weight(3400 .. 3420,13), Weight(3440 .. 3460,28), Weight(3580 .. 3600,17)];}{{ {dane} := [{Weight}(3480 .. 3500, 55),
{Weight}(3560 .. 3580, 33), {Weight}(3660 .. 3680, 0),
{Weight}(3340 .. 3360, 5), {Weight}(3540 .. 3560, 31),
{Weight}(3640 .. 3660, 4), {Weight}(3360 .. 3380, 2),
{Weight}(3520 .. 3540, 43), {Weight}(3420 .. 3440, 28),
{Weight}(3620 .. 3640, 4), {Weight}(3460 .. 3480, 53),
{Weight}(3320 .. 3340, 0), {Weight}(3500 .. 3520, 66),
{Weight}(3600 .. 3620, 10), {Weight}(3380 .. 3400, 8),
{Weight}(3400 .. 3420, 13), {Weight}(3440 .. 3460, 28),
{Weight}(3580 .. 3600, 17)] } }

Sprawdzamy, czy są sumy, które nie zostały uwzględnione -- sumy te byłyby wpisane na listę o nazwie skrajne:

{active}{1d}{skrajne;}{}

{inert}{2d}{skrajne;}{

skrajne

}

Okazało się więc, że w tym przypadku wszystkie sumy zostały uwzględnione.

W celu sporządzenia histogramu, dobieramy wysokości słupków tak, aby pola wszystkich słupków dawały w sumie 1:

{active}{1d}{dane1 := stats[transform, scaleweight[1/nops([lista])]](dane);}{}

{inert}{2d}{dane1 := [Weight(3480 .. 3500,11/80), Weight(3560 .. 3580,33/400), Weight(3660 .. 3680,0), Weight(3340 .. 3360,1/80), Weight(3540 .. 3560,31/400), Weight(3640 .. 3660,1/100), Weight(3360 .. 3380,1/200), Weight(3520 .. 3540,43/400), Weight(3420 .. 3440,7/100), Weight(3620 .. 3640,1/100), Weight(3460 .. 3480,53/400), Weight(3320 .. 3340,0), Weight(3500 .. 3520,33/200), Weight(3600 .. 3620,1/40), Weight(3380 .. 3400,1/50), Weight(3400 .. 3420,13/400), Weight(3440 .. 3460,7/100), Weight(3580 .. 3600,17/400)];}{{ {dane1} := [{Weight}(3480 .. 3500, { {11}{80}} ), {Weight}(3560 .. 3580, { {33}{400}} ) ,
{Weight}(3660 .. 3680, 0), {Weight}(3340 .. 3360, { {1}{80}} ),

{Weight}(3540 .. 3560, { {31}{400}} ) ,
{Weight}(3640 .. 3660, { {1}{100}} ) , {Weight}(3360 .. 3380, { {1}{200}} ) , {Weight}(3520 .. 3540, { {43}{400}} ) ,
{Weight}(3420 .. 3440, { {7}{100}} ) , {Weight}(3620 .. 3640, { {1}{100}} ) , {Weight}(3460 .. 3480, { {53}{400}} ) ,
{Weight}(3320 .. 3340, 0), {Weight}(3500 .. 3520, { {33}{200}} ) , {Weight}(3600 .. 3620, { {1}{40}} ),
{Weight}(3380 .. 3400, { {1}{50}} ) , {Weight}(3400 .. 3420, { {13}{400}} ) , {Weight}(3440 .. 3460, { {7}{100}} ) ,
{Weight}(3580 .. 3600, { {17}{400}} ) ] } }

Teraz rysujemy histogram:

{active}{1d}{stats[statplots,histogram](dane1);}{}

tutaj rysunek 94.eps

oraz zachowujemy powyższy wykres:

{active}{1d}{g1 := :}{}

Dla wygody obliczamy jeszcze raz nadzieję i wariancję dla pojedynczej kostki:

{active}{1d}{ek := add(i,i=1..6)/6: vk := add(i^2,i=1..6)/6 - ek^2:}{}

a następnie obliczamy nadzieję i wariancję sumy:

{active}{1d}{es := n*ek; vs := n*vk;}{}

{inert}{2d}{es := 3500;}{

es:=3500

}

{inert}{2d}{vs := 8750/3;}{

vs:=87503

}

Przygotowujemy wykres gęstości rozkładu teoretycznego (lecz go jeszcze nie wyświetlamy):

{active}{1d}{g2 := plot(f(es,sqrt(vs)),3320..3680, color=black):}{}

Obliczamy średnią i odchylenie standardowe dla szeregu rozdzielczego:

{active}{1d}{ee := evalf(stats[describe,mean]([lista]));}{}

{inert}{2d}{ee := 3501.587500;}{

ee:=3501.587500

}

{active}{1d}{ve := evalf(stats[describe,standarddeviation]([lista]));}{}

{inert}{2d}{ve := 57.07764311;}{

ve:=57.07764311

}

Teraz przygotowujemy wykres gęstości rozkładu normalnego o parametrach obliczonych z szeregu rozdzielczego:

{active}{1d}{g3 := plot(f(ee,ve),3320..3680, color=black,thickness=2):}{}

aby następnie wyświetlić, na jednym rysunku, histogram i dwie poprzednio otrzymane gęstości:

{active}{1d}{plots[display](g1,g2,g3);}{}

tutaj rysunek 95.eps

Ponieważ bardzo często zmiennymi losowymi są niezależne próby Bernoulliego, więc sformułujemy centralne twierdzenie graniczne specjalnie dla tego przypadku. Jest to natychmiastowy wniosek z twierdzenia Lindeberga-Levy'ego (twierdzenie Uzupelnic da35|).

Twierdzenie de Moivre'a-Laplace'a

Niech X1,X2,X3, będzie ciągiem niezależnych prób Bernoulliego, z takim samym prawdopodobieństwem sukcesu p i porażki q=1p w każdej próbie (0<p<1). Wtedy:

P(Snnpnpqx)Φ(x),
dla każdego x.

Oczywiście, twierdzenia Uzupelnic rozsum| i Uzupelnic ctgsr| można także z łatwością przeformułować dla przypadku niezależnych prób Bernoulliego.

Uwaga

Wyraźnie zaznaczamy, że centralne twierdzenie graniczne jest prawdziwe przy dużo ogólniejszych założeniach. W szczególności zmienne losowe nie muszą mieć takiego samego rozkładu, a nawet nie muszą być niezależne. Jednakże, różnym wersjom centralnego twierdzenia granicznego przyświeca ta sama idea:

suma niewiele zależnych od siebie składników losowych, z których żaden nie dominuje istotnie nad pozostałymi, ma w przybliżeniu rozkład normalny.