Rachunek prawdopodobieństwa i statystyka/Wykład 9: Rozkład normalny i centralne twierdzenie graniczne: Różnice pomiędzy wersjami
Nie podano opisu zmian |
Nie podano opisu zmian |
||
Linia 1: | Linia 1: | ||
==Streszczenie== | |||
Centralną rolę w rachunku prawdopodobieństwa i statystyce | |||
pełni tak zwany rozkład normalny. Związane jest z nim słynne | |||
twierdzenie nazywane centralnym twierdzeniem granicznym. Na jego | |||
podstawie można w wielu sytuacjach zakładać, że zmienna losowa, | |||
którą jesteśmy właśnie zainteresowani, ma rozkład normalny. | |||
'''Słowa kluczowe: ''' rozkład normalny, krzywa Gaussa, standaryzacja, | |||
centralne twierdzenie graniczne. | |||
==Rozkład normalny== | |||
Chyba najważniejszym ze znanych rozkładów jest tak zwany rozkład | |||
normalny, określany niekiedy jako rozkład Gaussa. | |||
{ | Rozkład <math>\displaystyle P</math> nazywamy rozkładem normalnym, jeżeli | ||
istnieją takie liczby rzeczywiste <math>\displaystyle m</math> oraz <math>\displaystyle \sigma>0</math>, że funkcja | |||
<math>\displaystyle f\colon {\Bbb R}\longrightarrow {\Bbb R}</math>, określona wzorem: | |||
<center><math>\displaystyle | |||
f(x) = \frac{1}{\sqrt{2\pi}\sigma}\,e^{-\frac{1}{2}(\frac{x | |||
- m}{\sigma})^2}\;\;\mbox{ dla } x\in {\Bbb R}, | |||
</math></center> | |||
jest gęstością tego rozkładu. | |||
{ | Stosowana w tym przypadku notacja jest następująca: | ||
<math>\displaystyle N(m,\sigma)</math> oznacza rozkład normalny o | |||
parametrach <math>\displaystyle m</math> oraz <math>\displaystyle \sigma</math> -- jego | |||
dystrybuantę oznaczamy przez <math>\displaystyle \Phi_{m,\sigma}</math>. Wykres gęstości rozkładu normalnego nosi | |||
nazwę krzywej Gaussa. | |||
Poniższy wykres przedstawia gęstości rozkładów | |||
<math>\displaystyle N(20,1)</math>, <math>\displaystyle N(20,2)</math> i <math>\displaystyle N(20,3)</math>, przy czym większym wartościom <math>\displaystyle \sigma</math> | |||
odpowiada bardziej stromy wykres. | |||
''tutaj rysunek 91.eps'' | |||
Znaczenie parametru <math>\displaystyle \sigma</math> ilustruje też następująca animacja (tutaj <math>\displaystyle m = 20</math>): | |||
Kolejny wykres przedstawia gęstości rozkładów | |||
<math>\displaystyle N(15,3)</math>, <math>\displaystyle N(20,3)</math> i <math>\displaystyle N(25,3)</math>. | |||
''tutaj rysunek 92.eps'' | |||
Aby | Aby jeszcze lepiej uzmysłowić sobie znaczenie parametru <math>\displaystyle m</math>, proponujemy uruchomić następującą animację | ||
(tutaj <math>\displaystyle \sigma = 2</math>): | |||
.5in | |||
Dystrybuantę <math>\displaystyle \Phi_{0,1}</math> | |||
oznaczamy krótko przez <math>\displaystyle \Phi</math>. Wyraża się więc ona następującym wzorem: | |||
<center><math>\displaystyle | |||
\Phi(x) = \frac{1}{\sqrt{2\pi}} | |||
\int_{-\infty}^xe^{-\frac{1}{2}t^2}dt. | |||
</math></center> | </math></center> | ||
Poniższy wykres przedstawia gęstość rozkładu | |||
<math>\displaystyle | <math>\displaystyle N(0,1)</math>, który nazywamy standardowym rozkładem normalnym. Zauważmy, że zakreskowany obszar posiada pole równe <math>\displaystyle \Phi(1)</math>. | ||
''tutaj rysunek | ''tutaj rysunek 93.eps'' | ||
Wartości dystrybuanty <math>\displaystyle \Phi</math> zostały stablicowane | |||
(patrz strona {rnor}) oraz są dostępne w wielu komputerowych | |||
programach matematycznych lub statystycznych. | |||
Oczywiście, pakiety statystyczne programu Maple zawierają odpowiednie procedury (jakie?). | |||
Zwróćmy uwagę na dwie własności | |||
funkcji <math>\displaystyle \Phi</math>, posiadające (przede wszystkim) | |||
rachunkowe znaczenie. Wynikają one | |||
bezpośrednio ze wzoru ([[##eq:par01|Uzupelnic eq:par01|]]) i mają oczywistą | |||
interpretację geometryczną (ćwiczenie). Mianowicie: | |||
<center><math>\displaystyle | |||
\Phi (0) = \frac{1}{2}\;\; \mbox{ oraz } \;\;\Phi | |||
(x) = 1 - \Phi (-x) \mbox{ dla każdego } x \in {\Bbb R} | |||
</math></center> | </math></center> | ||
<center><math>\displaystyle | oraz | ||
\ | <center><math>\displaystyle | ||
\Phi^{-1} (\alpha) = -\Phi^{-1}(1-\alpha) \mbox{ dla każdego } \alpha \in [0,1]. | |||
</math></center> | </math></center> | ||
<math>\displaystyle \ | Użyteczność powyższych wzorów można zaobserwować zwłaszcza wtedy, gdy nie | ||
dysponujemy odpowiednim pakietem komputerowym czy | |||
kalkulatorem, ale są one także ważne przy pewnych | |||
przekształceniach. Podobnie następna równość, którą | |||
można otrzymać stosując prostą zmianę zmiennych[[AM]], pozwala za | |||
pomocą <math>\displaystyle \Phi</math> obliczać dystrybuanty | |||
<math>\displaystyle \Phi_{m,\sigma}</math> dla pozostałych parametrów <math>\displaystyle m</math> i <math>\displaystyle \sigma</math>. Mianowicie: | |||
<center><math>\displaystyle \Phi_{m,\sigma}(x) = \Phi\left(\frac{x-m}{\sigma}\right). | |||
</math></center> | </math></center> | ||
Parametry <math>\displaystyle m</math> i <math>\displaystyle \sigma</math> mają bardzo wyraźną interpretację | |||
probabilistyczną. Okazuje się bowiem, iż nadzieja | |||
matematyczna oraz wariancja w rozkładzie <math>\displaystyle N(m,\sigma)</math> | |||
wyrażają się wzorami: | |||
<center><math>\displaystyle | <center><math>\displaystyle | ||
{\Bbb E}(X) = m, \hspace{2cm} {\Bbb D}^2 (X) = \sigma^2. | |||
</math></center> | </math></center> | ||
Zauważmy też, że <math>\displaystyle m</math> jest punktem, w którym gęstość | |||
rozkładu <math>\displaystyle N(m,\sigma)</math> osiąga wartość | |||
największą, prosta <math>\displaystyle x = m</math> jest osią symetrii jej wykresu, | |||
zaś punkty <math>\displaystyle m- \sigma </math> i <math>\displaystyle m+\sigma</math> -- punktami | |||
przegięcia[[AM]]. | |||
<math>\displaystyle | |||
Postaramy się uzasadnić ilościowo, że parametr <math>\displaystyle \sigma</math> | |||
jest miarą "rozrzutu" rozkładu | |||
<math>\displaystyle N(m,\sigma)</math>, względem punktu <math>\displaystyle m</math>. Obliczmy w tym celu: | |||
<center><math>\displaystyle | <center><math>\displaystyle | ||
P(k | r_k = P(m - k\sigma,m +k\sigma) \;\;\mbox{ dla } k =1,2,3, | ||
</math></center> | </math></center> | ||
gdzie <math>\displaystyle P</math> jest rozkładem <math>\displaystyle N(m,\sigma)</math>. | |||
Otrzymujemy: | |||
<center><math>\displaystyle | <center><math>\displaystyle | ||
\ | r_k = \Phi_{m,\sigma}(m + k\sigma) - \Phi_{m,\sigma}(m - k\sigma) | ||
= \Phi(k) - \Phi(-k) = 2\Phi(k) - 1. | |||
</math></center> | </math></center> | ||
Korzystając z tablic lub z komputera, bez trudu dostajemy: | |||
<center><math>\displaystyle r1 \approx 0.682689492, \;\;r2 \approx 0.954499736, \;\;r3 \approx 0.997300204. | |||
<center><math>\displaystyle | |||
\ | |||
\ | |||
</math></center> | </math></center> | ||
Tak więc szansa znajdowania się poza przedziałem <math>\displaystyle (m -3\sigma,\;m + | |||
3\sigma)</math> wynosi istotnie mniej niż <math>\displaystyle 1\%</math>. Im mniejszy | |||
jest parametr <math>\displaystyle \sigma</math>, tym bardziej rozkład | |||
<math>\displaystyle N(m,\sigma)</math> jest "skupiony w okolicy" punktu <math>\displaystyle x | |||
=m</math>. | |||
{ | {Dystrybuanta <math>\displaystyle \Phi</math> rozkładu | ||
normalnego <math>\displaystyle N(0,1)</math>{W tablicy podano wartości | |||
<math>\displaystyle \Phi(x)</math> dla <math>\displaystyle x\in [0, 3.09]</math>.}} | |||
.1in | |||
{ | |||
{| border=1 | {| border=1 | ||
Linia 227: | Linia 140: | ||
|- | |- | ||
| | | | ||
<math>\displaystyle x</math> || 0,00 || 0,01 || 0,02 || 0,03 || 0,04 || 0,05 || 0,06 || 0,07 || 0,08 || 0,09 | |||
|- | |- | ||
| | | | ||
0,0 || 0,5000 || 0,5040 || 0,5080 || 0,5120 || 0,5160 || 0,5199 || 0,5239 || 0,5279 || 0,5319 || 0,5359 | |||
|- | |||
| 0,1 || 0,5398 || 0,5438 || 0,5478 || 0,5517 || 0,5557 || 0,5596 || 0,5636 || 0,5675 || 0,5714 || 0,5753 | |||
|- | |||
| 0,2 || 0,5793 || 0,5832 || 0,5871 || 0,5910 || 0,5948 || 0,5987 || 0,6026 || 0,6064 || 0,6103 || 0,6141 | |||
|- | |||
| 0,3 || 0,6179 || 0,6217 || 0,6255 || 0,6293 || 0,6331 || 0,6368 || 0,6406 || 0,6443 || 0,6480 || 0,6517 | |||
|- | |||
| 0,4 || 0,6554 || 0,6591 || 0,6628 || 0,6664 || 0,6700 || 0,6736 || 0,6772 || 0,6808 || 0,6844 || 0,6879 | |||
|- | |||
| 0,5 || 0,6915 || 0,6950 || 0,6985 || 0,7019 || 0,7054 || 0,7088 || 0,7123 || 0,7157 || 0,7190 || 0,7224 | |||
|- | |||
| 0,6 || 0,7257 || 0,7291 || 0,7324 || 0,7357 || 0,7389 || 0,7422 || 0,7454 || 0,7486 || 0,7517 || 0,7549 | |||
|- | |||
| 0,7 || 0,7580 || 0,7611 || 0,7642 || 0,7673 || 0,7704 || 0,7734 || 0,7764 || 0,7794 || 0,7823 || 0,7852 | |||
|- | |||
| 0,8 || 0,7881 || 0,7910 || 0,7939 || 0,7967 || 0,7995 || 0,8023 || 0,8051 || 0,8078 || 0,8106 || 0,8133 | |||
|- | |||
| 0,9 || 0,8159 || 0,8186 || 0,8212 || 0,8238 || 0,8264 || 0,8289 || 0,8315 || 0,8340 || 0,8365 || 0,8389 | |||
|- | |||
| | |||
1,0 || 0,8413 || 0,8438 || 0,8461 || 0,8485 || 0,8508 || 0,8531 || 0,8554 || 0,8577 || 0,8599 || 0,8621 | |||
|- | |||
| 1,1 || 0,8643 || 0,8665 || 0,8686 || 0,8708 || 0,8729 || 0,8749 || 0,8770 || 0,8790 || 0,8810 || 0,8830 | |||
|- | |||
| 1,2 || 0,8849 || 0,8869 || 0,8888 || 0,8907 || 0,8925 || 0,8944 || 0,8962 || 0,8980 || 0,8997 || 0,9015 | |||
|- | |||
| 1,3 || 0,9032 || 0,9049 || 0,9066 || 0,9082 || 0,9099 || 0,9115 || 0,9131 || 0,9147 || 0,9162 || 0,9177 | |||
|- | |- | ||
| | | 1,4 || 0,9192 || 0,9207 || 0,9222 || 0,9236 || 0,9251 || 0,9265 || 0,9279 || 0,9292 || 0,9306 || 0,9319 | ||
|- | |- | ||
| | | 1,5 || 0,9332 || 0,9345 || 0,9357 || 0,9370 || 0,9382 || 0,9394 || 0,9406 || 0,9418 || 0,9429 || 0,9441 | ||
|- | |- | ||
| 1 | | 1,6 || 0,9452 || 0,9463 || 0,9474 || 0,9484 || 0,9495 || 0,9505 || 0,9515 || 0,9525 || 0,9535 || 0,9545 | ||
|- | |- | ||
| | | 1,7 || 0,9554 || 0,9564 || 0,9573 || 0,9582 || 0,9591 || 0,9599 || 0,9608 || 0,9616 || 0,9625 || 0,9633 | ||
|- | |- | ||
| | | 1,8 || 0,9641 || 0,9649 || 0,9656 || 0,9664 || 0,9671 || 0,9678 || 0,9686 || 0,9693 || 0,9699 || 0,9706 | ||
|- | |- | ||
| | | 1,9 || 0,9713 || 0,9719 || 0,9726 || 0,9732 || 0,9738 || 0,9744 || 0,9750 || 0,9756 || 0,9761 || 0,9767 | ||
|- | |- | ||
| | | | ||
2,0 || 0,9772 || 0,9778 || 0,9783 || 0,9788 || 0,9793 || 0,9798 || 0,9803 || 0,9808 || 0,9812 || 0,9817 | |||
|- | |- | ||
| | | 2,1 || 0,9821 || 0,9826 || 0,9830 || 0,9834 || 0,9838 || 0,9842 || 0,9846 || 0,9850 || 0,9854 || 0,9857 | ||
|- | |- | ||
| | | 2,2 || 0,9861 || 0,9864 || 0,9868 || 0,9871 || 0,9875 || 0,9878 || 0,9881 || 0,9884 || 0,9887 || 0,9890 | ||
|- | |- | ||
| | | 2,3 || 0,9893 || 0,9896 || 0,9898 || 0,9901 || 0,9904 || 0,9906 || 0,9909 || 0,9911 || 0,9913 || 0,9916 | ||
|- | |- | ||
| | | 2,4 || 0,9918 || 0,9920 || 0,9922 || 0,9925 || 0,9927 || 0,9929 || 0,9931 || 0,9932 || 0,9934 || 0,9936 | ||
|- | |- | ||
| | | 2,5 || 0,9938 || 0,9940 || 0,9941 || 0,9943 || 0,9945 || 0,9946 || 0,9948 || 0,9949 || 0,9951 || 0,9952 | ||
|- | |- | ||
| | | 2,6 || 0,9953 || 0,9955 || 0,9956 || 0,9957 || 0,9959 || 0,9960 || 0,9961 || 0,9962 || 0,9963 || 0,9964 | ||
|- | |- | ||
| | | 2,7 || 0,9965 || 0,9966 || 0,9967 || 0,9968 || 0,9969 || 0,9970 || 0,9971 || 0,9972 || 0,9973 || 0,9974 | ||
|- | |- | ||
| | | 2,8 || 0,9974 || 0,9975 || 0,9976 || 0,9977 || 0,9977 || 0,9978 || 0,9979 || 0,9979 || 0,9980 || 0,9981 | ||
|- | |- | ||
| | | 2,9 || 0,9981 || 0,9982 || 0,9982 || 0,9983 || 0,9984 || 0,9984 || 0,9985 || 0,9985 || 0,9986 || 0,9986 | ||
|- | |- | ||
| | | 3,0 || 0,9987 || 0,9987 || 0,9987 || 0,9988 || 0,9988 || 0,9989 || 0,9989 || 0,9989 || 0,9990 || 0,9990 | ||
|- | |- | ||
| | | | ||
Linia 270: | Linia 211: | ||
|} | |} | ||
} | |||
Jak powyżej wspomnieliśmy, rozkład normalny | |||
jest bardzo ważnym rozkładem. Dzieje się tak między | |||
innymi dlatego, że wiele zjawisk przyrodniczych, | |||
społecznych i innych przebiega zgodnie z tym | |||
rozkładem. Ma on również olbrzymie znaczenie | |||
teoretyczne. Poniżej przedstawiamy tak zwane | |||
centralne twierdzenie graniczne, które częściowo | |||
wyjaśnia znaczenie rozkładu normalnego. Twierdzenie to | |||
gwarantuje, że (pod pewnymi dość naturalnymi | |||
założeniami) suma dużej ilości niezależnych | |||
zmiennych losowych ma w przybliżeniu rozkład | |||
normalny. Na zakończenie tego punktu wypowiemy jeszcze jedno ważne twierdzenie dotyczące rozkładu normalnego. | |||
{{twierdzenie||| | |||
< | Niech <math>\displaystyle X_1</math> oraz <math>\displaystyle X_2</math> będą niezależnymi zmiennymi losowymi o rozkładach normalnych, odpowiednio <math>\displaystyle N(m_1,\sigma_1)</math> oraz <math>\displaystyle N(m_2,\sigma_2)</math>. Wtedy: | ||
# <math>\displaystyle X_1 + X_2 \sim N(m_1+m_2, \sqrt{\sigma_1^2+ \sigma_2^2})</math>, | |||
</math></ | # <math>\displaystyle aX_1 + b \sim N(am_1 + b, |a|\sigma_1)</math> dla wszystkich <math>\displaystyle a, b \in {\Bbb R}</math>. | ||
}} | |||
== | ==Centralne twierdzenie graniczne== | ||
Prawa wielkich liczb mówią o zbieżności średnich | |||
arytmetycznych, interpretowanych czasem jako średnie | |||
czasowe, niezależnych zmiennych losowych. | |||
Twierdzenia te mają olbrzymią wartość poznawczą, | |||
jednak ich wartość praktyczna jest nieco | |||
mniejsza. W szczególności, prawa wielkich liczb nie | |||
dają żadnej informacji o rozkładzie sumy zmiennych | |||
losowych, podczas gdy w wielu konkretnych zagadnieniach | |||
znajomość rozkładu ma podstawowe znaczenie. Właśnie centralne twierdzenie | |||
graniczne pozwala rozwiązać ten problem. Jak już | |||
wspominaliśmy, wynika z niego, że suma | |||
niezależnych zmiennych losowych spełniających | |||
zupełnie naturalne warunki ma w przybliżeniu rozkład | |||
normalny. | |||
Ze względu na wagę centralnego twierdzenia granicznego | |||
wypowiemy je w trzech wersjach. Pierwsza z nich -- do | |||
niedawna najczęściej używana -- ma w dobie komputerów | |||
mniejsze znaczenie praktyczne, jednak w dalszym | |||
ciągu jest najbardziej popularna. | |||
'' | '''Założenie.'''<br> | ||
''<math>\displaystyle (\Omega, \Sigma,P)</math> jest przestrzenią | |||
probabilistyczną, zaś <math>\displaystyle X_1,\,X_2,\, X_3,\dots</math> | |||
-- ciągiem niezależnych zmiennych losowych | |||
określonych na <math>\displaystyle \Omega.</math> Wszystkie zmienne losowe | |||
<math>\displaystyle X_i</math> mają taki sam rozkład, a ich wspólna nadzieja | |||
matematyczna <math>\displaystyle m</math> oraz wariancja <math>\displaystyle \sigma^2</math> istnieją i | |||
są skończone, przy czym <math>\displaystyle \sigma | |||
> 0</math> (ten ostatni warunek oznacza, że zmienne losowe nie są | |||
stałymi). Jak zawsze oznaczamy: <center><math>\displaystyle S_n = X_1 + \dots +X_n.</math></center> '' | |||
Będziemy badać najpierw zbieżność tak zwanych | |||
sum standaryzowanych, a dopiero potem wyciągniemy | |||
wnioski dotyczące samych sum <math>\displaystyle S_n</math> oraz średnich <math>\displaystyle \displaystyle S_n | |||
\over n</math>. | |||
<math>\displaystyle | |||
Zmienną losową: | |||
<center><math>\displaystyle | <center><math>\displaystyle | ||
{ | Z_n := \frac{S_n -E(S_n)}{\sqrt{D^2(S_n)}} = \frac{S_n | ||
-nm}{\sigma \sqrt{n}} | |||
</math></center> | </math></center> | ||
nazywamy standaryzacją sumy <math>\displaystyle S_n.</math> | |||
Jak łatwo zauważyć: <center><math>\displaystyle E(Z_n) = 0\;\; \textrm{oraz}\;\; D^2(S_n) = 1.</math></center> | |||
{{ | {{twierdzenie|Lindeberga-Levy'ego|| | ||
Dla każdego <math>\displaystyle x \in {\Bbb R}</math> zachodzi równość: | |||
<center><math>\displaystyle | |||
\lim_{n\rightarrow \infty}P(Z_n \le x) = \Phi(x), | |||
</math></center> | |||
gdzie <math>\displaystyle \Phi</math> jest | |||
dystrybuantą rozkładu <math>\displaystyle N(0,1)</math>. | |||
}} | |||
Dowód tego twierdzenia jest długi i | |||
skomplikowany, więc nie przytaczamy go tutaj. <math>\displaystyle \hfill{ | |||
\Box}</math> | |||
Twierdzenie Lindeberga-Levy'ego można wypowiedzieć | |||
w wersjach bardziej naturalnych -- bez używania | |||
standaryzacji <math>\displaystyle Z_n</math>. | |||
{{twierdzenie|Centralne tw. graniczne dla sum|| | |||
Rozkład | |||
zmiennej losowej <math>\displaystyle S_n</math> jest asymptotycznie równy rozkładowi | |||
<math>\displaystyle N(nm,\sigma\sqrt{n})</math>. Inaczej: | |||
<center><math>\displaystyle | |||
\lim_{n\rightarrow \infty}(F_{S_n}(x) - | |||
\Phi_{nm,\sigma\sqrt{n}}(x)) = 0, | |||
</math></center> | |||
dla <math>\displaystyle x | |||
\in {\Bbb R}.</math> }} | |||
{{twierdzenie|Centralne tw. graniczne dla średnich|| | |||
Rozkład <math>\displaystyle | Rozkład zmiennej losowej <math>\displaystyle S_n</math> jest asymptotycznie równy | ||
rozkładowi <math>\displaystyle N(m,{\sigma\over \sqrt{n}})</math>. | |||
Inaczej: | |||
<center><math>\displaystyle | <center><math>\displaystyle | ||
\lim_{n\rightarrow \infty}(F_{\frac{S_n}{n}}(x) - | |||
\Phi_{m,{\sigma\over \sqrt{n}}}(x)) = 0, | |||
</math></center> | </math></center> | ||
dla <math>\displaystyle x | |||
\in {\Bbb R}.</math> }} | |||
Zinterpretujemy twierdzenie [[##rozsum|Uzupelnic rozsum|]], mówiące | |||
o rozkładzie sumy niezależnych zmiennych losowych. | |||
Wyobraźmy sobie eksperyment polegający na wielokrotnym | |||
rzucie kostką do gry. Suma uzyskanych oczek <math>\displaystyle S</math> jest | |||
zmienną losową mającą, zgodnie z cytowanym twierdzeniem, w | |||
przybliżeniu rozkład <math>\displaystyle N(nm, \sigma \sqrt{n})</math>, | |||
gdzie <math>\displaystyle m</math> oraz <math>\displaystyle \sigma</math> są odpowiednio nadzieją | |||
matematyczną oraz odchyleniem standardowym zmiennej | |||
losowej <math>\displaystyle X</math>, reprezentującej wynik pojedynczego | |||
rzutu, a <math>\displaystyle n</math> jest liczbą wykonanych prób. Ponieważ | |||
<math>\displaystyle X</math> ma rozkład dyskretny, skupiony w punktach | |||
<math>\displaystyle 1,2,3,4,5,6</math> przyjmowanych z jednakowym | |||
prawdopodobieństwem <math>\displaystyle \frac{1}{6}</math>, więc bez | |||
trudu można stwierdzić, że: <center><math>\displaystyle m = 3.5 \;\;\textrm{oraz}\;\; \sigma = | |||
\frac{\sqrt{105}}{6} \approx 1.7078251.</math></center> | |||
Przypuśćmy, że | |||
wykonano 1000 rzutów (<math>\displaystyle n = 1000</math>). Wówczas suma <math>\displaystyle S_{1000}</math> | |||
ma w przybliżeniu rozkład <math>\displaystyle N(3500,54,00617)</math>. | |||
Zweryfikujmy "doświadczalnie" uzyskany wynik. W tym | |||
celu można przeprowadzić symulację tysiąca rzutów | |||
kostką za pomocą komputera, uzyskując odpowiednią | |||
wartość sumy wszystkich uzyskanych oczek. | |||
Doświadczenie to powtórzymy 400 razy, uzyskując <math>\displaystyle 400</math> | |||
wartości sumy oczek. Poniżej przytaczamy kod programu Maple, umożliwiający przeprowadzenie takiej symulacji. | |||
{active}{1d}{kostka :<nowiki>=</nowiki> rand(1..6):}{} | |||
{{ | {active}{1d}{k :<nowiki>=</nowiki> 400: n :<nowiki>=</nowiki> 1000: lista :<nowiki>=</nowiki> NULL: }{} | ||
{active}{1d}{from 1 to k do | |||
S :<nowiki>=</nowiki> 0: | |||
from 1 to n do | |||
< | S :<nowiki>=</nowiki> S + kostka(): | ||
od: | |||
lista :<nowiki>=</nowiki> lista,S | |||
od:}{} | |||
}} | |||
Aby graficznie zinterpretować otrzymane dane, najpierw sporządzamy odpowiedni szereg rozdzielczy | |||
(rozważamy 18 klas): | |||
{active}{1d}{dane :<nowiki>=</nowiki> stats[transform,tallyinto['skrajne']]([lista], | |||
[seq(3320 + (i - 1)*20..3320 + i*20, i <nowiki>=</nowiki> 1..18)]);}{} | |||
< | {inert}{2d}{dane :<nowiki>=</nowiki> [Weight(3480 .. 3500,55), Weight(3560 .. 3580,33), | ||
Weight(3660 .. 3680,0), Weight(3340 .. 3360,5), Weight(3540 .. | |||
< | 3560,31), Weight(3640 .. 3660,4), Weight(3360 .. 3380,2), Weight(3520 | ||
.. 3540,43), Weight(3420 .. 3440,28), Weight(3620 .. 3640,4), | |||
Weight(3460 .. 3480,53), Weight(3320 .. 3340,0), Weight(3500 .. | |||
3520,66), Weight(3600 .. 3620,10), Weight(3380 .. 3400,8), Weight(3400 | |||
.. 3420,13), Weight(3440 .. 3460,28), Weight(3580 .. 3600,17)];}{{ | |||
{dane} :<nowiki>=</nowiki> [{Weight}(3480 .. 3500, 55), <br> | |||
{Weight}(3560 .. 3580, 33), {Weight}(3660 .. | |||
3680, 0), <br> | |||
{Weight}(3340 .. 3360, 5), {Weight}(3540 .. | |||
3560, 31), <br> | |||
{Weight}(3640 .. 3660, 4), {Weight}(3360 .. | |||
3380, 2), <br> | |||
{Weight}(3520 .. 3540, 43), {Weight}(3420 .. | |||
3440, 28), <br> | |||
{Weight}(3620 .. 3640, 4), {Weight}(3460 .. | |||
3480, 53), <br> | |||
{Weight}(3320 .. 3340, 0), {Weight}(3500 .. | |||
3520, 66), <br> | |||
{Weight}(3600 .. 3620, 10), {Weight}(3380 .. | |||
3400, 8), <br> | |||
{Weight}(3400 .. 3420, 13), {Weight}(3440 .. | |||
3460, 28), <br> | |||
{Weight}(3580 .. 3600, 17)] } | |||
} | |||
Sprawdzamy, czy są sumy, które nie zostały | |||
uwzględnione -- sumy te byłyby wpisane na listę o nazwie | |||
<tt>skrajne</tt>: | |||
{{ | {active}{1d}{skrajne;}{} | ||
{inert}{2d}{skrajne;}{ | |||
<math>\displaystyle | <center><math>\displaystyle \mathit{skrajne} | ||
</math></center> | |||
} | |||
Okazało się więc, że w tym przypadku wszystkie sumy zostały uwzględnione. | |||
W celu sporządzenia histogramu, dobieramy wysokości słupków tak, | |||
aby pola wszystkich słupków dawały w sumie <math>\displaystyle 1</math>: | |||
</math> | |||
{active}{1d}{dane1 :<nowiki>=</nowiki> stats[transform, | |||
scaleweight[1/nops([lista])]](dane);}{} | |||
== | {inert}{2d}{dane1 :<nowiki>=</nowiki> [Weight(3480 .. 3500,11/80), Weight(3560 .. 3580,33/400), | ||
Weight(3660 .. 3680,0), Weight(3340 .. 3360,1/80), Weight(3540 .. | |||
3560,31/400), Weight(3640 .. 3660,1/100), Weight(3360 .. 3380,1/200), | |||
Weight(3520 .. 3540,43/400), Weight(3420 .. 3440,7/100), Weight(3620 | |||
.. 3640,1/100), Weight(3460 .. 3480,53/400), Weight(3320 .. 3340,0), | |||
Weight(3500 .. 3520,33/200), Weight(3600 .. 3620,1/40), Weight(3380 .. | |||
3400,1/50), Weight(3400 .. 3420,13/400), Weight(3440 .. 3460,7/100), | |||
Weight(3580 .. 3600,17/400)];}{{ | |||
{dane1} :<nowiki>=</nowiki> [{Weight}(3480 .. 3500, | |||
{ {11}{80}} ), | |||
{Weight}(3560 .. 3580, { {33}{400}} ) | |||
, <br> | |||
{Weight}(3660 .. 3680, 0), | |||
{Weight}(3340 .. 3360, { {1}{80}} ), | |||
{Weight}(3540 .. 3560, { {31}{400}} ) | |||
, <br> | |||
{Weight}(3640 .. 3660, { {1}{100}} ) | |||
, | |||
{Weight}(3360 .. 3380, { {1}{200}} ) | |||
< | , | ||
{Weight}(3520 .. 3540, { {43}{400}} ) | |||
} | , <br> | ||
< | {Weight}(3420 .. 3440, { {7}{100}} ) | ||
, | |||
{Weight}(3620 .. 3640, { {1}{100}} ) | |||
, | |||
{Weight}(3460 .. 3480, { {53}{400}} ) | |||
, <br> {Weight}(3320 .. 3340, 0), | |||
{Weight}(3500 .. 3520, { {33}{200}} ) | |||
, | |||
{Weight}(3600 .. 3620, { {1}{40}} ), | |||
<br> {Weight}(3380 .. 3400, { {1}{50}} ) | |||
, | |||
{Weight}(3400 .. 3420, { {13}{400}} ) | |||
, | |||
{Weight}(3440 .. 3460, { {7}{100}} ) | |||
, <br> | |||
{Weight}(3580 .. 3600, { {17}{400}} ) | |||
] } | |||
} | |||
Teraz rysujemy histogram: | |||
{active}{1d}{stats[statplots,histogram](dane1);}{} | |||
''tutaj rysunek 94.eps'' | |||
oraz zachowujemy powyższy wykres: | |||
{active}{1d}{g1 :<nowiki>=</nowiki> :}{} | |||
Dla wygody obliczamy jeszcze raz nadzieję i | |||
wariancję dla pojedynczej kostki: | |||
{active}{1d}{ek :<nowiki>=</nowiki> add(i,i<nowiki>=</nowiki>1..6)/6: vk :<nowiki>=</nowiki> add(i^2,i<nowiki>=</nowiki>1..6)/6 - ek^2:}{} | |||
( | |||
a następnie obliczamy nadzieję i wariancję sumy: | |||
{{ | {active}{1d}{es :<nowiki>=</nowiki> n*ek; vs :<nowiki>=</nowiki> n*vk;}{} | ||
{inert}{2d}{es :<nowiki>=</nowiki> 3500;}{ | |||
<center><math>\displaystyle \mathit{es} := 3500 | |||
<center><math>\displaystyle | |||
</math></center> | </math></center> | ||
} | |||
{inert}{2d}{vs :<nowiki>=</nowiki> 8750/3;}{ | |||
<center><math>\displaystyle | <center><math>\displaystyle \mathit{vs} := {\displaystyle \frac {8750}{3}} | ||
</math></center> | |||
} | |||
Przygotowujemy wykres gęstości rozkładu teoretycznego (lecz go | |||
jeszcze nie wyświetlamy): | |||
{active}{1d}{g2 :<nowiki>=</nowiki> plot(f(es,sqrt(vs)),3320..3680, color<nowiki>=</nowiki>black):}{} | |||
Obliczamy średnią i odchylenie standardowe dla szeregu rozdzielczego: | |||
{active}{1d}{ee :<nowiki>=</nowiki> evalf(stats[describe,mean]([lista]));}{} | |||
{inert}{2d}{ee :<nowiki>=</nowiki> 3501.587500;}{ | |||
<center><math>\displaystyle \mathit{ee} := 3501.587500 | |||
<center><math>\displaystyle | |||
</math></center> | </math></center> | ||
} | |||
{active}{1d}{ve :<nowiki>=</nowiki> evalf(stats[describe,standarddeviation]([lista]));}{} | |||
< | |||
{inert}{2d}{ve :<nowiki>=</nowiki> 57.07764311;}{ | |||
{ | <center><math>\displaystyle \mathit{ve} := 57.07764311 | ||
</math></center> | |||
} | |||
Teraz przygotowujemy wykres gęstości rozkładu normalnego o parametrach | |||
obliczonych z szeregu rozdzielczego: | |||
{active}{1d}{g3 :<nowiki>=</nowiki> plot(f(ee,ve),3320..3680, color<nowiki>=</nowiki>black,thickness<nowiki>=</nowiki>2):}{} | |||
aby następnie wyświetlić, na jednym rysunku, histogram i dwie | |||
poprzednio otrzymane gęstości: | |||
{active}{1d}{plots[display](g1,g2,g3);}{} | |||
}} | |||
''tutaj rysunek 95.eps'' | |||
Ponieważ bardzo często zmiennymi losowymi są | |||
niezależne próby Bernoulliego, więc sformułujemy centralne twierdzenie | |||
graniczne specjalnie dla tego przypadku. Jest | |||
to natychmiastowy wniosek z twierdzenia Lindeberga-Levy'ego (twierdzenie [[##da35|Uzupelnic da35|]]). | |||
{{twierdzenie||| | {{twierdzenie|de Moivre'a-Laplace'a|| | ||
Niech | Niech <math>\displaystyle X_1, | ||
\,X_2, \, X_3,\dots</math> będzie ciągiem | |||
niezależnych prób Bernoulliego, z takim samym | |||
= | prawdopodobieństwem sukcesu <math>\displaystyle p</math> i | ||
porażki <math>\displaystyle q = 1 - p</math> w każdej próbie (<math>\displaystyle 0<p<1</math>). Wtedy: | |||
<center><math>\displaystyle | <center><math>\displaystyle | ||
P\left(\frac{S_n - np}{\sqrt{npq}} \le x\right) \longrightarrow | |||
\ | \Phi(x), | ||
</math></center> | </math></center> | ||
dla każdego <math>\displaystyle x \in {\Bbb R}</math>. }} | |||
Oczywiście, twierdzenia [[##rozsum|Uzupelnic rozsum|]] i [[##ctgsr|Uzupelnic ctgsr|]] można także z łatwością przeformułować dla | |||
przypadku niezależnych prób Bernoulliego. | |||
{{uwaga||| | |||
Wyraźnie zaznaczamy, że centralne twierdzenie | |||
graniczne jest prawdziwe przy dużo ogólniejszych | |||
założeniach. W szczególności zmienne losowe nie muszą | |||
mieć takiego samego rozkładu, a nawet nie muszą być | |||
niezależne. Jednakże, różnym wersjom centralnego twierdzenia | |||
granicznego przyświeca ta sama idea: | |||
suma niewiele zależnych od siebie składników | |||
losowych, z których żaden nie dominuje istotnie nad | |||
pozostałymi, ma w przybliżeniu rozkład normalny. | |||
ma | |||
}} | |||
Wersja z 10:05, 22 sie 2006
Streszczenie
Centralną rolę w rachunku prawdopodobieństwa i statystyce pełni tak zwany rozkład normalny. Związane jest z nim słynne twierdzenie nazywane centralnym twierdzeniem granicznym. Na jego podstawie można w wielu sytuacjach zakładać, że zmienna losowa, którą jesteśmy właśnie zainteresowani, ma rozkład normalny.
Słowa kluczowe: rozkład normalny, krzywa Gaussa, standaryzacja, centralne twierdzenie graniczne.
Rozkład normalny
Chyba najważniejszym ze znanych rozkładów jest tak zwany rozkład normalny, określany niekiedy jako rozkład Gaussa.
Rozkład nazywamy rozkładem normalnym, jeżeli istnieją takie liczby rzeczywiste oraz , że funkcja , określona wzorem:
jest gęstością tego rozkładu.
Stosowana w tym przypadku notacja jest następująca: oznacza rozkład normalny o parametrach oraz -- jego dystrybuantę oznaczamy przez . Wykres gęstości rozkładu normalnego nosi nazwę krzywej Gaussa.
Poniższy wykres przedstawia gęstości rozkładów , i , przy czym większym wartościom odpowiada bardziej stromy wykres.
tutaj rysunek 91.eps
Znaczenie parametru ilustruje też następująca animacja (tutaj ):
Kolejny wykres przedstawia gęstości rozkładów , i .
tutaj rysunek 92.eps
Aby jeszcze lepiej uzmysłowić sobie znaczenie parametru , proponujemy uruchomić następującą animację (tutaj ):
.5in
Dystrybuantę oznaczamy krótko przez . Wyraża się więc ona następującym wzorem:
Poniższy wykres przedstawia gęstość rozkładu , który nazywamy standardowym rozkładem normalnym. Zauważmy, że zakreskowany obszar posiada pole równe .
tutaj rysunek 93.eps
Wartości dystrybuanty zostały stablicowane (patrz strona {rnor}) oraz są dostępne w wielu komputerowych programach matematycznych lub statystycznych. Oczywiście, pakiety statystyczne programu Maple zawierają odpowiednie procedury (jakie?).
Zwróćmy uwagę na dwie własności funkcji , posiadające (przede wszystkim) rachunkowe znaczenie. Wynikają one bezpośrednio ze wzoru (Uzupelnic eq:par01|) i mają oczywistą interpretację geometryczną (ćwiczenie). Mianowicie:
oraz
Użyteczność powyższych wzorów można zaobserwować zwłaszcza wtedy, gdy nie dysponujemy odpowiednim pakietem komputerowym czy kalkulatorem, ale są one także ważne przy pewnych przekształceniach. Podobnie następna równość, którą można otrzymać stosując prostą zmianę zmiennychAM, pozwala za pomocą obliczać dystrybuanty dla pozostałych parametrów i . Mianowicie:
Parametry i mają bardzo wyraźną interpretację probabilistyczną. Okazuje się bowiem, iż nadzieja matematyczna oraz wariancja w rozkładzie wyrażają się wzorami:
Zauważmy też, że jest punktem, w którym gęstość rozkładu osiąga wartość największą, prosta jest osią symetrii jej wykresu, zaś punkty i -- punktami przegięciaAM.
Postaramy się uzasadnić ilościowo, że parametr jest miarą "rozrzutu" rozkładu , względem punktu . Obliczmy w tym celu:
gdzie jest rozkładem . Otrzymujemy:
Korzystając z tablic lub z komputera, bez trudu dostajemy:
Tak więc szansa znajdowania się poza przedziałem wynosi istotnie mniej niż . Im mniejszy jest parametr , tym bardziej rozkład jest "skupiony w okolicy" punktu .
{Dystrybuanta rozkładu normalnego {W tablicy podano wartości dla .}} .1in
{
|| 0,00 || 0,01 || 0,02 || 0,03 || 0,04 || 0,05 || 0,06 || 0,07 || 0,08 || 0,09 | ||||||||||
0,0 || 0,5000 || 0,5040 || 0,5080 || 0,5120 || 0,5160 || 0,5199 || 0,5239 || 0,5279 || 0,5319 || 0,5359 | ||||||||||
0,1 | 0,5398 | 0,5438 | 0,5478 | 0,5517 | 0,5557 | 0,5596 | 0,5636 | 0,5675 | 0,5714 | 0,5753 |
0,2 | 0,5793 | 0,5832 | 0,5871 | 0,5910 | 0,5948 | 0,5987 | 0,6026 | 0,6064 | 0,6103 | 0,6141 |
0,3 | 0,6179 | 0,6217 | 0,6255 | 0,6293 | 0,6331 | 0,6368 | 0,6406 | 0,6443 | 0,6480 | 0,6517 |
0,4 | 0,6554 | 0,6591 | 0,6628 | 0,6664 | 0,6700 | 0,6736 | 0,6772 | 0,6808 | 0,6844 | 0,6879 |
0,5 | 0,6915 | 0,6950 | 0,6985 | 0,7019 | 0,7054 | 0,7088 | 0,7123 | 0,7157 | 0,7190 | 0,7224 |
0,6 | 0,7257 | 0,7291 | 0,7324 | 0,7357 | 0,7389 | 0,7422 | 0,7454 | 0,7486 | 0,7517 | 0,7549 |
0,7 | 0,7580 | 0,7611 | 0,7642 | 0,7673 | 0,7704 | 0,7734 | 0,7764 | 0,7794 | 0,7823 | 0,7852 |
0,8 | 0,7881 | 0,7910 | 0,7939 | 0,7967 | 0,7995 | 0,8023 | 0,8051 | 0,8078 | 0,8106 | 0,8133 |
0,9 | 0,8159 | 0,8186 | 0,8212 | 0,8238 | 0,8264 | 0,8289 | 0,8315 | 0,8340 | 0,8365 | 0,8389 |
1,0 || 0,8413 || 0,8438 || 0,8461 || 0,8485 || 0,8508 || 0,8531 || 0,8554 || 0,8577 || 0,8599 || 0,8621 | ||||||||||
1,1 | 0,8643 | 0,8665 | 0,8686 | 0,8708 | 0,8729 | 0,8749 | 0,8770 | 0,8790 | 0,8810 | 0,8830 |
1,2 | 0,8849 | 0,8869 | 0,8888 | 0,8907 | 0,8925 | 0,8944 | 0,8962 | 0,8980 | 0,8997 | 0,9015 |
1,3 | 0,9032 | 0,9049 | 0,9066 | 0,9082 | 0,9099 | 0,9115 | 0,9131 | 0,9147 | 0,9162 | 0,9177 |
1,4 | 0,9192 | 0,9207 | 0,9222 | 0,9236 | 0,9251 | 0,9265 | 0,9279 | 0,9292 | 0,9306 | 0,9319 |
1,5 | 0,9332 | 0,9345 | 0,9357 | 0,9370 | 0,9382 | 0,9394 | 0,9406 | 0,9418 | 0,9429 | 0,9441 |
1,6 | 0,9452 | 0,9463 | 0,9474 | 0,9484 | 0,9495 | 0,9505 | 0,9515 | 0,9525 | 0,9535 | 0,9545 |
1,7 | 0,9554 | 0,9564 | 0,9573 | 0,9582 | 0,9591 | 0,9599 | 0,9608 | 0,9616 | 0,9625 | 0,9633 |
1,8 | 0,9641 | 0,9649 | 0,9656 | 0,9664 | 0,9671 | 0,9678 | 0,9686 | 0,9693 | 0,9699 | 0,9706 |
1,9 | 0,9713 | 0,9719 | 0,9726 | 0,9732 | 0,9738 | 0,9744 | 0,9750 | 0,9756 | 0,9761 | 0,9767 |
2,0 || 0,9772 || 0,9778 || 0,9783 || 0,9788 || 0,9793 || 0,9798 || 0,9803 || 0,9808 || 0,9812 || 0,9817 | ||||||||||
2,1 | 0,9821 | 0,9826 | 0,9830 | 0,9834 | 0,9838 | 0,9842 | 0,9846 | 0,9850 | 0,9854 | 0,9857 |
2,2 | 0,9861 | 0,9864 | 0,9868 | 0,9871 | 0,9875 | 0,9878 | 0,9881 | 0,9884 | 0,9887 | 0,9890 |
2,3 | 0,9893 | 0,9896 | 0,9898 | 0,9901 | 0,9904 | 0,9906 | 0,9909 | 0,9911 | 0,9913 | 0,9916 |
2,4 | 0,9918 | 0,9920 | 0,9922 | 0,9925 | 0,9927 | 0,9929 | 0,9931 | 0,9932 | 0,9934 | 0,9936 |
2,5 | 0,9938 | 0,9940 | 0,9941 | 0,9943 | 0,9945 | 0,9946 | 0,9948 | 0,9949 | 0,9951 | 0,9952 |
2,6 | 0,9953 | 0,9955 | 0,9956 | 0,9957 | 0,9959 | 0,9960 | 0,9961 | 0,9962 | 0,9963 | 0,9964 |
2,7 | 0,9965 | 0,9966 | 0,9967 | 0,9968 | 0,9969 | 0,9970 | 0,9971 | 0,9972 | 0,9973 | 0,9974 |
2,8 | 0,9974 | 0,9975 | 0,9976 | 0,9977 | 0,9977 | 0,9978 | 0,9979 | 0,9979 | 0,9980 | 0,9981 |
2,9 | 0,9981 | 0,9982 | 0,9982 | 0,9983 | 0,9984 | 0,9984 | 0,9985 | 0,9985 | 0,9986 | 0,9986 |
3,0 | 0,9987 | 0,9987 | 0,9987 | 0,9988 | 0,9988 | 0,9989 | 0,9989 | 0,9989 | 0,9990 | 0,9990 |
}
Jak powyżej wspomnieliśmy, rozkład normalny jest bardzo ważnym rozkładem. Dzieje się tak między innymi dlatego, że wiele zjawisk przyrodniczych, społecznych i innych przebiega zgodnie z tym rozkładem. Ma on również olbrzymie znaczenie teoretyczne. Poniżej przedstawiamy tak zwane centralne twierdzenie graniczne, które częściowo wyjaśnia znaczenie rozkładu normalnego. Twierdzenie to gwarantuje, że (pod pewnymi dość naturalnymi założeniami) suma dużej ilości niezależnych zmiennych losowych ma w przybliżeniu rozkład normalny. Na zakończenie tego punktu wypowiemy jeszcze jedno ważne twierdzenie dotyczące rozkładu normalnego.
Twierdzenie
Niech oraz będą niezależnymi zmiennymi losowymi o rozkładach normalnych, odpowiednio oraz . Wtedy:
- ,
- dla wszystkich .
Centralne twierdzenie graniczne
Prawa wielkich liczb mówią o zbieżności średnich arytmetycznych, interpretowanych czasem jako średnie czasowe, niezależnych zmiennych losowych. Twierdzenia te mają olbrzymią wartość poznawczą, jednak ich wartość praktyczna jest nieco mniejsza. W szczególności, prawa wielkich liczb nie dają żadnej informacji o rozkładzie sumy zmiennych losowych, podczas gdy w wielu konkretnych zagadnieniach znajomość rozkładu ma podstawowe znaczenie. Właśnie centralne twierdzenie graniczne pozwala rozwiązać ten problem. Jak już wspominaliśmy, wynika z niego, że suma niezależnych zmiennych losowych spełniających zupełnie naturalne warunki ma w przybliżeniu rozkład normalny.
Ze względu na wagę centralnego twierdzenia granicznego wypowiemy je w trzech wersjach. Pierwsza z nich -- do niedawna najczęściej używana -- ma w dobie komputerów mniejsze znaczenie praktyczne, jednak w dalszym ciągu jest najbardziej popularna.
Założenie.
jest przestrzenią
probabilistyczną, zaś
-- ciągiem niezależnych zmiennych losowych
określonych na Wszystkie zmienne losowe
mają taki sam rozkład, a ich wspólna nadzieja
matematyczna oraz wariancja istnieją i
są skończone, przy czym (ten ostatni warunek oznacza, że zmienne losowe nie są
stałymi). Jak zawsze oznaczamy:
Będziemy badać najpierw zbieżność tak zwanych sum standaryzowanych, a dopiero potem wyciągniemy wnioski dotyczące samych sum oraz średnich .
Zmienną losową:
nazywamy standaryzacją sumy
Jak łatwo zauważyć:
Twierdzenie Lindeberga-Levy'ego
Dla każdego zachodzi równość:
gdzie jest dystrybuantą rozkładu .
Dowód tego twierdzenia jest długi i skomplikowany, więc nie przytaczamy go tutaj. Parser nie mógł rozpoznać (nieznana funkcja „\hfill”): {\displaystyle \displaystyle \hfill{ \Box}}
Twierdzenie Lindeberga-Levy'ego można wypowiedzieć w wersjach bardziej naturalnych -- bez używania standaryzacji .
Twierdzenie Centralne tw. graniczne dla sum
Rozkład zmiennej losowej jest asymptotycznie równy rozkładowi . Inaczej:
Twierdzenie Centralne tw. graniczne dla średnich
Rozkład zmiennej losowej jest asymptotycznie równy rozkładowi . Inaczej:
Zinterpretujemy twierdzenie Uzupelnic rozsum|, mówiące o rozkładzie sumy niezależnych zmiennych losowych. Wyobraźmy sobie eksperyment polegający na wielokrotnym rzucie kostką do gry. Suma uzyskanych oczek jest zmienną losową mającą, zgodnie z cytowanym twierdzeniem, w przybliżeniu rozkład , gdzie oraz są odpowiednio nadzieją matematyczną oraz odchyleniem standardowym zmiennej losowej , reprezentującej wynik pojedynczego rzutu, a jest liczbą wykonanych prób. Ponieważ ma rozkład dyskretny, skupiony w punktach przyjmowanych z jednakowym prawdopodobieństwem , więc bez
trudu można stwierdzić, że:
Przypuśćmy, że wykonano 1000 rzutów (). Wówczas suma ma w przybliżeniu rozkład .
Zweryfikujmy "doświadczalnie" uzyskany wynik. W tym celu można przeprowadzić symulację tysiąca rzutów kostką za pomocą komputera, uzyskując odpowiednią wartość sumy wszystkich uzyskanych oczek. Doświadczenie to powtórzymy 400 razy, uzyskując wartości sumy oczek. Poniżej przytaczamy kod programu Maple, umożliwiający przeprowadzenie takiej symulacji.
{active}{1d}{kostka := rand(1..6):}{}
{active}{1d}{k := 400: n := 1000: lista := NULL: }{}
{active}{1d}{from 1 to k do S := 0: from 1 to n do S := S + kostka(): od: lista := lista,S od:}{}
Aby graficznie zinterpretować otrzymane dane, najpierw sporządzamy odpowiedni szereg rozdzielczy (rozważamy 18 klas):
{active}{1d}{dane := stats[transform,tallyinto['skrajne']]([lista], [seq(3320 + (i - 1)*20..3320 + i*20, i = 1..18)]);}{}
{inert}{2d}{dane := [Weight(3480 .. 3500,55), Weight(3560 .. 3580,33),
Weight(3660 .. 3680,0), Weight(3340 .. 3360,5), Weight(3540 ..
3560,31), Weight(3640 .. 3660,4), Weight(3360 .. 3380,2), Weight(3520
.. 3540,43), Weight(3420 .. 3440,28), Weight(3620 .. 3640,4),
Weight(3460 .. 3480,53), Weight(3320 .. 3340,0), Weight(3500 ..
3520,66), Weight(3600 .. 3620,10), Weight(3380 .. 3400,8), Weight(3400
.. 3420,13), Weight(3440 .. 3460,28), Weight(3580 .. 3600,17)];}{{
{dane} := [{Weight}(3480 .. 3500, 55),
{Weight}(3560 .. 3580, 33), {Weight}(3660 ..
3680, 0),
{Weight}(3340 .. 3360, 5), {Weight}(3540 ..
3560, 31),
{Weight}(3640 .. 3660, 4), {Weight}(3360 ..
3380, 2),
{Weight}(3520 .. 3540, 43), {Weight}(3420 ..
3440, 28),
{Weight}(3620 .. 3640, 4), {Weight}(3460 ..
3480, 53),
{Weight}(3320 .. 3340, 0), {Weight}(3500 ..
3520, 66),
{Weight}(3600 .. 3620, 10), {Weight}(3380 ..
3400, 8),
{Weight}(3400 .. 3420, 13), {Weight}(3440 ..
3460, 28),
{Weight}(3580 .. 3600, 17)] }
}
Sprawdzamy, czy są sumy, które nie zostały uwzględnione -- sumy te byłyby wpisane na listę o nazwie skrajne:
{active}{1d}{skrajne;}{}
{inert}{2d}{skrajne;}{
}
Okazało się więc, że w tym przypadku wszystkie sumy zostały uwzględnione.
W celu sporządzenia histogramu, dobieramy wysokości słupków tak, aby pola wszystkich słupków dawały w sumie :
{active}{1d}{dane1 := stats[transform, scaleweight[1/nops([lista])]](dane);}{}
{inert}{2d}{dane1 := [Weight(3480 .. 3500,11/80), Weight(3560 .. 3580,33/400),
Weight(3660 .. 3680,0), Weight(3340 .. 3360,1/80), Weight(3540 ..
3560,31/400), Weight(3640 .. 3660,1/100), Weight(3360 .. 3380,1/200),
Weight(3520 .. 3540,43/400), Weight(3420 .. 3440,7/100), Weight(3620
.. 3640,1/100), Weight(3460 .. 3480,53/400), Weight(3320 .. 3340,0),
Weight(3500 .. 3520,33/200), Weight(3600 .. 3620,1/40), Weight(3380 ..
3400,1/50), Weight(3400 .. 3420,13/400), Weight(3440 .. 3460,7/100),
Weight(3580 .. 3600,17/400)];}{{
{dane1} := [{Weight}(3480 .. 3500,
{ {11}{80}} ),
{Weight}(3560 .. 3580, { {33}{400}} )
,
{Weight}(3660 .. 3680, 0),
{Weight}(3340 .. 3360, { {1}{80}} ),
{Weight}(3540 .. 3560, { {31}{400}} )
,
{Weight}(3640 .. 3660, { {1}{100}} )
,
{Weight}(3360 .. 3380, { {1}{200}} )
,
{Weight}(3520 .. 3540, { {43}{400}} )
,
{Weight}(3420 .. 3440, { {7}{100}} )
,
{Weight}(3620 .. 3640, { {1}{100}} )
,
{Weight}(3460 .. 3480, { {53}{400}} )
,
{Weight}(3320 .. 3340, 0),
{Weight}(3500 .. 3520, { {33}{200}} )
,
{Weight}(3600 .. 3620, { {1}{40}} ),
{Weight}(3380 .. 3400, { {1}{50}} )
,
{Weight}(3400 .. 3420, { {13}{400}} )
,
{Weight}(3440 .. 3460, { {7}{100}} )
,
{Weight}(3580 .. 3600, { {17}{400}} )
] }
}
Teraz rysujemy histogram:
{active}{1d}{stats[statplots,histogram](dane1);}{}
tutaj rysunek 94.eps
oraz zachowujemy powyższy wykres:
{active}{1d}{g1 := :}{}
Dla wygody obliczamy jeszcze raz nadzieję i wariancję dla pojedynczej kostki:
{active}{1d}{ek := add(i,i=1..6)/6: vk := add(i^2,i=1..6)/6 - ek^2:}{}
a następnie obliczamy nadzieję i wariancję sumy:
{active}{1d}{es := n*ek; vs := n*vk;}{}
{inert}{2d}{es := 3500;}{
}
{inert}{2d}{vs := 8750/3;}{
}
Przygotowujemy wykres gęstości rozkładu teoretycznego (lecz go jeszcze nie wyświetlamy):
{active}{1d}{g2 := plot(f(es,sqrt(vs)),3320..3680, color=black):}{}
Obliczamy średnią i odchylenie standardowe dla szeregu rozdzielczego:
{active}{1d}{ee := evalf(stats[describe,mean]([lista]));}{}
{inert}{2d}{ee := 3501.587500;}{
}
{active}{1d}{ve := evalf(stats[describe,standarddeviation]([lista]));}{}
{inert}{2d}{ve := 57.07764311;}{
}
Teraz przygotowujemy wykres gęstości rozkładu normalnego o parametrach obliczonych z szeregu rozdzielczego:
{active}{1d}{g3 := plot(f(ee,ve),3320..3680, color=black,thickness=2):}{}
aby następnie wyświetlić, na jednym rysunku, histogram i dwie poprzednio otrzymane gęstości:
{active}{1d}{plots[display](g1,g2,g3);}{}
tutaj rysunek 95.eps
Ponieważ bardzo często zmiennymi losowymi są niezależne próby Bernoulliego, więc sformułujemy centralne twierdzenie graniczne specjalnie dla tego przypadku. Jest to natychmiastowy wniosek z twierdzenia Lindeberga-Levy'ego (twierdzenie Uzupelnic da35|).
Twierdzenie de Moivre'a-Laplace'a
Niech będzie ciągiem niezależnych prób Bernoulliego, z takim samym prawdopodobieństwem sukcesu i porażki w każdej próbie (). Wtedy:
Oczywiście, twierdzenia Uzupelnic rozsum| i Uzupelnic ctgsr| można także z łatwością przeformułować dla przypadku niezależnych prób Bernoulliego.
Wyraźnie zaznaczamy, że centralne twierdzenie graniczne jest prawdziwe przy dużo ogólniejszych założeniach. W szczególności zmienne losowe nie muszą mieć takiego samego rozkładu, a nawet nie muszą być niezależne. Jednakże, różnym wersjom centralnego twierdzenia granicznego przyświeca ta sama idea:
suma niewiele zależnych od siebie składników losowych, z których żaden nie dominuje istotnie nad pozostałymi, ma w przybliżeniu rozkład normalny.