Rachunek prawdopodobieństwa i statystyka/Wykład 9: Rozkład normalny i centralne twierdzenie graniczne: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Pitab (dyskusja | edycje)
Linia 9: Linia 9:
==Rozkład normalny==
==Rozkład normalny==


[[grafika:Gauss.jpg|thumb|right||Carl Friedrich Gauss (1777-1855)<br>[[Biografia Gauss|Zobacz biografię]]]]Chyba najważniejszym ze znanych rozkładów jest tak zwany rozkład
[[grafika:Gauss.jpg|thumb|right||Carl Friedrich Gauss (1777-1855)<br>[[Biografia Gauss|Zobacz biografię]]]]Chyba najważniejszym ze znanych rozkładów jest tak zwany rozkład normalny, określany niekiedy jako rozkład Gaussa.
normalny, określany niekiedy jako rozkład Gaussa.


Rozkład <math>\displaystyle P</math> nazywamy rozkładem normalnym,  jeżeli
Rozkład <math>\displaystyle P</math> nazywamy rozkładem normalnym,  jeżeli
istnieją takie liczby rzeczywiste <math>\displaystyle m</math> oraz <math>\displaystyle \sigma>0</math>, że funkcja
istnieją takie liczby rzeczywiste <math>\displaystyle m</math> oraz <math>\displaystyle \sigma>0</math>, że funkcja
<math>\displaystyle f\colon {\Bbb R}\longrightarrow {\Bbb R}</math>, określona wzorem:
<math>\displaystyle f\colon {\Bbb R}\longrightarrow {\Bbb R}</math>, określona wzorem:


<center><math>
<center><math>
Linia 21: Linia 21:
- m}{\sigma})^2}\;\;\mbox{ dla } x\in {\Bbb R},
- m}{\sigma})^2}\;\;\mbox{ dla } x\in {\Bbb R},
</math></center>
</math></center>


jest gęstością tego rozkładu.
jest gęstością tego rozkładu.
Linia 38: Linia 39:
</center>
</center>


Znaczenie parametru <math>\displaystyle \sigma</math> ilustruje też następująca animacja  
Znaczenie parametru <math>\displaystyle \sigma</math> ilustruje też następująca animacja (tutaj <math>\displaystyle m = 20</math>)


[[<math>\displaystyle m = 20</math>]]
[[animacja 91.gif]]


Kolejny wykres przedstawia gęstości rozkładów
Kolejny wykres przedstawia gęstości rozkładów
Linia 49: Linia 50:
</center>
</center>


Aby jeszcze lepiej uzmysłowić sobie  znaczenie parametru <math>\displaystyle m</math>, proponujemy uruchomić następującą animację
Aby jeszcze lepiej uzmysłowić sobie  znaczenie parametru <math>\displaystyle m</math>, proponujemy uruchomić następującą animację (<math>\displaystyle \sigma = 2</math>)


[[<math>\displaystyle \sigma = 2</math>]]  
[[animacja 91.gif]]


<span id="dystrybuanta">Dystrybuantę</span> <math>\displaystyle \Phi_{0,1}</math>
<span id="dystrybuanta">Dystrybuantę</span> <math>\displaystyle \Phi_{0,1}</math>
oznaczamy krótko przez <math>\displaystyle \Phi</math>. Wyraża się więc ona następującym wzorem:
oznaczamy krótko przez <math>\displaystyle \Phi</math>. Wyraża się więc ona następującym wzorem:


<center><math>\displaystyle  
 
{{wzor|9.1|9.1|
<math>\displaystyle  
\Phi(x)                  =                  \frac{1}{\sqrt{2\pi}}
\Phi(x)                  =                  \frac{1}{\sqrt{2\pi}}
\int_{-\infty}^xe^{-\frac{1}{2}t^2}dt.
\int_{-\infty}^xe^{-\frac{1}{2}t^2}dt.
</math></center>
</math>}}
 


Poniższy wykres przedstawia gęstość rozkładu
Poniższy wykres przedstawia gęstość rozkładu
Linia 76: Linia 80:
funkcji <math>\displaystyle \Phi</math>,posiadające (przede wszystkim)
funkcji <math>\displaystyle \Phi</math>,posiadające (przede wszystkim)
rachunkowe znaczenie. Wynikają one
rachunkowe znaczenie. Wynikają one
bezpośrednio ze wzoru na [[#dystrybuanta|dystrybuantę]] <math>\displaystyle \Phi_{0,1}</math>
bezpośrednio ze wzoru na [[#9.1|9.1]] <math>\displaystyle \Phi_{0,1}</math>
i mają oczywistą interpretację geometryczną (ćwiczenie). Mianowicie:
i mają oczywistą interpretację geometryczną (ćwiczenie). Mianowicie:


<center><math>\displaystyle  
<center><math>\displaystyle  
Linia 83: Linia 88:
(x) = 1 - \Phi (-x) \mbox{ dla każdego } x \in {\Bbb R}
(x) = 1 - \Phi (-x) \mbox{ dla każdego } x \in {\Bbb R}
</math></center>
</math></center>


oraz
oraz


<center><math>\displaystyle  
<center><math>\displaystyle  
\Phi^{-1} (\alpha) = -\Phi^{-1}(1-\alpha) \mbox{ dla każdego } \alpha \in [0,1].
\Phi^{-1} (\alpha) = -\Phi^{-1}(1-\alpha) \mbox{ dla każdego } \alpha \in [0,1].
</math></center>
</math></center>


Użyteczność powyższych wzorów można zaobserwować zwłaszcza wtedy, gdy nie
Użyteczność powyższych wzorów można zaobserwować zwłaszcza wtedy, gdy nie
Linia 94: Linia 102:
kalkulatorem, ale są one także ważne przy pewnych
kalkulatorem, ale są one także ważne przy pewnych
przekształceniach. Podobnie następna równość, którą
przekształceniach. Podobnie następna równość, którą
można otrzymać stosując prostą  zmianę zmiennych[[AM]], pozwala za
można otrzymać stosując prostą  zmianę zmiennych [AM], pozwala za
pomocą <math>\displaystyle \Phi</math> obliczać dystrybuanty
pomocą <math>\displaystyle \Phi</math> obliczać dystrybuanty
<math>\displaystyle \Phi_{m,\sigma}</math> dla pozostałych parametrów <math>\displaystyle m</math> i <math>\displaystyle \sigma</math>. Mianowicie:
<math>\displaystyle \Phi_{m,\sigma}</math> dla pozostałych parametrów <math>\displaystyle m</math> i <math>\displaystyle \sigma</math>. Mianowicie:


<center><math>\displaystyle  
 
{{wzor|9.2|9.2|
<math>\displaystyle  
\Phi_{m,\sigma}(x) = \Phi\left(\frac{x-m}{\sigma}\right).
\Phi_{m,\sigma}(x) = \Phi\left(\frac{x-m}{\sigma}\right).
</math></center>
</math>}}
 


Parametry  <math>\displaystyle m</math> i <math>\displaystyle \sigma</math> mają bardzo wyraźną interpretację
Parametry  <math>\displaystyle m</math> i <math>\displaystyle \sigma</math> mają bardzo wyraźną interpretację
Linia 106: Linia 117:
matematyczna oraz wariancja w rozkładzie <math>\displaystyle N(m,\sigma)</math>
matematyczna oraz wariancja w rozkładzie <math>\displaystyle N(m,\sigma)</math>
wyrażają się wzorami:
wyrażają się wzorami:


<center><math>\displaystyle  
<center><math>\displaystyle  
{\Bbb E}(X) = m, \hspace{2cm} {\Bbb D}^2 (X) = \sigma^2.
{\Bbb E}(X) = m, \hspace{2cm} {\Bbb D}^2 (X) = \sigma^2.
</math></center>
</math></center>


Zauważmy też, że <math>\displaystyle m</math> jest punktem, w którym  gęstość
Zauważmy też, że <math>\displaystyle m</math> jest punktem, w którym  gęstość
rozkładu <math>\displaystyle N(m,\sigma)</math> osiąga wartość
rozkładu <math>\displaystyle N(m,\sigma)</math> osiąga wartość
największą, prosta <math>\displaystyle x = m</math> jest osią symetrii jej wykresu,
największą, prosta <math>\displaystyle x = m</math> jest osią symetrii jej wykresu,
zaś punkty  <math>\displaystyle m-  \sigma </math> i  <math>\displaystyle m+\sigma</math> - punktami
zaś punkty  <math>\displaystyle m-  \sigma </math> i  <math>\displaystyle m+\sigma</math> - punktami
przegięcia[[AM]].
przegięcia [AM].


{{przyklad|9.1|przy 9.1|
Postaramy się uzasadnić ilościowo, że  parametr  <math>\displaystyle \sigma</math>
Postaramy się uzasadnić ilościowo, że  parametr  <math>\displaystyle \sigma</math>
jest miarą "rozrzutu" rozkładu
jest miarą "rozrzutu" rozkładu
<math>\displaystyle N(m,\sigma)</math>, względem punktu <math>\displaystyle m</math>. Obliczmy w tym celu:
<math>\displaystyle N(m,\sigma)</math>, względem punktu <math>\displaystyle m</math>. Obliczmy w tym celu:


<center><math>\displaystyle  
<center><math>\displaystyle  
r_k = P(m - k\sigma,m +k\sigma) \;\;\mbox{ dla } k =1,2,3,
r_k = P(m - k\sigma,m +k\sigma) \;\;\mbox{ dla } k =1,2,3,
</math></center>
</math></center>


gdzie <math>\displaystyle P</math> jest rozkładem <math>\displaystyle N(m,\sigma)</math>.
gdzie <math>\displaystyle P</math> jest rozkładem <math>\displaystyle N(m,\sigma)</math>.
Otrzymujemy:
Otrzymujemy:


<center><math>\displaystyle  
<center><math>\displaystyle  
Linia 132: Linia 149:
= \Phi(k) - \Phi(-k) = 2\Phi(k) - 1.
= \Phi(k) - \Phi(-k) = 2\Phi(k) - 1.
</math></center>
</math></center>


Korzystając z tablic lub z komputera, bez trudu dostajemy:
Korzystając z tablic lub z komputera, bez trudu dostajemy:


<center><math>\displaystyle  
<center><math>\displaystyle  
r1 \approx 0.682689492, \;\;r2 \approx 0.954499736, \;\;r3 \approx 0.997300204.
r1 \approx 0.682689492, \;\;r2 \approx 0.954499736, \;\;r3 \approx 0.997300204.
</math></center>
</math></center>


Tak  więc  szansa znajdowania się poza przedziałem  <math>\displaystyle (m  -3\sigma,\;m  +
Tak  więc  szansa znajdowania się poza przedziałem  <math>\displaystyle (m  -3\sigma,\;m  +
Linia 147: Linia 167:


Dystrybuanta <math>\displaystyle \Phi</math> rozkładu
Dystrybuanta <math>\displaystyle \Phi</math> rozkładu
normalnego <math>\displaystyle N(0,1)</math>. W tablicy podano wartości
normalnego <math>\displaystyle N(0,1)</math><ref>W tablicy podano wartości
<math>\displaystyle \Phi(x)</math> dla <math>\displaystyle x\in [0, 3.09]</math>.
<math>\displaystyle \Phi(x)</math> dla <math>\displaystyle x\in [0, 3.09]</math>.</ref>
 


{| border=1
{| border=1
Linia 232: Linia 253:
normalny. Na zakończenie tego punktu wypowiemy jeszcze jedno ważne twierdzenie dotyczące rozkładu normalnego.
normalny. Na zakończenie tego punktu wypowiemy jeszcze jedno ważne twierdzenie dotyczące rozkładu normalnego.


{{twierdzenie|9.2.||
{{twierdzenie|9.2.|tw 9.2|
 
Niech <math>\displaystyle X_1</math> oraz <math>\displaystyle X_2</math> będą niezależnymi zmiennymi losowymi o rozkładach normalnych, odpowiednio <math>\displaystyle N(m_1,\sigma_1)</math> oraz <math>\displaystyle N(m_2,\sigma_2)</math>.
Niech <math>\displaystyle X_1</math> oraz <math>\displaystyle X_2</math> będą niezależnymi zmiennymi losowymi o rozkładach normalnych, odpowiednio <math>\displaystyle N(m_1,\sigma_1)</math> oraz <math>\displaystyle N(m_2,\sigma_2)</math>.
   
   

Wersja z 17:30, 23 sie 2006

Rozkład normalny i centralne twierdzenie graniczne

Centralną rolę w rachunku prawdopodobieństwa i statystyce pełni tak zwany rozkład normalny. Związane jest z nim słynne twierdzenie nazywane centralnym twierdzeniem granicznym. Na jego podstawie można w wielu sytuacjach zakładać, że zmienna losowa, którą jesteśmy właśnie zainteresowani, ma rozkład normalny.

Rozkład normalny

Carl Friedrich Gauss (1777-1855)
Zobacz biografię

Chyba najważniejszym ze znanych rozkładów jest tak zwany rozkład normalny, określany niekiedy jako rozkład Gaussa.

Rozkład P nazywamy rozkładem normalnym, jeżeli istnieją takie liczby rzeczywiste m oraz σ>0, że funkcja f:, określona wzorem:


f(x)=12πσe12(xmσ)2 dla x,


jest gęstością tego rozkładu.

Stosowana w tym przypadku notacja jest następująca: N(m,σ) oznacza rozkład normalny o parametrach m oraz σ - jego dystrybuantę oznaczamy przez Φm,σ. Wykres gęstości rozkładu normalnego nosi nazwę krzywej Gaussa.

Poniższy wykres przedstawia gęstości rozkładów N(20,1), N(20,2) i N(20,3), przy czym większym wartościom σ odpowiada bardziej stromy wykres.

<flash>file=Rp.1.91.swf|width=350|height=350</flash>

Znaczenie parametru σ ilustruje też następująca animacja (tutaj m=20)

animacja 91.gif

Kolejny wykres przedstawia gęstości rozkładów N(15,3), N(20,3) i N(25,3).

<flash>file=Rp.1.92.swf|width=350|height=350</flash>

Aby jeszcze lepiej uzmysłowić sobie znaczenie parametru m, proponujemy uruchomić następującą animację (σ=2)

animacja 91.gif

Dystrybuantę Φ0,1 oznaczamy krótko przez Φ. Wyraża się więc ona następującym wzorem:


Φ(x)=12πxe12t2dt.      (9.1)


Poniższy wykres przedstawia gęstość rozkładu N(0,1), który nazywamy standardowym rozkładem normalnym. Zauważmy, że zakreskowany obszar posiada pole równe Φ(1).

<flash>file=Rp.1.93.swf|width=350|height=350</flash>

Wartości dystrybuanty Φ zostały stablicowane (patrz strona {rnor})oraz są dostępne w wielu komputerowych programach matematycznych lub statystycznych. Oczywiście, pakiety statystyczne programu Maple zawierają odpowiednie procedury (jakie?).

Zwróćmy uwagę na dwie własności funkcji Φ,posiadające (przede wszystkim) rachunkowe znaczenie. Wynikają one bezpośrednio ze wzoru na 9.1 Φ0,1 i mają oczywistą interpretację geometryczną (ćwiczenie). Mianowicie:


Φ(0)=12 oraz Φ(x)=1Φ(x) dla każdego x


oraz


Φ1(α)=Φ1(1α) dla każdego α[0,1].


Użyteczność powyższych wzorów można zaobserwować zwłaszcza wtedy, gdy nie dysponujemy odpowiednim pakietem komputerowym czy kalkulatorem, ale są one także ważne przy pewnych przekształceniach. Podobnie następna równość, którą można otrzymać stosując prostą zmianę zmiennych [AM], pozwala za pomocą Φ obliczać dystrybuanty Φm,σ dla pozostałych parametrów m i σ. Mianowicie:


Φm,σ(x)=Φ(xmσ).      (9.2)


Parametry m i σ mają bardzo wyraźną interpretację probabilistyczną. Okazuje się bowiem, iż nadzieja matematyczna oraz wariancja w rozkładzie N(m,σ) wyrażają się wzorami:


Parser nie mógł rozpoznać (błąd składni): {\displaystyle \displaystyle {\Bbb E}(X) = m, \hspace{2cm} {\Bbb D}^2 (X) = \sigma^2. }


Zauważmy też, że m jest punktem, w którym gęstość rozkładu N(m,σ) osiąga wartość największą, prosta x=m jest osią symetrii jej wykresu, zaś punkty mσ i m+σ - punktami przegięcia [AM].

Przykład 9.1

Postaramy się uzasadnić ilościowo, że parametr σ jest miarą "rozrzutu" rozkładu N(m,σ), względem punktu m. Obliczmy w tym celu:


rk=P(mkσ,m+kσ) dla k=1,2,3,


gdzie P jest rozkładem N(m,σ). Otrzymujemy:


rk=Φm,σ(m+kσ)Φm,σ(mkσ)=Φ(k)Φ(k)=2Φ(k)1.


Korzystając z tablic lub z komputera, bez trudu dostajemy:


r10.682689492,r20.954499736,r30.997300204.


Tak więc szansa znajdowania się poza przedziałem (m3σ,m+3σ) wynosi istotnie mniej niż 1%. Im mniejszy jest parametr σ, tym bardziej rozkład N(m,σ) jest "skupiony w okolicy" punktu x=m.


Dystrybuanta Φ rozkładu normalnego N(0,1)<ref>W tablicy podano wartości Φ(x) dla x[0,3.09].</ref>


{

),

{Weight}(3540 .. 3560, { {31}{400}} ) ,
{Weight}(3640 .. 3660, { {1}{100}} ) , {Weight}(3360 .. 3380, { {1}{200}} ) , {Weight}(3520 .. 3540, { {43}{400}} ) ,
{Weight}(3420 .. 3440, { {7}{100}} ) , {Weight}(3620 .. 3640, { {1}{100}} ) , {Weight}(3460 .. 3480, { {53}{400}} ) ,
{Weight}(3320 .. 3340, 0), {Weight}(3500 .. 3520, { {33}{200}} ) , {Weight}(3600 .. 3620, { {1}{40}} ),
{Weight}(3380 .. 3400, { {1}{50}} ) , {Weight}(3400 .. 3420, { {13}{400}} ) , {Weight}(3440 .. 3460, { {7}{100}} ) ,
{Weight}(3580 .. 3600, { {17}{400}} ) ]


Teraz rysujemy histogram:

{active}{1d}{stats[statplots,histogram](dane1);}{}

<flash>file=Rp.1.94.swf|width=350|height=350</flash>

oraz zachowujemy powyższy wykres:

{active}{1d}{g1 := :}{}

Dla wygody obliczamy jeszcze raz nadzieję i wariancję dla pojedynczej kostki:

{active}{1d}{ek := add(i,i=1..6)/6: vk := add(i^2,i=1..6)/6 - ek^2:}{}

a następnie obliczamy nadzieję i wariancję sumy:

{active}{1d}{es := n*ek; vs := n*vk;}{}

{inert}{2d}{es := 3500;}{

es:=3500


{inert}{2d}{vs := 8750/3;}{

vs:=87503


Przygotowujemy wykres gęstości rozkładu teoretycznego (lecz go jeszcze nie wyświetlamy):

{active}{1d}{g2 := plot(f(es,sqrt(vs)),3320..3680, color=black):}{}

Obliczamy średnią i odchylenie standardowe dla szeregu rozdzielczego:

{active}{1d}{ee := evalf(stats[describe,mean]([lista]));}{}

{inert}{2d}{ee := 3501.587500;}{

ee:=3501.587500

}

{active}{1d}{ve := evalf(stats[describe,standarddeviation]([lista]));}{}

{inert}{2d}{ve := 57.07764311;}{

ve:=57.07764311

}

Teraz przygotowujemy wykres gęstości rozkładu normalnego o parametrach obliczonych z szeregu rozdzielczego:

{active}{1d}{g3 := plot(f(ee,ve),3320..3680, color=black,thickness=2):}{}

aby następnie wyświetlić, na jednym rysunku, histogram i dwie poprzednio otrzymane gęstości:

{active}{1d}{plots[display](g1,g2,g3);}{}

<flash>file=Rp.1.95.swf|width=350|height=350</flash>

Ponieważ bardzo często zmiennymi losowymi są niezależne próby Bernoulliego, więc sformułujemy centralne twierdzenie graniczne specjalnie dla tego przypadku. Jest to natychmiastowy wniosek z twierdzenia Lindeberga-Levy'ego (twierdzenie Uzupelnic da35|).

Twierdzenie de Moivre'a-Laplace'a

Niech X1,X2,X3, będzie ciągiem niezależnych prób Bernoulliego, z takim samym prawdopodobieństwem sukcesu p i porażki q=1p w każdej próbie (0<p<1). Wtedy:

P(Snnpnpqx)Φ(x),
dla każdego x.

Oczywiście, twierdzenia Uzupelnic rozsum| i Uzupelnic ctgsr| można także z łatwością przeformułować dla przypadku niezależnych prób Bernoulliego.

Uwaga 9.8.

Wyraźnie zaznaczamy, że centralne twierdzenie graniczne jest prawdziwe przy dużo ogólniejszych założeniach. W szczególności zmienne losowe nie muszą mieć takiego samego rozkładu, a nawet nie muszą być niezależne. Jednakże, różnym wersjom centralnego twierdzenia granicznego przyświeca ta sama idea:

suma niewiele zależnych od siebie składników losowych, z których żaden nie dominuje istotnie nad pozostałymi, ma w przybliżeniu rozkład normalny.