Rachunek prawdopodobieństwa i statystyka/Wykład 9: Rozkład normalny i centralne twierdzenie graniczne: Różnice pomiędzy wersjami

Wersja z 07:55, 23 sie 2006

Rozkład normalny i centralne twierdzenie graniczne

Centralną rolę w rachunku prawdopodobieństwa i statystyce pełni tak zwany rozkład normalny. Związane jest z nim słynne twierdzenie nazywane centralnym twierdzeniem granicznym. Na jego podstawie można w wielu sytuacjach zakładać, że zmienna losowa, którą jesteśmy właśnie zainteresowani, ma rozkład normalny.

Rozkład normalny

Carl Friedrich Gauss (1777-1855)
Zobacz biografię

Chyba najważniejszym ze znanych rozkładów jest tak zwany rozkład

normalny, określany niekiedy jako rozkład Gaussa.

Rozkład $P$ nazywamy rozkładem normalnym, jeżeli istnieją takie liczby rzeczywiste $m$ oraz $σ > 0$ , że funkcja $f : ℝ ⟶ ℝ$ , określona wzorem:

f (x) = \frac{1}{\sqrt{2 π} σ} e^{- \frac{1}{2} (\frac{x - m}{σ})^{2}} dla x \in ℝ,

jest gęstością tego rozkładu.

Stosowana w tym przypadku notacja jest następująca: $N (m, σ)$ oznacza rozkład normalny o parametrach $m$ oraz $σ$ - jego dystrybuantę oznaczamy przez $Φ_{m, σ}$ . Wykres gęstości rozkładu normalnego nosi nazwę krzywej Gaussa.

Poniższy wykres przedstawia gęstości rozkładów $N (20, 1)$ , $N (20, 2)$ i $N (20, 3)$ , przy czym większym wartościom $σ$ odpowiada bardziej stromy wykres.

<flash>file=Rp.1.91.swf|width=350|height=350</flash>

Znaczenie parametru $σ$ ilustruje też następująca animacja

[[ $m = 20$ ]]

Kolejny wykres przedstawia gęstości rozkładów $N (15, 3)$ , $N (20, 3)$ i $N (25, 3)$ .

<flash>file=Rp.1.92.swf|width=350|height=350</flash>

Aby jeszcze lepiej uzmysłowić sobie znaczenie parametru $m$ , proponujemy uruchomić następującą animację

[[ $σ = 2$ ]]

Dystrybuantę $Φ_{0, 1}$ oznaczamy krótko przez $Φ$ . Wyraża się więc ona następującym wzorem:

Φ (x) = \frac{1}{\sqrt{2 π}} \int_{- \infty}^{x} e^{- \frac{1}{2} t^{2}} d t .

Poniższy wykres przedstawia gęstość rozkładu $N (0, 1)$ , który nazywamy standardowym rozkładem normalnym. Zauważmy, że zakreskowany obszar posiada pole równe $Φ (1)$ .

<flash>file=Rp.1.93.swf|width=350|height=350</flash>

Wartości dystrybuanty $Φ$ zostały stablicowane (patrz strona {rnor})oraz są dostępne w wielu komputerowych programach matematycznych lub statystycznych. Oczywiście, pakiety statystyczne programu Maple zawierają odpowiednie procedury (jakie?).

Zwróćmy uwagę na dwie własności funkcji $Φ$ ,posiadające (przede wszystkim) rachunkowe znaczenie. Wynikają one bezpośrednio ze wzoru na dystrybuantę $Φ_{0, 1}$ i mają oczywistą interpretację geometryczną (ćwiczenie). Mianowicie:

Φ (0) = \frac{1}{2} oraz Φ (x) = 1 - Φ (- x) dla każdego x \in ℝ

oraz

Φ^{- 1} (α) = - Φ^{- 1} (1 - α) dla każdego α \in [0, 1] .

Użyteczność powyższych wzorów można zaobserwować zwłaszcza wtedy, gdy nie dysponujemy odpowiednim pakietem komputerowym czy kalkulatorem, ale są one także ważne przy pewnych przekształceniach. Podobnie następna równość, którą można otrzymać stosując prostą zmianę zmiennychAM, pozwala za pomocą $Φ$ obliczać dystrybuanty $Φ_{m, σ}$ dla pozostałych parametrów $m$ i $σ$ . Mianowicie:

Φ_{m, σ} (x) = Φ (\frac{x - m}{σ}) .

Parametry $m$ i $σ$ mają bardzo wyraźną interpretację probabilistyczną. Okazuje się bowiem, iż nadzieja matematyczna oraz wariancja w rozkładzie $N (m, σ)$ wyrażają się wzorami:

Parser nie mógł rozpoznać (błąd składni): {\displaystyle \displaystyle {\Bbb E}(X) = m, \hspace{2cm} {\Bbb D}^2 (X) = \sigma^2. }

Zauważmy też, że $m$ jest punktem, w którym gęstość rozkładu $N (m, σ)$ osiąga wartość największą, prosta $x = m$ jest osią symetrii jej wykresu, zaś punkty $m - σ$ i $m + σ$ - punktami przegięciaAM.

Postaramy się uzasadnić ilościowo, że parametr $σ$ jest miarą "rozrzutu" rozkładu $N (m, σ)$ , względem punktu $m$ . Obliczmy w tym celu:

r_{k} = P (m - k σ, m + k σ) dla k = 1, 2, 3,

gdzie $P$ jest rozkładem $N (m, σ)$ . Otrzymujemy:

r_{k} = Φ_{m, σ} (m + k σ) - Φ_{m, σ} (m - k σ) = Φ (k) - Φ (- k) = 2 Φ (k) - 1 .

Korzystając z tablic lub z komputera, bez trudu dostajemy:

r 1 \approx 0.682689492, r 2 \approx 0.954499736, r 3 \approx 0.997300204 .

Tak więc szansa znajdowania się poza przedziałem $(m - 3 σ, m + 3 σ)$ wynosi istotnie mniej niż $1 %$ . Im mniejszy jest parametr $σ$ , tym bardziej rozkład $N (m, σ)$ jest "skupiony w okolicy" punktu $x = m$ .

Dystrybuanta $Φ$ rozkładu normalnego $N (0, 1)$ . W tablicy podano wartości $Φ (x)$ dla $x \in [0, 3.09]$ .


$x$	0,00	0,01	0,02	0,03	0,04	0,05	0,06	0,07	0,08	0,09
0,0	0,5000	0,5040	0,5080	0,5120	0,5160	0,5199	0,5239	0,5279	0,5319	0,5359
0,1	0,5398	0,5438	0,5478	0,5517	0,5557	0,5596	0,5636	0,5675	0,5714	0,5753
0,2	0,5793	0,5832	0,5871	0,5910	0,5948	0,5987	0,6026	0,6064	0,6103	0,6141
0,3	0,6179	0,6217	0,6255	0,6293	0,6331	0,6368	0,6406	0,6443	0,6480	0,6517
0,4	0,6554	0,6591	0,6628	0,6664	0,6700	0,6736	0,6772	0,6808	0,6844	0,6879
0,5	0,6915	0,6950	0,6985	0,7019	0,7054	0,7088	0,7123	0,7157	0,7190	0,7224
0,6	0,7257	0,7291	0,7324	0,7357	0,7389	0,7422	0,7454	0,7486	0,7517	0,7549
0,7	0,7580	0,7611	0,7642	0,7673	0,7704	0,7734	0,7764	0,7794	0,7823	0,7852
0,8	0,7881	0,7910	0,7939	0,7967	0,7995	0,8023	0,8051	0,8078	0,8106	0,8133
0,9	0,8159	0,8186	0,8212	0,8238	0,8264	0,8289	0,8315	0,8340	0,8365	0,8389
1,0	0,8413	0,8438	0,8461	0,8485	0,8508	0,8531	0,8554	0,8577	0,8599	0,8621
1,1	0,8643	0,8665	0,8686	0,8708	0,8729	0,8749	0,8770	0,8790	0,8810	0,8830
1,2	0,8849	0,8869	0,8888	0,8907	0,8925	0,8944	0,8962	0,8980	0,8997	0,9015
1,3	0,9032	0,9049	0,9066	0,9082	0,9099	0,9115	0,9131	0,9147	0,9162	0,9177
1,4	0,9192	0,9207	0,9222	0,9236	0,9251	0,9265	0,9279	0,9292	0,9306	0,9319
1,5	0,9332	0,9345	0,9357	0,9370	0,9382	0,9394	0,9406	0,9418	0,9429	0,9441
1,6	0,9452	0,9463	0,9474	0,9484	0,9495	0,9505	0,9515	0,9525	0,9535	0,9545
1,7	0,9554	0,9564	0,9573	0,9582	0,9591	0,9599	0,9608	0,9616	0,9625	0,9633
1,8	0,9641	0,9649	0,9656	0,9664	0,9671	0,9678	0,9686	0,9693	0,9699	0,9706
1,9	0,9713	0,9719	0,9726	0,9732	0,9738	0,9744	0,9750	0,9756	0,9761	0,9767
2,0	0,9772	0,9778	0,9783	0,9788	0,9793	0,9798	0,9803	0,9808	0,9812	0,9817
2,1	0,9821	0,9826	0,9830	0,9834	0,9838	0,9842	0,9846	0,9850	0,9854	0,9857
2,2	0,9861	0,9864	0,9868	0,9871	0,9875	0,9878	0,9881	0,9884	0,9887	0,9890
2,3	0,9893	0,9896	0,9898	0,9901	0,9904	0,9906	0,9909	0,9911	0,9913	0,9916
2,4	0,9918	0,9920	0,9922	0,9925	0,9927	0,9929	0,9931	0,9932	0,9934	0,9936
2,5	0,9938	0,9940	0,9941	0,9943	0,9945	0,9946	0,9948	0,9949	0,9951	0,9952
2,6	0,9953	0,9955	0,9956	0,9957	0,9959	0,9960	0,9961	0,9962	0,9963	0,9964
2,7	0,9965	0,9966	0,9967	0,9968	0,9969	0,9970	0,9971	0,9972	0,9973	0,9974
2,8	0,9974	0,9975	0,9976	0,9977	0,9977	0,9978	0,9979	0,9979	0,9980	0,9981
2,9	0,9981	0,9982	0,9982	0,9983	0,9984	0,9984	0,9985	0,9985	0,9986	0,9986
3,0	0,9987	0,9987	0,9987	0,9988	0,9988	0,9989	0,9989	0,9989	0,9990	0,9990

Jak powyżej wspomnieliśmy, rozkład normalny jest bardzo ważnym rozkładem. Dzieje się tak między innymi dlatego, że wiele zjawisk przyrodniczych, społecznych i innych przebiega zgodnie z tym rozkładem. Ma on również olbrzymie znaczenie teoretyczne. Poniżej przedstawiamy tak zwane centralne twierdzenie graniczne, które częściowo wyjaśnia znaczenie rozkładu normalnego. Twierdzenie to gwarantuje, że (pod pewnymi dość naturalnymi założeniami) suma dużej ilości niezależnych zmiennych losowych ma w przybliżeniu rozkład normalny. Na zakończenie tego punktu wypowiemy jeszcze jedno ważne twierdzenie dotyczące rozkładu normalnego.

Twierdzenie 9.2.

Niech $X_{1}$ oraz $X_{2}$ będą niezależnymi zmiennymi losowymi o rozkładach normalnych, odpowiednio $N (m_{1}, σ_{1})$ oraz $N (m_{2}, σ_{2})$ .

Wtedy:

$X_{1} + X_{2} \sim N (m_{1} + m_{2}, \sqrt{σ_{1}^{2} + σ_{2}^{2}})$ ,
$a X_{1} + b \sim N (a m_{1} + b, | a | σ_{1})$ dla wszystkich $a, b \in ℝ$ .

Centralne twierdzenie graniczne

Prawa wielkich liczb mówią o zbieżności średnich arytmetycznych, interpretowanych czasem jako średnie czasowe, niezależnych zmiennych losowych. Twierdzenia te mają olbrzymią wartość poznawczą, jednak ich wartość praktyczna jest nieco mniejsza. W szczególności, prawa wielkich liczb nie dają żadnej informacji o rozkładzie sumy zmiennych losowych, podczas gdy w wielu konkretnych zagadnieniach znajomość rozkładu ma podstawowe znaczenie. Właśnie centralne twierdzenie graniczne pozwala rozwiązać ten problem. Jak już wspominaliśmy, wynika z niego, że suma niezależnych zmiennych losowych spełniających zupełnie naturalne warunki ma w przybliżeniu rozkład normalny.

Ze względu na wagę centralnego twierdzenia granicznego wypowiemy je w trzech wersjach. Pierwsza z nich - do niedawna najczęściej używana - ma w dobie komputerów mniejsze znaczenie praktyczne,jednak w dalszym ciągu jest najbardziej popularna.

Założenie.

$(Ω, Σ, P)$ jest przestrzenią probabilistyczną, zaś $X_{1}, X_{2}, X_{3}, \dots$ - ciągiem niezależnych zmiennych losowych określonych na $Ω .$ . Wszystkie zmienne losowe $X_{i}$ mają taki sam rozkład, a ich wspólna nadzieja matematyczna $m$ oraz wariancja $σ^{2}$ istnieją i są skończone, przy czym $σ > 0$ (ten ostatni warunek oznacza, że zmienne losowe nie są stałymi). Jak zawsze oznaczamy:

S_{n} = X_{1} + \dots + X_{n} .

Będziemy badać najpierw zbieżność tak zwanych sum standaryzowanych, a dopiero potem wyciągniemy wnioski dotyczące samych sum $S_{n}$ oraz średnich $\frac{S_{n}}{n}$ .

Zmienną losową:

Z_{n} : = \frac{S_{n} - E (S_{n})}{\sqrt{D^{2} (S_{n})}} = \frac{S_{n} - n m}{σ \sqrt{n}}

nazywamy standaryzacją sumy $S_{n} .$ Jak łatwo zauważyć:

E (Z_{n}) = 0 oraz D^{2} (S_{n}) = 1 .

Twierdzenie 9.3.[Lindeberga-Levy'ego]

rys.zdjęcie Levy`ego

Dla każdego $x \in ℝ$ zachodzi równość:

\lim_{n \to \infty} P (Z_{n} \leq x) = Φ (x),

gdzie $Φ$ jest dystrybuantą rozkładu $N (0, 1)$ .

Dowód tego twierdzenia jest długi i skomplikowany, więc nie przytaczamy go tutaj.

Twierdzenie Lindeberga-Levy'ego można wypowiedzieć w wersjach bardziej naturalnych - bez używania standaryzacji $Z_{n}$ .

Twierdzenie 9.4.[Centralne tw. graniczne dla sum]

Rozkład zmiennej losowej $S_{n}$ jest asymptotycznie równy rozkładowi $N (n m, σ \sqrt{n})$ . Inaczej:

\lim_{n \to \infty} (F_{S_{n}} (x) - Φ_{n m, σ \sqrt{n}} (x)) = 0,

dla

x \in ℝ .

Twierdzenie 9.5.[Centralne tw. graniczne dla średnich]

Rozkład zmiennej losowej $S_{n}$ jest asymptotycznie równy rozkładowi $N (m, \frac{σ}{\sqrt{n}})$ . Inaczej:

\lim_{n \to \infty} (F_{\frac{S_{n}}{n}} (x) - Φ_{m, \frac{σ}{\sqrt{n}}} (x)) = 0,

dla

x \in ℝ .

Szablon:Przykład ),

{Weight}(3540 .. 3560, { {31}{400}} ) ,
{Weight}(3640 .. 3660, { {1}{100}} ) , {Weight}(3360 .. 3380, { {1}{200}} ) , {Weight}(3520 .. 3540, { {43}{400}} ) ,
{Weight}(3420 .. 3440, { {7}{100}} ) , {Weight}(3620 .. 3640, { {1}{100}} ) , {Weight}(3460 .. 3480, { {53}{400}} ) ,
{Weight}(3320 .. 3340, 0), {Weight}(3500 .. 3520, { {33}{200}} ) , {Weight}(3600 .. 3620, { {1}{40}} ),
{Weight}(3380 .. 3400, { {1}{50}} ) , {Weight}(3400 .. 3420, { {13}{400}} ) , {Weight}(3440 .. 3460, { {7}{100}} ) ,
{Weight}(3580 .. 3600, { {17}{400}} ) ]

Teraz rysujemy histogram:

{active}{1d}{stats[statplots,histogram](dane1);}{}

<flash>file=Rp.1.94.swf|width=350|height=350</flash>

oraz zachowujemy powyższy wykres:

{active}{1d}{g1 := :}{}

Dla wygody obliczamy jeszcze raz nadzieję i wariancję dla pojedynczej kostki:

{active}{1d}{ek := add(i,i=1..6)/6: vk := add(i^2,i=1..6)/6 - ek^2:}{}

a następnie obliczamy nadzieję i wariancję sumy:

{active}{1d}{es := n*ek; vs := n*vk;}{}

{inert}{2d}{es := 3500;}{

e s : = 3500

{inert}{2d}{vs := 8750/3;}{

v s : = \frac{8750}{3}

Przygotowujemy wykres gęstości rozkładu teoretycznego (lecz go jeszcze nie wyświetlamy):

{active}{1d}{g2 := plot(f(es,sqrt(vs)),3320..3680, color=black):}{}

Obliczamy średnią i odchylenie standardowe dla szeregu rozdzielczego:

{active}{1d}{ee := evalf(stats[describe,mean]([lista]));}{}

{inert}{2d}{ee := 3501.587500;}{

e e : = 3501.587500

}

{active}{1d}{ve := evalf(stats[describe,standarddeviation]([lista]));}{}

{inert}{2d}{ve := 57.07764311;}{

v e : = 57.07764311

}

Teraz przygotowujemy wykres gęstości rozkładu normalnego o parametrach obliczonych z szeregu rozdzielczego:

{active}{1d}{g3 := plot(f(ee,ve),3320..3680, color=black,thickness=2):}{}

aby następnie wyświetlić, na jednym rysunku, histogram i dwie poprzednio otrzymane gęstości:

{active}{1d}{plots[display](g1,g2,g3);}{}

<flash>file=Rp.1.95.swf|width=350|height=350</flash>

Ponieważ bardzo często zmiennymi losowymi są niezależne próby Bernoulliego, więc sformułujemy centralne twierdzenie graniczne specjalnie dla tego przypadku. Jest to natychmiastowy wniosek z twierdzenia Lindeberga-Levy'ego (twierdzenie Uzupelnic da35|).

Twierdzenie de Moivre'a-Laplace'a

Niech $X_{1}, X_{2}, X_{3}, \dots$ będzie ciągiem niezależnych prób Bernoulliego, z takim samym prawdopodobieństwem sukcesu $p$ i porażki $q = 1 - p$ w każdej próbie ( $0 < p < 1$ ). Wtedy:

P (\frac{S_{n} - n p}{\sqrt{n p q}} \leq x) ⟶ Φ (x),

dla każdego

x \in ℝ

.

Oczywiście, twierdzenia Uzupelnic rozsum| i Uzupelnic ctgsr| można także z łatwością przeformułować dla przypadku niezależnych prób Bernoulliego.

Uwaga 9.8.

Wyraźnie zaznaczamy, że centralne twierdzenie graniczne jest prawdziwe przy dużo ogólniejszych założeniach. W szczególności zmienne losowe nie muszą mieć takiego samego rozkładu, a nawet nie muszą być niezależne. Jednakże, różnym wersjom centralnego twierdzenia granicznego przyświeca ta sama idea:

suma niewiele zależnych od siebie składników losowych, z których żaden nie dominuje istotnie nad pozostałymi, ma w przybliżeniu rozkład normalny.

@@ Linia 300: / Linia 300: @@
 {{twierdzenie|9.3.[Lindeberga-Levy'ego]||
+[[rys.zdjęcie Levy`ego]]
 Dla każdego <math>\displaystyle x \in  {\Bbb R}</math> zachodzi równość:
@@ Linia 346: / Linia 348: @@
 \in  {\Bbb R}.</math> }}
-{{przykład|9.6.||
+{{przykład|9.6.|
 Zinterpretujemy twierdzenie, mówiące
@@ Linia 360: / Linia 362: @@
 <math>\displaystyle X</math>  ma rozkład dyskretny,  skupiony  w  punktach
 <math>\displaystyle 1,2,3,4,5,6</math>  przyjmowanych  z jednakowym
-prawdopodobieństwem   <math>\displaystyle \frac{1}{6}</math>,   więc   bez
+prawdopodobieństwem   <math>\displaystyle \frac{1}{6}</math>, więc   bez
-trudu    można stwierdzić, że: <center><math>\displaystyle m =  3.5 \;\;\textrm{oraz}\;\; \sigma  =
+trudu    można stwierdzić, że:
-\frac{\sqrt{105}}{6}  \approx  1.7078251.</math></center>
-Przypuśćmy, że
+<center><math>\displaystyle
-wykonano 1000 rzutów (<math>\displaystyle n = 1000</math>). Wówczas  suma <math>\displaystyle S_{1000}</math>
+m =  3.5 \;\;\textrm{oraz}\;\; \sigma  =
+\frac{\sqrt{105}}{6}  \approx  1.7078251.
+</math></center>
+Przypuśćmy, że wykonano 1000 rzutów (<math>\displaystyle n = 1000</math>). Wówczas  suma <math>\displaystyle S_{1000}</math>
 ma w przybliżeniu rozkład <math>\displaystyle N(3500,54,00617)</math>.
@@ Linia 478: / Linia 484: @@
 ,  <br>
 {Weight}(3580 .. 3600, {  {17}{400}} )
-] }
+]
-}
 Teraz rysujemy histogram:
@@ Linia 507: / Linia 513: @@
 </math></center>
-}
 {inert}{2d}{vs :<nowiki>=</nowiki> 8750/3;}{
-<center><math>\displaystyle \mathit{vs} := {\displaystyle \frac {8750}{3}}
+<center><math>\displaystyle
+\mathit{vs} := {\displaystyle \frac {8750}{3}}
 </math></center>
-}
 Przygotowujemy wykres gęstości rozkładu teoretycznego (lecz go

Rachunek prawdopodobieństwa i statystyka/Wykład 9: Rozkład normalny i centralne twierdzenie graniczne: Różnice pomiędzy wersjami

Wersja z 07:55, 23 sie 2006

Rozkład normalny i centralne twierdzenie graniczne

Rozkład normalny

Centralne twierdzenie graniczne

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia