Rachunek prawdopodobieństwa i statystyka/Wykład 9: Rozkład normalny i centralne twierdzenie graniczne
Rozkład normalny i centralne twierdzenie graniczne
Centralną rolę w rachunku prawdopodobieństwa i statystyce pełni tak zwany rozkład normalny. Związane jest z nim słynne twierdzenie nazywane centralnym twierdzeniem granicznym. Na jego podstawie można w wielu sytuacjach zakładać, że zmienna losowa, którą jesteśmy właśnie zainteresowani, ma rozkład normalny.
Rozkład normalny

Zobacz biografię
Chyba najważniejszym ze znanych rozkładów jest tak zwany rozkład normalny, określany niekiedy jako rozkład Gaussa.
Rozkład nazywamy rozkładem normalnym, jeżeli istnieją takie liczby rzeczywiste oraz , że funkcja , określona wzorem:
jest gęstością tego rozkładu.
Stosowana w tym przypadku notacja jest następująca: oznacza rozkład normalny o parametrach oraz - jego dystrybuantę oznaczamy przez . Wykres gęstości rozkładu normalnego nosi nazwę krzywej Gaussa.
Poniższy wykres przedstawia gęstości rozkładów , i , przy czym większym wartościom odpowiada bardziej stromy wykres.
<flash>file=Rp.1.91.swf|width=350|height=350</flash>
Znaczenie parametru ilustruje też następująca animacja (tutaj )
Kolejny wykres przedstawia gęstości rozkładów , i .
<flash>file=Rp.1.92.swf|width=350|height=350</flash>
Aby jeszcze lepiej uzmysłowić sobie znaczenie parametru , proponujemy uruchomić następującą animację ()
Dystrybuantę oznaczamy krótko przez . Wyraża się więc ona następującym wzorem:
(9.1)
Poniższy wykres przedstawia gęstość rozkładu
, który nazywamy standardowym rozkładem normalnym. Zauważmy, że zakreskowany obszar posiada pole równe .
<flash>file=Rp.1.93.swf|width=350|height=350</flash>
Wartości dystrybuanty zostały stablicowane (patrz strona {rnor})oraz są dostępne w wielu komputerowych programach matematycznych lub statystycznych. Oczywiście, pakiety statystyczne programu Maple zawierają odpowiednie procedury (jakie?).
Zwróćmy uwagę na dwie własności funkcji ,posiadające (przede wszystkim) rachunkowe znaczenie. Wynikają one bezpośrednio ze wzoru na 9.1 i mają oczywistą interpretację geometryczną (ćwiczenie). Mianowicie:
oraz
Użyteczność powyższych wzorów można zaobserwować zwłaszcza wtedy, gdy nie
dysponujemy odpowiednim pakietem komputerowym czy
kalkulatorem, ale są one także ważne przy pewnych
przekształceniach. Podobnie następna równość, którą
można otrzymać stosując prostą zmianę zmiennych [AM], pozwala za
pomocą obliczać dystrybuanty
dla pozostałych parametrów i . Mianowicie:
(9.2)
Parametry i mają bardzo wyraźną interpretację
probabilistyczną. Okazuje się bowiem, iż nadzieja
matematyczna oraz wariancja w rozkładzie
wyrażają się wzorami:
Zauważmy też, że jest punktem, w którym gęstość
rozkładu osiąga wartość
największą, prosta jest osią symetrii jej wykresu,
zaś punkty i - punktami
przegięcia [AM].
Przykład 9.1
Postaramy się uzasadnić ilościowo, że parametr jest miarą "rozrzutu" rozkładu , względem punktu . Obliczmy w tym celu:
gdzie jest rozkładem .
Otrzymujemy:
Korzystając z tablic lub z komputera, bez trudu dostajemy:
Tak więc szansa znajdowania się poza przedziałem wynosi istotnie mniej niż . Im mniejszy
jest parametr , tym bardziej rozkład
jest "skupiony w okolicy" punktu .
Dystrybuanta rozkładu
normalnego <ref>W tablicy podano wartości
dla .</ref>
),
{Weight}(3540 .. 3560, { {31}{400}} )
,
{Weight}(3640 .. 3660, { {1}{100}} )
,
{Weight}(3360 .. 3380, { {1}{200}} )
,
{Weight}(3520 .. 3540, { {43}{400}} )
,
{Weight}(3420 .. 3440, { {7}{100}} )
,
{Weight}(3620 .. 3640, { {1}{100}} )
,
{Weight}(3460 .. 3480, { {53}{400}} )
,
{Weight}(3320 .. 3340, 0),
{Weight}(3500 .. 3520, { {33}{200}} )
,
{Weight}(3600 .. 3620, { {1}{40}} ),
{Weight}(3380 .. 3400, { {1}{50}} )
,
{Weight}(3400 .. 3420, { {13}{400}} )
,
{Weight}(3440 .. 3460, { {7}{100}} )
,
{Weight}(3580 .. 3600, { {17}{400}} )
]
Teraz rysujemy histogram:
{active}{1d}{stats[statplots,histogram](dane1);}{}
<flash>file=Rp.1.94.swf|width=350|height=350</flash>
oraz zachowujemy powyższy wykres:
{active}{1d}{g1 := :}{}
Dla wygody obliczamy jeszcze raz nadzieję i wariancję dla pojedynczej kostki:
{active}{1d}{ek := add(i,i=1..6)/6: vk := add(i^2,i=1..6)/6 - ek^2:}{}
a następnie obliczamy nadzieję i wariancję sumy:
{active}{1d}{es := n*ek; vs := n*vk;}{}
{inert}{2d}{es := 3500;}{
{inert}{2d}{vs := 8750/3;}{
Przygotowujemy wykres gęstości rozkładu teoretycznego (lecz go jeszcze nie wyświetlamy):
{active}{1d}{g2 := plot(f(es,sqrt(vs)),3320..3680, color=black):}{}
Obliczamy średnią i odchylenie standardowe dla szeregu rozdzielczego:
{active}{1d}{ee := evalf(stats[describe,mean]([lista]));}{}
{inert}{2d}{ee := 3501.587500;}{
}
{active}{1d}{ve := evalf(stats[describe,standarddeviation]([lista]));}{}
{inert}{2d}{ve := 57.07764311;}{
}
Teraz przygotowujemy wykres gęstości rozkładu normalnego o parametrach obliczonych z szeregu rozdzielczego:
{active}{1d}{g3 := plot(f(ee,ve),3320..3680, color=black,thickness=2):}{}
aby następnie wyświetlić, na jednym rysunku, histogram i dwie poprzednio otrzymane gęstości:
{active}{1d}{plots[display](g1,g2,g3);}{}
<flash>file=Rp.1.95.swf|width=350|height=350</flash>
Ponieważ bardzo często zmiennymi losowymi są niezależne próby Bernoulliego, więc sformułujemy centralne twierdzenie graniczne specjalnie dla tego przypadku. Jest to natychmiastowy wniosek z twierdzenia Lindeberga-Levy'ego (twierdzenie Uzupelnic da35|).
Twierdzenie de Moivre'a-Laplace'a
Niech będzie ciągiem niezależnych prób Bernoulliego, z takim samym prawdopodobieństwem sukcesu i porażki w każdej próbie (). Wtedy:
Oczywiście, twierdzenia Uzupelnic rozsum| i Uzupelnic ctgsr| można także z łatwością przeformułować dla przypadku niezależnych prób Bernoulliego.
Wyraźnie zaznaczamy, że centralne twierdzenie graniczne jest prawdziwe przy dużo ogólniejszych założeniach. W szczególności zmienne losowe nie muszą mieć takiego samego rozkładu, a nawet nie muszą być niezależne. Jednakże, różnym wersjom centralnego twierdzenia granicznego przyświeca ta sama idea:
suma niewiele zależnych od siebie składników losowych, z których żaden nie dominuje istotnie nad pozostałymi, ma w przybliżeniu rozkład normalny.