Rachunek prawdopodobieństwa i statystyka/Wykład 9: Rozkład normalny i centralne twierdzenie graniczne
{dal}Szablon:-1.1cm[chapter] {dak}[dal]Szablon:-0.1cm {zad}{Zadanie }[chapter] {zam}{Ćwiczenie}[chapter] {ptst}{Pytanie}[chapter]
{{przyklad|||
}
{{przyklad|#1||
}
{mapleex}
{Przegląd ważniejszych rozkładów}
Streszczenie
Omówimy kilka najczęściej spotykanych w zastosowaniach rozkładów dyskretnych i ciągłych, charakteryzujących często zmienne losowe związane ze zliczaniem oraz czasem oczekiwania na szczególne zdarzenia. Jednak najważniejszy rozkład, tak zwany rozkład normalny, zostanie omówiony w następnym rozdziale.
Słowa kluczowe: rozkład dwumianowy, rozkład wielomianowy, rozkład geometryczny, rozkład hipergeometryczny, rozkład Pascala,
rozkład Poissona, rozkład wykładniczy, proces
Poissona.
[1cm]
W poprzednich wykładach "uprawialiśmy" dość
ogólną teorię rachunku prawdopodobieństwa, dlatego teraz
zajmiemy się aspektem bardziej praktycznym i omówimy kilka
podstawowych rozkładów oraz wskażemy na niektóre typowe
sytuacje, w których rozkłady te występują. Pragniemy jednak
podkreślić, iż rozważane tutaj rozkłady nie wyczerpują
wszystkich ważnych, występujących w literaturze przedmiotu
rozkładów prawdopodobieństwa.
Rozkłady związane ze zliczaniem
- Ile eksperymentów zakończy się sukcesem?
- Ile jest zdarzeń sprzyjających wylosowaniu "naszych" numerów w grze
liczbowej?
- Ile zgłoszeń napływa średnio w ciągu godziny do
pogotowia ratunkowego w godzinach nocnych?
- Ile wypadków śmiertelnych ma miejsce podczas kąpieli w morzu?
-0.2in
Aby umieć odpowiadać na te i podobne pytania, najpierw należy zawsze zdać sobie sprawę z natury rozważanego zjawiska, czyli, mówiąc bardziej precyzyjnie, z charakteru rozkładu prawdopodobieństwa odpowiadającego danej sytuacji. Okazuje się, że wiele zupełnie różnych od siebie zjawisk zachodzi według podobnych schematów -- na przykład jest w istocie losowaniem bez zwracania lub ze zwracaniem. Omówimy teraz kolejno kilka podstawowych rozkładów, odpowiedzialnych za większość tego typu sytuacji.
Na początku powtórzymy poznaną już wcześniej (patrz przykład Uzupelnic prd|) definicję rozkładu dwumianowego.
Rozkład dwumianowy
Rozkład nazywamy rozkładem dwumianowym, jeżeli istnieją liczby oraz i takie, że , oraz zachodzi równość:
Następujący wykres przedstawia rozkład dwumianowy z parametrami i :
tutaj rysunek 81.eps
Wzór dwumienny Newtona pozwala stwierdzić, że , a więc powyższa równość rzeczywiście określa rozkład w sposób jednoznaczny (jest to oczywiście rozkład dyskretny). Poprzednio mieliśmy już okazję poznać różne sytuacje, w których on występuje -- następujące twierdzenie formalizuje nasze dotychczasowe rozważania:
Twierdzenie
Niech będą niezależnymi zmiennymi losowymi o takim samym rozkładzie
dwupunktowym. Wtedy suma:Dowód. Zdarzenie jest sumą rozłącznych zdarzeń polegających na tym, że dokładnie spośród zmiennych losowych przyjmuje wartość , a więc pozostałe zmiennych przyjmuje wartość . Niech będzie jednym z takich zdarzeń, gdzie oznaczają numery tych zmiennych, które przyjmują wartość . Z kolei każde zdarzenie jest iloczynem zdarzeń postaci , gdzie lub , a prawdopodobieństwa tych zdarzeń są równe odpowiednio i . Z niezależności
zmiennych
wynika, że:
Ponieważ wskaźniki
można wybrać na Parser nie mógł rozpoznać (nieznana funkcja „\begin{array}”): {\displaystyle \displaystyle \left(\begin{array} {@{}c@{}}n\\k\end{array} \right)} sposobów, więc:
Parser nie mógł rozpoznać (nieznana funkcja „\hfill”): {\displaystyle \displaystyle \hfill{\Box}}
{Losowanie ze zwracaniem} Przypuśćmy, że pewna populacja składa się z elementów. Niech będzie prawdopodobieństwem tego, że dany element z tej populacji ma pewną własność, powiedzmy własność . Losujemy ze zwracaniem elementów i oznaczamy przez liczbę tych spośród nich, które mają własność . Widać, że zmienna losowa ma rozkład dwumianowy.
Przypomnimy teraz wyprowadzone w ćwiczeniu Uzupelnic cprd| wzory na nadzieję matematyczną i wariancję zmiennej losowej o rozkładzie dwumianowym. Wyrażają się one następującymi wzorami:
W celu wyrobienia sobie intuicji związanej z rozkładem dwumianowym, proponujemy obejrzeć animację:
Rozkład wielomianowy
Uogólnieniem rozkładu dwumianowego jest rozkład wielomianowy.
Rozkład nazywamy rozkładem wielomianowym, jeżeli istnieje liczba naturalna oraz liczby , , , takie, że oraz dla wszystkich układów liczb całkowitych nieujemnych , dla których , zachodzi równość:
Widzimy oczywiście, że gdy , rozkład wielomianowy jest w istocie równoważny rozkładowi dwumianowemu (kładziemy i ).
Wyobraźmy sobie, że pewien eksperyment powtarzamy razy, przy czym spełnione są następujące warunki:
każdy eksperyment może dać dokładnie różnych wyników, powiedzmy "", , "",
prawdopodobieństwa poszczególnych wyników są w każdym eksperymencie zawsze takie same -- oznaczamy je przez , ,
eksperymenty są niezależne od siebie.
Niech oznaczają odpowiednio liczbę eksperymentów zakończonych wynikiem "", , "". Wtedy łatwo stwierdzić, stosując indukcję, że wektor losowy ma rozkład wielomianowy.
Rozkład Poissona
Rozkład jest rozkładem Poissona, jeżeli istnieje taka liczba , że:
Poniższy wykres przedstawia rozkład Poissona o parametrze .
tutaj rysunek 82.eps
Okazuje się, że wiele zjawisk podlega właśnie rozkładowi Poissona. Kolejne twierdzenie mówi o tym, że jest on w pewnym sensie granicą rozkładów dwumianowych. W szczególności, gdy mamy do czynienia z dużą liczbą niezależnych prób Bernoulliego, z jednakowym, małym prawdopodobieństwem sukcesu każda, to liczba sukcesów ma niemal dokładnie rozkład Poissona z parametrem . Zgodność taka została zaobserwowana w wielu konkretnych sytuacjach praktycznych. Co więcej, istnieją dość dokładne oszacowania błędu, jaki popełniamy przybliżając rozkład dwumianowy rozkładem Poissona. W tym miejscu poprzestaniemy jedynie na wykazaniu prostego twierdzenia wskazującego na możliwość takiego przybliżania oraz na podaniu danych liczbowych ilustrujących jego dokładność.
Twierdzenie
Niech liczby tworzą taki
ciąg, że:naturalną. Wtedy:
Dowód. Oznaczając , dostajemy równość:
Ponieważ jest ustalone, zatem ostatni czynnik zmierza do 1. Drugi czynnik jest równy:
a więc też zmierza do 1. Istotne są
natomiast czynniki pierwszy oraz trzeci, które zmierzają
odpowiednio do:
Parser nie mógł rozpoznać (nieznana funkcja „\hfill”): {\displaystyle \displaystyle \hfill{ \Box}}
Poniższa tabela porównuje rozkład dwumianowy rozkładem Poissona.
{-0.6cm}
, | , | , |
| |||
rozkład | rozkład | rozkład | rozkład | rozkład | rozkład | |
dwum. | Poissona | dwum. | Poissona | dwum. | Poissona | |
0 | 0,3660 | 0,3679 | 0,0052 | 0,0067 | 0,0000 | 0,0000 |
1 | 0,3697 | 0,3679 | 0,0286 | 0,0337 | 0,0003 | 0,0005 |
2 | 0,1849 | 0,1839 | 0,0779 | 0,0842 | 0,0016 | 0,0023 |
3 | 0,0610 | 0,0613 | 0,1386 | 0,1404 | 0,0059 | 0,0076 |
4 | 0,0149 | 0,0153 | 0,1809 | 0,1755 | 0,0159 | 0,0189 |
5 | 0,0029 | 0,0031 | 0,1849 | 0,1755 | 0,0339 | 0,0378 |
6 | 0,0005 | 0,0005 | 0,1541 | 0,1462 | 0,0596 | 0,0631 |
7 | 0,0001 | 0,0001 | 0,1076 | 0,1044 | 0,0889 | 0,0901 |
8 | 0,0000 | 0,0000 | 0,0643 | 0,0653 | 0,1148 | 0,1126 |
9 | 0,0000 | 0,0000 | 0,0333 | 0,0363 | 0,1304 | 0,1251 |
10 | 0,0000 | 0,0000 | 0,0152 | 0,0181 | 0,1319 | 0,1251 |
11 | 0,0000 | 0,0000 | 0,0061 | 0,0082 | 0,1199 | 0,1137 |
12 | 0,0000 | 0,0000 | 0,0022 | 0,0034 | 0,0988 | 0,0948 |
13 | 0,0000 | 0,0000 | 0,0007 | 0,0013 | 0,0743 | 0,0729 |
14 | 0,0000 | 0,0000 | 0,0002 | 0,0005 | 0,0513 | 0,0521 |
15 | 0,0000 | 0,0000 | 0,0001 | 0,0002 | 0,0327 | 0,0347 |
Nadzieja matematyczna oraz wariancja w rozkładzie Poissona wyrażają się wzorami:
Następująca animacja pokazuje, jak zmienia się kształt rozkładu Poissona dla najczęściej spotykanych wartości parametrów:
Rozkład hipergeometryczny
Rozkład nazywamy hipergeometrycznym, jeżeli istnieją liczby naturalne i oraz liczby dodatnie i takie, że oraz dla każdego zachodzi równość:
Mamy tutaj do czynienia z uogólnionym symbolem Newtona ( nie jest na ogół liczbą naturalną). Symbol ten definiuje się dla oraz w sposób nastpujący:
co oczywiście jest zgodne ze standardową definicją, gdy jest liczbą naturalną.
Poniższy wykres przedstawia rozkład hipergeometryczny o parametrach , oraz .
tutaj rysunek 83.eps
{Losowanie bez zwracania} Przypuśćmy, że pewna populacja składa się z elementów. Niech będzie prawdopodobieństwem tego, że dany element z tej populacji ma pewną własność, powiedzmy własność . Losujemy bez zwracania elementów i oznaczamy przez liczbę wylosowanych elementów mających własność . Dość łatwo zauważyć, nawiązując do przeprowadzonych w punkcie Uzupelnic schkl| rozważań dotyczących losowania ze zwracaniem, że zmienna losowa ma rozkład hipergeometryczny.
Nadzieja matematyczna oraz wariancja w rozkładzie hipergeometrycznym wyrażają się wzorami:
Przy losowaniu elementów ze zwracaniem i przy losowaniu elementów bez zwracania z populacji o liczebności z frakcją elementów wyróżnionych, losujemy średnio tyle samo elementów wyróżnionych. Zauważmy jednak, że przy losowaniu bez zwracania wariancja jest
mniejsza.W poniższej animacji założono, że losujemy bez zwracania elementów spośród 50 elementów, przy czym wiadomo, że 20 elementów ma własność . Animacja pokazuje rozkład liczby wylosowanych elementów mających własność , w zależności od .
Rozkłady czasu oczekiwania
[*] Jak długo trzeba rzucać kostką, aby wypadła "szóstka"?
Jak długi jest czas oczekiwania na kolejne zgłoszenie do centrali telefonicznej?
Jak często dochodzi do wypadków drogowych? Podobnie jak w poprzednim punkcie, omówimy tutaj kilka typowych rozkładów prawdopodobieństwa, które na ogół występują, gdy rozważamy zmienną losową będącą czasem czekania na określone zdarzenie.
Rozkład geometryczny
Rozkład jest rozkładem geometrycznym, jeżeli istnieją liczby i takie, że , , oraz zachodzi równość:
Następujący wykres przedstawia rozkład geometryczny o parametrze :
tutaj rysunek 84.eps
Zauważmy, że jest to rozkład dyskretny skupiony na zbiorze nieskończonym.
Rozkład geometryczny jest związany z nieskończonym ciągiem niezależnych prób Bernoulliego. Wykażemy mianowicie, że czas oczekiwania na pierwszy sukces w takim ciągu posiada właśnie rozkład geometryczny. Konkretną sytuację (oczekiwanie na pierwszą "szóstkę") omawia ćwiczenie Uzupelnic cw41|.
Twierdzenie
Niech będą niezależnymi zmiennymi losowymi o takim samym rozkładzie dwupunktowym. Wtedy funkcja:
nazywana czasem oczekiwania na pierwszy sukces w nieskończonym ciągu prób Bernoulliego, jest zmienną losową o rozkładzie geometrycznym.
Dowód. Zauważmy, że zdarzenie jest takie samo jak
zdarzenie:
Z niezależności zmiennych losowych
otrzymujemy:
Parser nie mógł rozpoznać (nieznana funkcja „\hfill”): {\displaystyle \displaystyle \hfill{ \Box}}
Pokażemy jeszcze inną sytuację, w której pojawia się rozkład geometryczny -- będzie to, w pewnym sensie, uogólnienie poprzedniego twierdzenia. Mianowicie, intuicja podpowiada, że czas oczekiwania na pierwszy sukces w nieskończonym ciągu niezależnych prób Bernoulliego ma następującą własność, zwaną brakiem pamięci:
Poniższe twierdzenie, a w szczególności implikacja "", odpowiada powyższej intuicji. Ponieważ zachodzi nawet równoważność, warunek (Uzupelnic eq:42|) może być przyjęty za inną definicję rozkładu geometrycznego.
Twierdzenie
Niech będzie zmienną losową przyjmującą jedynie wartości naturalne taką, że . Wtedy:
spełnia warunek (Uzupelnic eq:42|) ma rozkład geometryczny.
Dowód.
Oznaczmy
. Z założenia otrzymujemy:
gdzie
. Tak
więc liczby tworzą ciąg geometryczny i stąd
mamy:
Następnie obliczamy:
gdzie
.
Obliczmy lewą stronę wzoru (Uzupelnic eq:42|):
Jak łatwo sprawdzić, również . Parser nie mógł rozpoznać (nieznana funkcja „\hfill”): {\displaystyle \displaystyle \hfill{ \Box}}
Nadzieja matematyczna oraz wariancja w rozkładzie geometrycznym wyrażają się wzorami:
Poniższa animacja pokazuje kształt rozkładu geometrycznego w zależności od parametru .
Rozkład Pascala
Rozkład nazywamy ujemnym rozkładem dwumianowym (lub rozkładem Pascala), jeżeli istnieją liczba naturalna oraz liczba rzeczywista takie, że:
Poniższy wykres przedstawia ujemny rozkład dwumianowy o parametrach i .
tutaj rysunek 85.eps
Zauważmy, że rozkład geometryczny jest szczególnym przypadkiem ujemnego rozkładu dwumianowego.
Twierdzenie
Niech będzie ciągiem niezależnych prób Bernoulliego o takim samym prawdopodobieństwie sukcesu w każdej próbie. Określmy:
Wtedy jest zmienną losową o ujemnym rozkładzie dwumianowym.
Inaczej: czas oczekiwania na pierwszych sukcesów w nieskończonym schemacie Bernoulliego
ma ujemny rozkład dwumianowy.Dowód. Dowód jest bardzo podobny do analogicznego twierdzenia o rozkładzie geometrycznym (twierdzenie Uzupelnic d41|). Parser nie mógł rozpoznać (nieznana funkcja „\hfill”): {\displaystyle \displaystyle \hfill{ \Box}}
Można także udowodnić następujące twierdzenie, które jeszcze inaczej pozwala spojrzeć na problem czasu oczekiwania:
Twierdzenie
Niech będzie ciągiem niezależnych zmiennych losowych o takim samym rozkładzie geometrycznym każda. Wtedy suma ma ujemny rozkład
dwumianowy.Nadzieja matematyczna oraz wariancja w rozkładzie Pascala wyrażają się wzorami:
Rozkład wykładniczy
Rozkład nazywamy rozkładem wykładniczym, jeżeli istnieje taka liczba , że funkcja , określona wzorem:
jest gęstością tego rozkładu.
Poniższy wykres przedstawia rozkład wykładniczy o parametrze .
tutaj rysunek 86.eps
Wykres ten oraz wykres ze strony {prr13} sugerują, że między rozkładem geometrycznym i wykładniczym mogą istnieć pewne związki. Tak rzeczywiście jest -- będzie to uzasadnione poniżej.
Jak łatwo sprawdzić, dystrybuanta tego rozkładu wyraża się wzorem:
Nadzieja matematyczna oraz wariancja w rozkładzie wykładniczym wyrażają się wzorami:
Następująca animacja pokazuje, jak zmienia się gęstość rozkładu wykładniczego w zależności od parametru :
Spróbujemy teraz uzasadnić, że rozkład wykładniczy jest ciągłym odpowiednikiem rozkładu geometrycznego. Mówiąc niezbyt ściśle, najpierw pokażemy, że czas oczekiwania na pierwszy sukces w nieskończonym ciągu niezależnych prób Bernoulliego ma w przybliżeniu rozkład wykładniczy o parametrze , o ile czas pomiędzy kolejnymi próbami jest bardzo mały, a prawdopodobieństwo sukcesu w pojedynczej próbie jest małe i wprost proporcjonalne do tego czasu, przy czym parametr jest współczynnikiem tej proporcjonalności.
Niech
będzie ustalone. Oznaczamy:
Niech
będzie ciągiem niezależnych zmiennych losowych, z których każda ma
rozkład dwupunktowy o parametrze
oraz niech:
Oznaczmy przez
dystrybuantę rozkładu wykładniczego o parametrze .
Twierdzenie
Dla każdego :
Dowód. Dla sytuacja jest trywialna. Niech zatem . Zauważając, że zmienna losowa ma rozkład geometryczny (patrz twierdzenie Uzupelnic d41|) i oznaczając część całkowitą liczby przez , mamy kolejno:
przy , gdyż . Parser nie mógł rozpoznać (nieznana funkcja „\hfill”): {\displaystyle \displaystyle \hfill{ \Box}}
Można też pokazać (dowody pomijamy) odpowiedniki twierdzeń Uzupelnic d42| i Uzupelnic duj2| dla przypadku ciągłego.
Twierdzenie
Niech będzie nieujemną zmienną losową, spełniającą warunek:
zwany brakiem pamięci. Wówczas ma rozkład wykładniczy.
Twierdzenie
Niech będą niezależnymi zmiennymi losowymi o takim samym rozkładzie wykładniczym z parametrem oraz niech . Wtedy ma rozkład o gęstości , zadanej wzorem:
Rozkład ten nosi
nazwę rozkładu Erlanga.Proces Poissona
Na zakończenie niniejszego wykładu sformułujemy twierdzenie, które pokazuje głęboki związek między rozkładem wykładniczym i rozkładem Poissona. Zdefiniujemy mianowicie tak zwany proces Poissona, czyli dla każdego dodatniego określimy zmienną losową mającą rozkład Poissona o parametrze . Mówiąc (na razie) nieprecyzyjnie, zmienna oznacza liczbę sukcesów w ciągu niezależnych prób Bernoulliego, o ile próby te mogą być powtarzane nieskończenie często, zaś prawdopodobieństwo pojawienia się sukcesu w bardzo krótkim odcinku czasu wynosi w przybliżeniu -- mamy więc sytuację opisaną w twierdzeniu Uzupelnic dgw3| i w poprzedzającym go komentarzu. W takim razie, czas oczekiwania na pierwszy sukces ma rozkład wykładniczy o parametrze , a czas oczekiwania na sukcesów ma, zgodnie z twierdzeniem Uzupelnic derlang|, rozkład Erlanga. Na tej podstawie nietrudno jest już określić rozkład zmiennej .
Twierdzenie
Niech będą niezależnymi zmiennymi losowymi o takim samym rozkładzie wykładniczym z parametrem . Niech oraz niech . Wtedy zmienna losowa , zdefiniowana wzorem:
gdzie jest ustaloną liczbą, ma rozkład Poissona o
parametrzeDowód. Zauważmy, że zdarzenie
jest równoważne zdarzeniu:
Tak więc:
gdzie oznacza dystrybuantę zmiennej losowej . Z twierdzenia Uzupelnic derlang| wynika, że na rozkład Erlanga, tak więc:
Indukcyjnie można pokazać, że:
a stąd:
Parser nie mógł rozpoznać (nieznana funkcja „\hfill”): {\displaystyle \displaystyle \hfill{ \Box}}