Rachunek prawdopodobieństwa i statystyka/Wykład 8: Przegląd ważniejszych rozkładów

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Omówimy kilka najczęściej spotykanych w zastosowaniach rozkładów dyskretnych i ciągłych, charakteryzujących często zmienne losowe związane ze zliczaniem oraz czasem oczekiwania na szczególne zdarzenia. Jednak najważniejszy rozkład, tak zwany rozkład normalny, zostanie omówiony w następnym rozdziale.

W poprzednich wykładach "uprawialiśmy" dość ogólną teorię rachunku prawdopodobieństwa, dlatego teraz zajmiemy się aspektem bardziej praktycznym i omówimy kilka podstawowych rozkładów oraz wskażemy na niektóre typowe sytuacje, w których rozkłady te występują. Pragniemy jednak podkreślić, iż rozważane tutaj rozkłady nie wyczerpują wszystkich ważnych, występujących w literaturze przedmiotu rozkładów prawdopodobieństwa.

Rozkłady związane ze zliczaniem

  • Ile eksperymentów zakończy się sukcesem?
  • Ile jest zdarzeń sprzyjających wylosowaniu "naszych" numerów w grze liczbowej?
  • Ile zgłoszeń napływa średnio w ciągu godziny do pogotowia ratunkowego w godzinach nocnych?
  • Ile wypadków śmiertelnych ma miejsce podczas kąpieli w morzu?

Aby umieć odpowiadać na te i podobne pytania, najpierw należy zawsze zdać sobie sprawę z natury rozważanego zjawiska, czyli, mówiąc bardziej precyzyjnie, z charakteru rozkładu prawdopodobieństwa odpowiadającego danej sytuacji. Okazuje się, że wiele zupełnie różnych od siebie zjawisk zachodzi według podobnych schematów - na przykład jest w istocie losowaniem bez zwracania lub ze zwracaniem. Omówimy teraz kolejno kilka podstawowych rozkładów, odpowiedzialnych za większość tego typu sytuacji.

Na początku powtórzymy poznaną już wcześniej (patrz przykład 6.6) definicję rozkładu dwumianowego.

Rozkład dwumianowy

Rozkład nazywamy rozkładem dwumianowym, jeżeli istnieją liczby oraz i takie, że , oraz zachodzi równość:



Następujący wykres przedstawia rozkład dwumianowy z parametrami i :

<flash>file=Rp.1.81.swf|width=350|height=350</flash>

Wzór dwumienny Newtona pozwala stwierdzić, że , a więc powyższa równość rzeczywiście określa rozkład w sposób jednoznaczny (jest to oczywiście rozkład dyskretny). Poprzednio mieliśmy już okazję poznać różne sytuacje, w których on występuje - następujące twierdzenie formalizuje nasze dotychczasowe rozważania


Twierdzenie 8.1

Niech będą niezależnymi zmiennymi losowymi o takim samym rozkładzie dwupunktowym. Wtedy suma:



ma rozkład dwumianowy.

Dowód .

Zdarzenie jest sumą rozłącznych zdarzeń polegających na tym, że dokładnie spośród zmiennych losowych przyjmuje wartość , a więc pozostałe zmiennych przyjmuje wartość . Niech będzie jednym z takich zdarzeń, gdzie oznaczają numery tych zmiennych, które przyjmują wartość . Z kolei każde zdarzenie jest iloczynem zdarzeń postaci , gdzie lub , a prawdopodobieństwa tych zdarzeń są równe odpowiednio i . Z niezależności zmiennych wynika, że:



Ponieważ wskaźniki można wybrać na sposobów, więc:



End of proof.gif


Przykład 8.2 [Losowanie ze zwracaniem]

Przypuśćmy, że pewna populacja składa się z elementów. Niech będzie prawdopodobieństwem tego, że dany element z tej populacji ma pewną własność, powiedzmy własność . Losujemy ze zwracaniem elementów i oznaczamy przez liczbę tych spośród nich, które mają własność . Widać, że zmienna losowa ma rozkład dwumianowy.

Przypomnimy teraz wyprowadzone w ćwiczeniu 7.2 wzory na nadzieję matematyczną i wariancję zmiennej losowej o rozkładzie dwumianowym. Wyrażają się one następującymi wzorami:



W celu wyrobienia sobie intuicji związanej z rozkładem dwumianowym, proponujemy obejrzeć animację:

Rozkład wielomianowy

Uogólnieniem rozkładu dwumianowego jest rozkład wielomianowy.

Rozkład nazywamy rozkładem wielomianowym, jeżeli istnieje liczba naturalna oraz liczby , , , takie, że oraz dla wszystkich układów liczb całkowitych nieujemnych , dla których , zachodzi równość:



Widzimy oczywiście, że gdy , rozkład wielomianowy jest w istocie równoważny rozkładowi dwumianowemu (kładziemy i ).

Wyobraźmy sobie, że pewien eksperyment powtarzamy razy, przy czym spełnione są następujące warunki:

  1. każdy eksperyment może dać dokładnie różnych wyników, powiedzmy "",... , "",
  2. prawdopodobieństwa poszczególnych wyników są w każdym eksperymencie zawsze takie same - oznaczamy je przez , ,
  3. eksperymenty są niezależne od siebie.

Niech oznaczają odpowiednio liczbę eksperymentów zakończonych wynikiem "", ... , "". Wtedy łatwo stwierdzić, stosując indukcję, że wektor losowy ma rozkład wielomianowy.

Rozkład Poissona

Siméon Denis Poisson (1781-1840)
Zobacz biografię

Rozkład jest rozkładem Poissona, jeżeli istnieje taka liczba , że:



Poniższy wykres przedstawia rozkład Poissona o parametrze .

<flash>file=Rp.1.82.swf|width=350|height=350</flash>

Okazuje się, że wiele zjawisk podlega właśnie rozkładowi Poissona. Kolejne twierdzenie mówi o tym, że jest on w pewnym sensie granicą rozkładów dwumianowych. W szczególności, gdy mamy do czynienia z dużą liczbą niezależnych prób Bernoulliego, z jednakowym, małym prawdopodobieństwem sukcesu każda, to liczba sukcesów ma niemal dokładnie rozkład Poissona z parametrem . Zgodność taka została zaobserwowana w wielu konkretnych sytuacjach praktycznych. Co więcej, istnieją dość dokładne oszacowania błędu, jaki popełniamy przybliżając rozkład dwumianowy rozkładem Poissona. W tym miejscu poprzestaniemy jedynie na wykazaniu prostego twierdzenia wskazującego na możliwość takiego przybliżania oraz na podaniu danych liczbowych ilustrujących jego dokładność.

Twierdzenie 8.3

Niech liczby tworzą taki ciąg, że:



oraz niech będzie nieujemną liczbą naturalną. Wtedy:



Dowód .

Oznaczając , dostajemy równość:



Ponieważ jest ustalone, zatem ostatni czynnik zmierza do 1. Drugi czynnik jest równy:



a więc też zmierza do 1. Istotne są natomiast czynniki pierwszy oraz trzeci, które zmierzają odpowiednio do:


End of proof.gif


Poniższa tabela porównuje rozkład dwumianowy z rozkładem Poissona.


Rozkład dwumianowy a rozkład Poissona
, , ,

rozkład rozkład rozkład rozkład rozkład rozkład
dwum. Poissona dwum. Poissona dwum. Poissona
0 0,3660 0,3679 0,0052 0,0067 0,0000 0,0000
1 0,3697 0,3679 0,0286 0,0337 0,0003 0,0005
2 0,1849 0,1839 0,0779 0,0842 0,0016 0,0023
3 0,0610 0,0613 0,1386 0,1404 0,0059 0,0076
4 0,0149 0,0153 0,1809 0,1755 0,0159 0,0189
5 0,0029 0,0031 0,1849 0,1755 0,0339 0,0378
6 0,0005 0,0005 0,1541 0,1462 0,0596 0,0631
7 0,0001 0,0001 0,1076 0,1044 0,0889 0,0901
8 0,0000 0,0000 0,0643 0,0653 0,1148 0,1126
9 0,0000 0,0000 0,0333 0,0363 0,1304 0,1251
10 0,0000 0,0000 0,0152 0,0181 0,1319 0,1251
11 0,0000 0,0000 0,0061 0,0082 0,1199 0,1137
12 0,0000 0,0000 0,0022 0,0034 0,0988 0,0948
13 0,0000 0,0000 0,0007 0,0013 0,0743 0,0729
14 0,0000 0,0000 0,0002 0,0005 0,0513 0,0521
15 0,0000 0,0000 0,0001 0,0002 0,0327 0,0347

Nadzieja matematyczna oraz wariancja w rozkładzie Poissona wyrażają się wzorami:



Następująca animacja pokazuje, jak zmienia się kształt rozkładu Poissona dla najczęściej spotykanych wartości parametrów:

Rozkład hipergeometryczny

Rozkład nazywamy hipergeometrycznym, jeżeli istnieją liczby naturalne i oraz liczby dodatnie i takie, że oraz dla każdego zachodzi równość:

Mamy tutaj do czynienia z uogólnionym symbolem Newtona ( nie jest na ogół liczbą naturalną). Symbol ten definiuje się dla oraz w sposób nastpujący:



co oczywiście jest zgodne ze standardową definicją, gdy jest liczbą naturalną.

Poniższy wykres przedstawia rozkład hipergeometryczny o parametrach , oraz .

<flash>file=Rp.1.83.swf|width=350|height=350</flash>

Przykład 8.4 [Losowanie bez zwracania]

Przypuśćmy, że pewna populacja składa się z elementów. Niech będzie prawdopodobieństwem tego, że dany element z tej populacji ma pewną własność, powiedzmy własność . Losujemy bez zwracania elementów i oznaczamy przez liczbę wylosowanych elementów mających własność . Dość łatwo zauważyć, nawiązując do przeprowadzonych w punkcie Schemat klasyczny rozważań dotyczących losowania ze zwracaniem, że zmienna losowa ma rozkład hipergeometryczny.

Nadzieja matematyczna oraz wariancja w rozkładzie hipergeometrycznym wyrażają się wzorami:



Uwaga 8.5
Przy losowaniu elementów ze zwracaniem i przy losowaniu elementów bez zwracania z populacji o liczebności z frakcją elementów wyróżnionych, losujemy średnio tyle samo elementów wyróżnionych. Zauważmy jednak, że przy losowaniu bez zwracania wariancja jest mniejsza.

W poniższej animacji założono, że losujemy bez zwracania elementów spośród 50 elementów, przy czym wiadomo, że 20 elementów ma własność . Animacja pokazuje rozkład liczby wylosowanych elementów mających własność , w zależności od .

Rozkłady czasu oczekiwania

  • Jak długo trzeba rzucać kostką, aby wypadła "szóstka"?
  • Jak długi jest czas oczekiwania na kolejne zgłoszenie do centrali telefonicznej?
  • Jak często dochodzi do wypadków drogowych?

Podobnie jak w poprzednim punkcie, omówimy tutaj kilka typowych rozkładów prawdopodobieństwa, które na ogół występują, gdy rozważamy zmienną losową będącą czasem czekania na określone zdarzenie.

Rozkład geometryczny

Rozkład jest rozkładem geometrycznym, jeżeli istnieją liczby i takie, że , , oraz zachodzi równość:



Następujący wykres przedstawia rozkład geometryczny o parametrze :

<flash>file=Rp.1.84.swf|width=350|height=350</flash>

Zauważmy, że jest to rozkład dyskretny skupiony na zbiorze nieskończonym.

Rozkład geometryczny jest związany z nieskończonym ciągiem niezależnych prób Bernoulliego. Wykażemy mianowicie, że czas oczekiwania na pierwszy sukces w takim ciągu posiada właśnie rozkład geometryczny. Konkretną sytuację oczekiwanie na pierwszą "szóstkę") omawia ćwiczenie 4.2.

Twierdzenie 8.6

Niech będą niezależnymi zmiennymi losowymi o takim samym rozkładzie dwupunktowym. Wtedy funkcja:



nazywana czasem oczekiwania na pierwszy sukces w nieskończonym ciągu prób Bernoulliego, jest zmienną losową o rozkładzie geometrycznym.

Dowód .

Zauważmy, że zdarzenie jest takie samo jak zdarzenie:



Z niezależności zmiennych losowych otrzymujemy:



End of proof.gif


Pokażemy jeszcze inną sytuację, w której pojawia się rozkład geometryczny -będzie to, w pewnym sensie, uogólnienie poprzedniego twierdzenia. Mianowicie, intuicja podpowiada, że czas oczekiwania na pierwszy sukces w nieskończonym ciągu niezależnych prób Bernoulliego ma następującą własność, zwaną brakiem pamięci:


     (8.1)


Poniższe twierdzenie, a w szczególności implikacja "", odpowiada powyższej intuicji. Ponieważ zachodzi nawet równoważność, (warunek 8.1) może być przyjęty za inną definicję rozkładu geometrycznego.

Twierdzenie 8.7

Niech będzie zmienną losową przyjmującą jedynie wartości naturalne taką, że . Wtedy:


spełnia warunek 8.1 ma rozkład geometryczny.

Dowód .

Oznaczmy . Z założenia otrzymujemy:




gdzie . Tak więc liczby tworzą ciąg geometryczny i stąd mamy:



Następnie obliczamy:



gdzie .

Obliczmy lewą stronę wzoru 8.1:




Jak łatwo sprawdzić, również .

End of proof.gif

Nadzieja matematyczna oraz wariancja w rozkładzie geometrycznym wyrażają się wzorami:



Poniższa animacja pokazuje kształt rozkładu geometrycznego w zależności od parametru .

Rozkład Pascala

Rozkład nazywamy ujemnym rozkładem dwumianowym (lub rozkładem Pascala), jeżeli istnieją liczba naturalna oraz liczba rzeczywista takie, że:



Poniższy wykres przedstawia ujemny rozkład dwumianowy o parametrach i .

<flash>file=Rp.1.85.swf|width=350|height=350</flash>

Zauważmy, że rozkład geometryczny jest szczególnym przypadkiem ujemnego rozkładu dwumianowego.

Twierdzenie 8.8

Niech będzie ciągiem niezależnych prób Bernoulliego o takim samym prawdopodobieństwie sukcesu w każdej próbie. Określmy:




Wtedy jest zmienną losową o ujemnym rozkładzie dwumianowym.

Inaczej: czas oczekiwania na pierwszych sukcesów w nieskończonym schemacie Bernoulliego ma ujemny rozkład dwumianowy.

Dowód .

Dowód jest bardzo podobny do analogicznego twierdzenia o rozkładzie geometrycznym (twierdzenie 8.6).

End of proof.gif

Można także udowodnić następujące twierdzenie, które jeszcze inaczej pozwala spojrzeć na problem czasu oczekiwania:

Twierdzenie 8.9

Niech będzie ciągiem niezależnych zmiennych losowych o takim samym rozkładzie geometrycznym każda. Wtedy suma ma ujemny rozkład dwumianowy.

Nadzieja matematyczna oraz wariancja w rozkładzie Pascala wyrażają się wzorami:


Rozkład wykładniczy

Rozkład nazywamy rozkładem wykładniczym, jeżeli istnieje taka liczba , że funkcja , określona wzorem:



jest gęstością tego rozkładu.

Poniższy wykres przedstawia rozkład wykładniczy o parametrze .

<flash>file=Rp.1.86.swf|width=350|height=350</flash>

Wykres ten oraz wykres rozkładu geometrycznego sugerują, że między rozkładem geometrycznym i wykładniczym mogą istnieć pewne związki. Tak rzeczywiście jest - będzie to uzasadnione poniżej.

Jak łatwo sprawdzić, dystrybuanta tego rozkładu wyraża się wzorem:




Nadzieja matematyczna oraz wariancja w rozkładzie wykładniczym wyrażają się wzorami:



Następująca animacja pokazuje, jak zmienia się gęstość rozkładu wykładniczego w zależności od parametru :

Spróbujemy teraz uzasadnić, że rozkład wykładniczy jest ciągłym odpowiednikiem rozkładu geometrycznego. Mówiąc niezbyt ściśle, najpierw pokażemy, że czas oczekiwania na pierwszy sukces w nieskończonym ciągu niezależnych prób Bernoulliego ma w przybliżeniu rozkład wykładniczy o parametrze , o ile czas pomiędzy kolejnymi próbami jest bardzo mały, a prawdopodobieństwo sukcesu w pojedynczej próbie jest małe i wprost proporcjonalne do tego czasu, przy czym parametr jest współczynnikiem tej proporcjonalności.

Niech będzie ustalone. Oznaczamy:



Niech będzie ciągiem niezależnych zmiennych losowych, z których każda ma rozkład dwupunktowy o parametrze oraz niech:



Oznaczmy przez dystrybuantę rozkładu wykładniczego o parametrze .

Twierdzenie 8.10

Dla każdego :



Dowód .

Dla sytuacja jest trywialna. Niech zatem . Zauważając, że zmienna losowa ma rozkład geometryczny (patrz twierdzenie 8.6) i oznaczając część całkowitą liczby przez , mamy kolejno:




przy , gdyż .

End of proof.gif

Można też pokazać (dowody pomijamy) odpowiedniki twierdzenia 8.7 i twierdzenia 8.9 dla przypadku ciągłego.

Twierdzenie 8.11

Niech będzie nieujemną zmienną losową, spełniającą warunek:



zwany brakiem pamięci. Wówczas ma rozkład wykładniczy.
Uwaga 8.12

Zachodzi także twierdzenie odwrotne do twierdzenia 8.11.

Twierdzenie 8.13

Niech będą niezależnymi zmiennymi losowymi o takim samym rozkładzie wykładniczym z parametrem oraz niech . Wtedy ma rozkład o gęstości , zadanej wzorem:



Rozkład ten nosi nazwę rozkładu Erlanga.

Proces Poissona

Na zakończenie niniejszego wykładu sformułujemy twierdzenie, które pokazuje głęboki związek między rozkładem wykładniczym i rozkładem Poissona. Zdefiniujemy mianowicie tak zwany proces Poissona, czyli dla każdego dodatniego określimy zmienną losową mającą rozkład Poissona o parametrze . Mówiąc (na razie) nieprecyzyjnie, zmienna oznacza liczbę sukcesów w ciągu niezależnych prób Bernoulliego, o ile próby te mogą być powtarzane nieskończenie często, zaś prawdopodobieństwo pojawienia się sukcesu w bardzo krótkim odcinku czasu wynosi w przybliżeniu - mamy więc sytuację opisaną w twierdzeniu 8.10 i w poprzedzającym go komentarzu. W takim razie, czas oczekiwania na pierwszy sukces ma rozkład wykładniczy o parametrze , a czas oczekiwania na sukcesów ma, zgodnie z twierdzeniem 8.13, rozkład Erlanga. Na tej podstawie nietrudno jest już określić rozkład zmiennej .

Twierdzenie 8.14

Niech będą niezależnymi zmiennymi losowymi o takim samym rozkładzie wykładniczym z parametrem . Niech oraz niech . Wtedy zmienna losowa , zdefiniowana wzorem:



gdzie jest ustaloną liczbą, ma rozkład Poissona o parametrze .

Dowód .

Zauważmy, że zdarzenie jest równoważne zdarzeniu:



Tak więc:



gdzie oznacza dystrybuantę zmiennej losowej . Z twierdzenia 8.13 wynika, że na rozkład Erlanga, tak więc:


Indukcyjnie można pokazać, że:



a stąd:


End of proof.gif