Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Omówimy podstawowe parametry zmiennych losowych: nadzieję matematyczną, wariancję, odchylenie standardowe i kwantyle. Przytoczymy słynną nierówność Czebyszewa służącą do oceny wielkości odchylenia zmiennej losowej od jej średniej. Wypowiemy i zinterpretujemy tak zwane prawo wielkich liczb.

Nadzieja matematyczna

Często zdarza się, iż albo nie jesteśmy w stanie określić dokładnie rozkładu interesującej nas zmiennej losowej, albo nie jest to w ogóle potrzebne. W takich sytuacjach częściową informację o zachowaniu się zmiennej losowej można odczytać z pewnych parametrów liczbowych rozkładu tej zmiennej. Omówimy poniżej tylko najważniejsze parametry charakteryzujące rozkład zmiennej losowej: wartość oczekiwaną, wariancję, odchylenie standardowe oraz kwantyle. Podkreślamy jednak, że są używane (zwłaszcza w statystyce) także inne charakterystyki liczbowe rozkładów zmiennych losowych.

Nadzieja matematyczna, zwana również wartością średnią lub wartością oczekiwaną, jest podstawowym parametrem każdego rozkładu. Z pojęciem tym spotykamy się w wielu codziennych sytuacjach, chociaż nie zawsze zdajemy sobie z tego sprawę. Zacznijmy od prostego, choć niezbyt naturalnego, przykładu.

Przykład 7.1

Pan Kowalski proponuje następującą grę: za prawo jednego rzutu kostką symetryczną Kowalski pobiera opłatę w wysokości 4 zł, natomiast wypłaca po każdym rzucie kwotę zł, gdzie jest liczbą uzyskanych oczek, o ile liczba ta jest większa niż 1; w przypadku wypadnięcia "jedynki" gracz ma dodatkowy bezpłatny rzut, po którym otrzymuje kwotę równą (w złotych) liczbie uzyskanych oczek. Czy gra jest opłacalna dla Kowalskiego?

Ilustracja?

Zauważmy od razu, że jeżeli gra kończy się po jednym lub nawet po kilku rzutach, to odpowiedź może być rzeczywiście różna. Na przykład, w pięciu rzutach mogą wypaść następujące wyniki:


Parser nie mógł rozpoznać (błąd składni): {\displaystyle \mbox{ ,,5", ,,4", ,,5", ,,1" i w powtórce ,,6", ,,6".} }


Wtedy Kowalski pobiera zł, natomiast musi wypłacić zł. Jednak mogą równie dobrze wypaść następujące wyniki:


Parser nie mógł rozpoznać (błąd składni): {\displaystyle \mbox{,,2", ,,2", ,,4", ,,3", ,,6",} }


co oznacza dla Kowalskiego zarobek zł ( zł).

Z kolei, gdy gra będzie prowadzona dość długo - powiedzmy, że Kowalski znajdzie kandydatów na 360 prób - wtedy sytuacja będzie wyglądać inaczej, gdyż przy wielokrotnym powtarzaniu gry można się spodziewać pewnych prawidłowości. Kowalski zakłada mianowicie, że przy 360 rzutach każda ścianka wypadnie około 60 razy, będzie więc musiał zapłacić za około 60 "dwójek", 60 "trójek" i tak dalej, a także za dodatkowe rzuty (po wypadnięciu "jedynki"), czyli za około 10 "jedynek", 10 "dwójek", czy wreszcie 10 "szóstek". Tak więc w sumie Kowalski zapłaci około:



natomiast zbierze opłaty w wysokości:


Parser nie mógł rozpoznać (błąd składni): {\displaystyle 360 \cdot 4 \textrm{ zł }= 1440 \textrm{ zł.} }


Ma więc szansę niewielkiego zarobku, czyli po prostu gra jest opłacalna (jeżeli nie liczymy kosztów własnych).

Można się teraz pytać, czy gra jest opłacalna przy innej liczbie prób, na przykład 200 lub 1000. Zamiast za każdym razem powtarzać powyższy rachunek, można policzyć jeden raz wielkość :



a następnie pomnożyć ją przez zakładaną liczbę prób. Mamy wówczas, na przykład:



czego należało się oczywiście spodziewać, gdyż ostatnia równość powstała z poprzedniej przez podzielenie obu stron przez .

Zauważmy teraz, że w powyższym zadaniu możemy wyróżnić w sposób naturalny zmienną losową , zdefiniowaną jako wypłata po każdej grze. Przyjmuje ona sześć wartości:



z prawdopodobieństwami:


Parser nie mógł rozpoznać (błąd składni): {\displaystyle p_1 = \frac{1}{36}, \ \ \ p_2 = \frac{7}{36}, \ \ \ \dots, \ \ \ p_6 = \frac{7}{36}. }


Zauważmy, że średnia wypłata jest wtedy równa:



Wielkość ta nazywana jest właśnie wartością średnią, wartością oczekiwaną, lub nadzieją matematyczną zmiennej losowej . Mówiąc językiem potocznym, jest ono równa sumie wszystkich możliwych wartości zmiennej , wymnożonych przez odpowiednie wagi .

Nie jest zatem niespodzianką następująca definicja:

Definicja 7.2 [nadzieja matematyczna]

  1. Niech będzie przestrzenią probabilistyczną, zaś

- zmienną losową o rozkładzie dyskretnym:



Nadzieją matematyczną (wartością oczekiwaną, wartością średnią) nazywamy liczbę:


Parser nie mógł rozpoznać (nieznana funkcja „\index”): {\displaystyle m = {\Bbb E} (X) \index{} { E} (X)Parser nie mógł rozpoznać (błąd składni): {\displaystyle } = {\Bbb E} X = \sum_{i=1}^Nx_ip_i. }


  1. Niech będzie przestrzenią probabilistyczną, zaś - zmienną losową o rozkładzie ciągłym z gęstością . Nadzieją matematyczną (wartością oczekiwaną, wartością średnią) nazywamy liczbę:


Parser nie mógł rozpoznać (nieznana funkcja „\index”): {\displaystyle m = {\Bbb E} (X) \index{} { E} (X)Parser nie mógł rozpoznać (błąd składni): {\displaystyle } = {\Bbb E} X = \int_{\infty}^\infty x f(x)\,dx. }


Uwaga 7.3
W przypadku dyskretnym, gdy zmienna losowa przyjmuje nieskończenie wiele wartości, szereg określający wartość oczekiwaną może być zbieżny lub nie. W tym drugim przypadku wartość oczekiwana nie istnieje.
Uwaga 7.4

Definicja wartości oczekiwanej w przypadku ciągłym może wydać się niezbyt oczywista. Zauważmy jednak, że jest ona naturalną konsekwencją definicji całki oznaczonej. Mianowicie, całkę oznaczoną z danej funkcji ciągłej po przedziale o końcach i można dowolnie przybliżać sumą [AM]:


gdzie są punktami podziału przedziału , to znaczy , zaś liczby są dowolne. Weźmy jako funkcję iloczyn: . Wtedy:



gdzie . Powyższy wzór można interpretować następująco: zmienną losową o rozkładzie ciągłym o gęstości można przybliżać zmiennymi losowymi o rozkładach dyskretnych - wartość oczekiwana będzie więc przybliżana wartościami

oczekiwanymi tych dyskretnych zmiennych losowych.

Przykład 7.5

Obliczymy wartość oczekiwaną zmiennej losowej o rozkładzie dwupunktowym: , .

Otrzymujemy:



Przykład 7.6

Obliczymy wartość oczekiwaną zmiennej losowej o rozkładzie jednostajnym na przedziale o końcach i .

Otrzymujemy:



Wynik ten wydaje się intuicyjnie jasny: wartość oczekiwana jest środkiem przedziału, na którym skupiony jest rozkład jednostajny.

Wariancja i odchylenie standardowe

Innym bardzo ważnym parametrem rozkładu zmiennej losowej jest wariancja i ściśle z nią związane odchylenie standardowe.

Definicja 7.7 [wariancja i odchylenie standardowe]

Niech będzie przestrzenią probabilistyczną, zaś - zmienną losową, posiadającą skończoną wartość oczekiwaną . Wariancją zmiennej losowej nazywamy liczbę:


Parser nie mógł rozpoznać (nieznana funkcja „\index”): {\displaystyle \sigma^2 = \mathbb D^2(X) \index{} { D}^2 (X)Parser nie mógł rozpoznać (błąd składni): {\displaystyle } = {\Bbb D}^2 X = {\Bbb E} ((X-m)^2), }


natomiast liczbę:


Parser nie mógł rozpoznać (nieznana funkcja „\index”): {\displaystyle \sigma = \sqrt{\mathbb D^2(X)} \index{} { D}^2 (X)Parser nie mógł rozpoznać (błąd składni): {\displaystyle } = \sqrt{\mathbb D^2 X} }


nazywamy odchyleniem standardowym zmiennej .

Interpretacja wariancji jest następująca. Zmienna losowa jest odchyleniem zmiennej losowej od swojej wartości oczekiwanej, zaś jeżeli nie interesuje nas znak tego odchylenia, tylko jego wielkość bezwzględna, możemy rozważać zmienną losową . Tak więc liczba jest oczekiwanym odchyleniem - wielkość ta jest nazywana średnim błędem - jednak z pewnych względów jest ona niewygodna w obliczeniach. Dlatego, zamiast średniego błędu, rozważa się wielkość, która jest wygodniejsza w obliczeniach, a ma podobne własności co średni błąd - jej duża wartość wskazuje na duży rozrzut zmiennej . Taką wielkością jest właśnie wariancja, a więc także odchylenie standardowe. Co więcej, w wielu typowych sytuacjach, odchylenie standardowe nie różni się wiele od średniego błędu. Zauważmy, że w skrajnym przypadku, gdy zmienna losowa jest stałą, powiedzmy , czyli gdy , to , a więc oczekiwany błąd, wariancja i odchylenie standardowe są równe zeru.

Uwaga 7.8

W przypadku zmiennej losowej o rozkładzie dyskretnym wariancję obliczamy ze wzoru:



Uwaga 7.9

W przypadku zmiennej losowej o rozkładzie ciągłym wariancję obliczamy ze wzoru:



Przykład 7.10

Obliczymy wariancję zmiennej losowej o rozkładzie dwupunktowym: , .

Wiemy już, . Mamy więc: