Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 7: Parametry rozkładów zmiennych losowych
Ćwiczenia
Ćwiczenie 7.1
Jakie są nadzieja matematyczna i wariancja sumy oczek przy rzucie parą kostek do gry?
Niech oznacza sumę oczek uzyskanych na obu kostkach. Mamy obliczyć wartość oczekiwaną oraz wariancję .
Sposób pierwszy (na siłę). Można wyznaczyć rozkład zmiennej losowej i skorzystać ze wzorów określający nadzieję matematyczną i wariancję. Oczywiście, przyjmuje wartości
,
kolejno z prawdopodobieństwami:
.
Mamy więc:
,
Sposób drugi. jest sumą dwóch zmiennych losowych:
oznaczających liczby oczek na poszczególnych kostkach. Mają one więc ten
sam rozkład skupiony w punktach z jednakowym
prawdopodobieństwem . Zatem:
a więc korzystając z tego, że
suma zmiennych losowych ma nadzieję matematyczną równą sumie
nadziei składników (patrz twierdzenie 7.13), mamy:
Wariancja ,
a więc także , jest również łatwiejsza do obliczenia niż w
poprzednim sposobie:
Tak więc, korzystając
z twierdzenia 7.13:
Drugi z powyższych sposobów jest dość uniwersalny. Na przykład, możemy podobnie obliczyć średnią i
wariancję sumy oczek otrzymanych przy wielokrotnym rzucie kostką. Za chwilę poznamy także bardziej interesujące zastosowania.
Ćwiczenie 7.2
Niech oznacza liczbę sukcesów w schemacie Bernoulliego. Obliczymy nadzieję matematyczną i wariancję .
Niech oznacza liczbę sukcesów w -tym doświadczeniu (). Zmienne mają taki sam rozkład dwupunktowy i są oczywiście niezależne. Co więcej, obliczyliśmy już nadzieję matematyczną i wariancję takich zmiennych (patrz przykład 7.5 i przykład 7.10). Mamy więc (dlaczego?):
Ćwiczenie 7.3
Doświadczenie wskazuje, że przy wielokrotnym rzucie monetą symetryczną, powinno być mniej więcej tyle samo orłów co reszek. Spróbujemy to teraz uzasadnić, szacując z góry prawdopodobieństwo tego, że różnica między liczbą orłów i reszek jest niezbyt duża.
Przypuśćmy, że wykonano 1000 rzutów. Niech oznacza ilość orłów, a więc jest ilością reszek. Zmienna losowa jest sumą zmiennych losowych o rozkładzie dwupunktowym i stąd:
.
Oszacujmy teraz z góry:
.
Na mocy wzoru 7.2 z twierdzenia 7.20 (nierówność Czebyszewa), jest ono nie większe niż . Może się wydawać, że prawdopodobieństwo to nie jest aż tak małe, jak wskazywałaby na to nasza intuicja, i w związku z tym wynik ten nie ma zbyt wielkiej wartości. Rzeczywiście, tak w istocie jest - nierówność Czebyszewa zachodzi bowiem dla dowolnej zmiennej losowej i z natury rzeczy szacowania przeprowadzone w jej dowodzie były bardzo grube. Jak się okaże, tak zwane centralne twierdzenie graniczne, które udowodnimy później, pozwoli uzyskać o wiele dokładniejszy, bardziej odpowiadający naszym wyobrażeniom wynik - okaże się mianowicie, że interesujące nas prawdopodobieństwo jest mniejsze niż .
Ćwiczenie 7.4
W celu zbadania dużej populacji osób, podzielono je na grupy, a następnie pobrano od każdej osoby krew oraz przeprowadzano analizę łączną dla poszczególnych grup, wykonując odpowiedni test na próbkach powstałych przez zmieszanie krwi osób należących do tej samej grupy. Gdy w pewnej grupie wykryto wirus chorobowy, przeprowadzano odrębną analizę dla każdej osoby z tej grupy. Załóżmy, że liczebność populacji wynosi , liczność grup wynosi , zaś niech będzie liczbą grup (oczywiście ). Zakładamy też, że prawdopodobieństwo tego, że dany człowiek jest zarażony interesującym nas wirusem wynosi oraz że obecność wirusa u danej osoby jest niezależna od jego obecności u innych osób (jest to istotnie upraszczające założenie). Naszym zdaniem jest tak dobrać wielkość grupy , aby liczba wszystkich (bardzo kosztownych) analiz była, w pewnym sensie, minimalna.
Obliczymy najpierw nadzieję matematyczną liczby wszystkich analiz. Na pierwszy rzut oka wydaje się to dość trudnym zadaniem, gdyż nie jest łatwo wyznaczyć rozkład tej zmiennej losowej. Wykorzystamy jednak tutaj twierdzenie, że nadzieja matematyczna sumy zmiennych losowych jest równa sumie nadziei matematycznych poszczególnych składników. Niech będzie liczbą analiz przeprowadzonych w -tej grupie (). Liczba wszystkich analiz jest więc równa:
,
a stąd:
Parser nie mógł rozpoznać (błąd składni): {\displaystyle \{\Bbb E\}(X) =\{\Bbb E\}(X_1) + \dots + \{\Bbb E}(X_k)}
Zauważmy także, że wszystkie zmienne losowe
mają taki sam rozkład - policzmy więc nadzieję matematyczną jednej z nich, na przykład . Zauważmy, że zmienna ta
przyjmuje dwie
wartości:
i ,
z prawdopodobieństwami odpowiednio:
oraz
W takim razie:
a zatem:
Wyraziliśmy więc jako funkcję zmiennej , zaś interesuje nas znalezienie wartości najmniejszej tej funkcji.
Ze względu na dużą złożoność powyższego wzoru, jest to zadanie analitycznie trudne. Z drugiej strony, znając konkretne
wartości oraz możemy to zadanie rozwiązać graficznie. Narysujmy, przykładowo, wykres dla
i , w zależności od
:
Zmniejszając zakres do przedziału widzimy, że wartość minimalna zostaje osiągnięta, gdy wielkość
grupy jest równa .
<flash>file=Rp.1.72.swf|width=350|height=350</flash>
Dla tej wartości zmienna losowa ma rozkład skupiony w punktach oraz z prawdopodobieństwami
i .
Tak więc:
a zatem:
Tak więc średnio będzie potrzebne niecałe analiz. Oczywiście,
liczba analiz może być istotnie
większa, niemniej, stosując regułę 3-, możemy znaleźć górne "bezpieczne" ograniczenie na liczbę analiz.
Rzeczywiście, z nierówności Czebyszewa wiemy, że
zatem wystarczy
obliczyć odchylenie standardowe zmiennej losowej . Ponieważ jednak jest sumą niezależnych zmiennych
losowych o tym samym rozkładzie, to:
W naszym przypadku i , a więc
Teraz:
Można więc stwierdzić,
że z prawdopodobieństwem co najmniej
, liczba analiz będzie nie większa niż:
Ćwiczenie 7.5
Przypuśćmy, że uczestnik gry rzuca kolejno monetą symetryczną aż do momentu, kiedy uzyska pierwszego orła. W momencie tym gra się kończy, a uczestnik otrzymuje złotych, gdzie jest liczbą wszystkich rzutów, jakie wykonał. Interesuje nas oczekiwana wygrana (jest to istotne pytanie, bo jeżeli ta wygrana wynosiłaby - powiedzmy - , to pobierając właśnie złotych za prawo uczestnictwa w grze, mielibyśmy grę sprawiedliwą w tym sensie, że przy wielokrotnym jej powtarzaniu średni zysk, a zatem i średnia strata, wynosi 0).
Niech będzie wygraną gracza - przyjmuje ona wartości:
,
z prawdopodobieństwami:
.
Tak więc:
.
Zauważmy jednak, że mediana wynosi .
Ćwiczenie 7.6
Bardzo często musimy wyznaczyć kwantyl rozkładu, o którym mamy tylko częściowe, stablicowane wiadomości. Na przykład, wyznaczymy kwantyl rzędu w rozkładzie normalnym o dystrybuancie , stablicowanym w module 7. Mamy także informację, że rozkład ten ma gęstość, która jest funkcją parzystą.
Znajdujemy wewnątrz tablicy wartość , a następnie z jej obrzeży odczytujemy kwantyl . W tym przypadku .
Zauważmy, że z tablicy tej możemy bezpośrednio odczytywać jedynie kwantyle rzędów nie mniejszych niż . Jednak z parzystości funkcji gęstości od razu widać (naszkicuj wykres gęstości i pamiętaj, że dystrybuantę interpretuje się jako pole pod wykresem; alternatywnie, skorzystaj ze zmiany zmiennych w całce ), że dla każdego :
.
Zatem dla mamy:
i z określenia
kwantyla otrzymujemy:
.
Na przykład:
.
Ostrzeżenie. Niektóre (bardziej tradycyjne) tablice i pakiety komputerowe (wśród nich, oczywiście, Excel),
"ułatwiają" użytkownikowi życie i jako kwantyl rzędu podają inną wielkość, na przykład !!!
Zadanie 7.1
Włamywacz ma kluczy, z których
dokładnie jeden jest kluczem właściwym. Wybiera
on klucze losowo i nie pamięta, które z nich
były już próbowane. Oblicz średnią ilość prób
potrzebną do otwarcia drzwi.
Zadanie 7.2
Z urny zawierającej 5 kul niebieskich, 4 kule czarne
i 3 kule czerwone losujemy po parze kul, potem zwracamy je
z powrotem do urny, a następnie powtarzamy losowanie i tak dalej. Jaka jest
wartość średnia czasu oczekiwania na pojawienie się
pary kul tego samego koloru, gdy przy wyborze pary
losujemy kule: (a) ze zwracaniem, (b) bez zwracania?
Zadanie 7.3
Jaką opłatę powinien pobierać pan Kowalski z
przykładu 7.1, gdyby pozwalał
wielokrotnie powtarzać rzut (nie tylko jeden raz) po
wypadnięciu "jedynki"?
Zadanie 7.4
Pewien człowiek jeździ do pracy autobusem,
a następnie tramwajem, przy czym może korzystać z
dwóch linii tramwajowych: A lub B. Wiadomo ponadto, że autobus
jeździ średnio co 15 minut, tramwaje linii A - co 10
minut, a tramwaje linii B - co 20 minut oraz, że jeżdżą one
niezależnie od siebie. Średnio jak wiele czasu
spędza ten człowiek na przystankach?
Zadanie 7.5
Dwiema symetrycznymi kostkami sześciennymi
rzucono razy. [2] Oblicz nadzieję
matematyczną i wariancję ilości rzutów, w których
wypadła ta sama liczba oczek.
Zadanie 7.6
W ilu rzutach kostką do gry należy
spodziewać się pojawienia wszystkich sześciu ścianek?
Zadanie 7.7
Jaka jest oczekiwana objętość
graniastosłupa, jeżeli długości jego krawędzi są
liczbami wylosowanymi z odcinka ,
zgodnie z rozkładem jednostajnym?
Zadanie 7.8
Niech oznacza najmniejszą liczbę oczek
uzyskanych na kostce do gry w serii rzutów. Oblicz
oraz
.
Zadanie 7.9
Wykaż, że o ile istnieje nadzieja
matematyczna , to minimalizuje ona funkcję
zmiennej .
Zadanie 7.10 Oblicz prawdopodobieństwo tego, że wśród losowo wybranych noworodków, liczba dziewczynek różni się od liczby chłopców o co najmniej z liczby . Podaj rozwiązanie dla , oraz dla , zakładając, że urodziny chłopców i dziewczynek są tak samo prawdopodobne.
Zadanie 7.11 Ile razy należy rzucić monetą symetryczną, aby mieć co najmniej pewności, że stosunek ilości orłów do ilości wszystkich rzutów zawiera się w przedziale ?
Zadanie 7.12
Czy istnieje zmienna losowa o
następujących własnościach: ?
Zadanie 7.13
Analizując przykład zmiennej losowej przyjmującej
wartości:
, z
prawdopodobieństwami: ,
uzasadnij, że w ogólnej sytuacji nie jest
możliwe ulepszenie nierówności Czebyszewa.
Zadanie 7.14
Niech będzie ciągiem
zdarzeń niezależnych takich, że i niech oznacza odpowiednie funkcje
charakterystyczne. Wykaż, że:
gdzie .
Zadanie 7.15
Niech będzie -wymiarowym wektorem losowym. Wykaż, że:
Zadanie 7.16
Niech będą dane zmienna losowa i liczba
oraz niech . Dla
ciągu niezależnych zmiennych losowych
takich, że dla wszystkich , dla ustalonego definiujemy następującą wielkość:
(wielkość ta jest nazywana dystrybuantą empiryczną
i jest przykładem tak zwanego estymatora parametru
). Wykaż, że:
- jest zmienną losową dla każdego ,
- dla wszystkich (to znaczy, że estymator jest nieobciążony),
- (to znaczy, że estymator jest zgodny),
- .
Zadanie 7.17
Dla ciągu niezależnych zmiennych losowych o
tym samym rozkładzie, skończonej nadziei
matematycznej i wariancji , określamy
zmienne losowe
oraz
Wykaż, że jest estymatorem zgodnym i
nieobciążonym parametru , czyli
że:
- ,
- .
Udowodnij, że te same warunki zachodzą, gdy: