Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 7: Parametry rozkładów zmiennych losowych

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Ćwiczenia

Ćwiczenie 7.1

Jakie są nadzieja matematyczna i wariancja sumy oczek przy rzucie parą kostek do gry?

Niech oznacza sumę oczek uzyskanych na obu kostkach. Mamy obliczyć wartość oczekiwaną oraz wariancję .

Sposób pierwszy (na siłę). Można wyznaczyć rozkład zmiennej losowej i skorzystać ze wzorów określający nadzieję matematyczną i wariancję. Oczywiście, przyjmuje wartości



kolejno z prawdopodobieństwami:



Mamy więc:




Sposób drugi. jest sumą dwóch zmiennych losowych:



oznaczających liczby oczek na poszczególnych kostkach. Mają one więc ten sam rozkład skupiony w punktach z jednakowym prawdopodobieństwem . Zatem:



a więc korzystając z tego, że suma zmiennych losowych ma nadzieję matematyczną równą sumie nadziei składników (patrz twierdzenie 7.13), mamy:



Wariancja , a więc także , jest również łatwiejsza do obliczenia niż w poprzednim sposobie:




Tak więc, korzystając z twierdzenia 7.13:



Drugi z powyższych sposobów jest dość uniwersalny. Na przykład, możemy podobnie obliczyć średnią i wariancję sumy oczek otrzymanych przy wielokrotnym rzucie kostką. Za chwilę poznamy także bardziej interesujące zastosowania.

Ćwiczenie 7.2

Niech oznacza liczbę sukcesów w schemacie Bernoulliego. Obliczymy nadzieję matematyczną i wariancję .

Niech oznacza liczbę sukcesów w -tym doświadczeniu (). Zmienne mają taki sam rozkład dwupunktowy i są oczywiście niezależne. Co więcej, obliczyliśmy już nadzieję matematyczną i wariancję takich zmiennych (patrz przykład 7.5 i przykład 7.10). Mamy więc (dlaczego?):

Ćwiczenie 7.3

Doświadczenie wskazuje, że przy wielokrotnym rzucie monetą symetryczną, powinno być mniej więcej tyle samo orłów co reszek. Spróbujemy to teraz uzasadnić, szacując z góry prawdopodobieństwo tego, że różnica między liczbą orłów i reszek jest niezbyt duża.

Przypuśćmy, że wykonano 1000 rzutów. Niech oznacza ilość orłów, a więc jest ilością reszek. Zmienna losowa jest sumą zmiennych losowych o rozkładzie dwupunktowym i stąd:

Oszacujmy teraz z góry:

Na mocy wzoru 7.2 z twierdzenia 7.20 (nierówność Czebyszewa), jest ono nie większe niż . Może się wydawać, że prawdopodobieństwo to nie jest aż tak małe, jak wskazywałaby na to nasza intuicja, i w związku z tym wynik ten nie ma zbyt wielkiej wartości. Rzeczywiście, tak w istocie jest - nierówność Czebyszewa zachodzi bowiem dla dowolnej zmiennej losowej i z natury rzeczy szacowania przeprowadzone w jej dowodzie były bardzo grube. Jak się okaże, tak zwane centralne twierdzenie graniczne, które udowodnimy później, pozwoli uzyskać o wiele dokładniejszy, bardziej odpowiadający naszym wyobrażeniom wynik - okaże się mianowicie, że interesujące nas prawdopodobieństwo jest mniejsze niż

Ćwiczenie 7.4

W celu zbadania dużej populacji osób, podzielono je na grupy, a następnie pobrano od każdej osoby krew oraz przeprowadzano analizę łączną dla poszczególnych grup, wykonując odpowiedni test na próbkach powstałych przez zmieszanie krwi osób należących do tej samej grupy. Gdy w pewnej grupie wykryto wirus chorobowy, przeprowadzano odrębną analizę dla każdej osoby z tej grupy. Załóżmy, że liczebność populacji wynosi , liczność grup wynosi , zaś niech będzie liczbą grup (oczywiście ). Zakładamy też, że prawdopodobieństwo tego, że dany człowiek jest zarażony interesującym nas wirusem wynosi oraz że obecność wirusa u danej osoby jest niezależna od jego obecności u innych osób (jest to istotnie upraszczające założenie). Naszym zdaniem jest tak dobrać wielkość grupy , aby liczba wszystkich (bardzo kosztownych) analiz była, w pewnym sensie, minimalna.

Obliczymy najpierw nadzieję matematyczną liczby wszystkich analiz. Na pierwszy rzut oka wydaje się to dość trudnym zadaniem, gdyż nie jest łatwo wyznaczyć rozkład tej zmiennej losowej. Wykorzystamy jednak tutaj twierdzenie, że nadzieja matematyczna sumy zmiennych losowych jest równa sumie nadziei matematycznych poszczególnych składników. Niech będzie liczbą analiz przeprowadzonych w -tej grupie (). Liczba wszystkich analiz jest więc równa:



a stąd:



Zauważmy także, że wszystkie zmienne losowe mają taki sam rozkład - policzmy więc nadzieję matematyczną jednej z nich, na przykład . Zauważmy, że zmienna ta przyjmuje dwie wartości:


i


z prawdopodobieństwami odpowiednio:


(nie wykryto wirusa w grupie)


oraz


(przynajmniej u jednej osoby jest wirus).


W takim razie:



a zatem:



Wyraziliśmy więc jako funkcję zmiennej , zaś interesuje nas znalezienie wartości najmniejszej tej funkcji. Ze względu na dużą złożoność powyższego wzoru, jest to zadanie analitycznie trudne. Z drugiej strony, znając konkretne wartości oraz możemy to zadanie rozwiązać graficznie. Narysujmy, przykładowo, wykres dla i , w zależności od :


<flash>file=Rp.1.71.swf|width=350|height=350</flash>


Zmniejszając zakres do przedziału widzimy, że wartość minimalna zostaje osiągnięta, gdy wielkość grupy jest równa .


<flash>file=Rp.1.72.swf|width=350|height=350</flash>


Dla tej wartości zmienna losowa ma rozkład skupiony w punktach oraz z prawdopodobieństwami i . Tak więc:



a zatem:



Tak więc średnio będzie potrzebne niecałe analiz. Oczywiście, liczba analiz może być istotnie większa, niemniej, stosując regułę 3-, możemy znaleźć górne "bezpieczne" ograniczenie na liczbę analiz. Rzeczywiście, z nierówności Czebyszewa wiemy, że



zatem wystarczy obliczyć odchylenie standardowe zmiennej losowej . Ponieważ jednak jest sumą niezależnych zmiennych losowych o tym samym rozkładzie, to:



W naszym przypadku i , a więc



Teraz:



Można więc stwierdzić, że z prawdopodobieństwem co najmniej , liczba analiz będzie nie większa niż:



Ćwiczenie 7.5

Przypuśćmy, że uczestnik gry rzuca kolejno monetą symetryczną aż do momentu, kiedy uzyska pierwszego orła. W momencie tym gra się kończy, a uczestnik otrzymuje złotych, gdzie jest liczbą wszystkich rzutów, jakie wykonał. Interesuje nas oczekiwana wygrana (jest to istotne pytanie, bo jeżeli ta wygrana wynosiłaby - powiedzmy - , to pobierając właśnie złotych za prawo uczestnictwa w grze, mielibyśmy grę sprawiedliwą w tym sensie, że przy wielokrotnym jej powtarzaniu średni zysk, a zatem i średnia strata, wynosi 0).

Niech będzie wygraną gracza - przyjmuje ona wartości:



z prawdopodobieństwami:



Tak więc:



Zauważmy jednak, że mediana wynosi .

Ćwiczenie 7.6

Bardzo często musimy wyznaczyć kwantyl rozkładu, o którym mamy tylko częściowe, stablicowane wiadomości. Na przykład, wyznaczymy kwantyl rzędu w rozkładzie normalnym o dystrybuancie , stablicowanym w module 7. Mamy także informację, że rozkład ten ma gęstość, która jest funkcją parzystą.

Znajdujemy wewnątrz tablicy wartość , a następnie z jej obrzeży odczytujemy kwantyl . W tym przypadku .

Zauważmy, że z tablicy tej możemy bezpośrednio odczytywać jedynie kwantyle rzędów nie mniejszych niż . Jednak z parzystości funkcji gęstości od razu widać (naszkicuj wykres gęstości i pamiętaj, że dystrybuantę interpretuje się jako pole pod wykresem; alternatywnie, skorzystaj ze zmiany zmiennych w całce ), że dla każdego :



Zatem dla mamy:



i z określenia kwantyla otrzymujemy:



Na przykład:



Ostrzeżenie. Niektóre (bardziej tradycyjne) tablice i pakiety komputerowe (wśród nich, oczywiście, Excel), "ułatwiają" użytkownikowi życie i jako kwantyl rzędu podają inną wielkość, na przykład !!!


Zadanie 7.1
Włamywacz ma kluczy, z których dokładnie jeden jest kluczem właściwym. Wybiera on klucze losowo i nie pamięta, które z nich były już próbowane. Oblicz średnią ilość prób potrzebną do otwarcia drzwi.

Zadanie 7.2
Z urny zawierającej 5 kul niebieskich, 4 kule czarne i 3 kule czerwone losujemy po parze kul, potem zwracamy je z powrotem do urny, a następnie powtarzamy losowanie i tak dalej. Jaka jest wartość średnia czasu oczekiwania na pojawienie się pary kul tego samego koloru, gdy przy wyborze pary losujemy kule: (a) ze zwracaniem, (b) bez zwracania?

Zadanie 7.3
Jaką opłatę powinien pobierać pan Kowalski z przykładu 7.1, gdyby pozwalał wielokrotnie powtarzać rzut (nie tylko jeden raz) po wypadnięciu "jedynki"?

Zadanie 7.4
Pewien człowiek jeździ do pracy autobusem, a następnie tramwajem, przy czym może korzystać z dwóch linii tramwajowych: A lub B. Wiadomo ponadto, że autobus jeździ średnio co 15 minut, tramwaje linii A - co 10 minut, a tramwaje linii B - co 20 minut oraz, że jeżdżą one niezależnie od siebie. Średnio jak wiele czasu spędza ten człowiek na przystankach?

Zadanie 7.5
Dwiema symetrycznymi kostkami sześciennymi rzucono razy. [2] Oblicz nadzieję matematyczną i wariancję ilości rzutów, w których wypadła ta sama liczba oczek.

Zadanie 7.6
W ilu rzutach kostką do gry należy spodziewać się pojawienia wszystkich sześciu ścianek?

Zadanie 7.7
Jaka jest oczekiwana objętość graniastosłupa, jeżeli długości jego krawędzi są liczbami wylosowanymi z odcinka , zgodnie z rozkładem jednostajnym?

Zadanie 7.8
Niech oznacza najmniejszą liczbę oczek uzyskanych na kostce do gry w serii rzutów. Oblicz oraz .

Zadanie 7.9
Wykaż, że o ile istnieje nadzieja matematyczna , to minimalizuje ona funkcję zmiennej .

Zadanie 7.10 Oblicz prawdopodobieństwo tego, że wśród losowo wybranych noworodków, liczba dziewczynek różni się od liczby chłopców o co najmniej z liczby . Podaj rozwiązanie dla , oraz dla , zakładając, że urodziny chłopców i dziewczynek są tak samo prawdopodobne.

Zadanie 7.11 Ile razy należy rzucić monetą symetryczną, aby mieć co najmniej pewności, że stosunek ilości orłów do ilości wszystkich rzutów zawiera się w przedziale ?

Zadanie 7.12
Czy istnieje zmienna losowa o następujących własnościach: ?

Zadanie 7.13
Analizując przykład zmiennej losowej przyjmującej wartości: z prawdopodobieństwami: , uzasadnij, że w ogólnej sytuacji nie jest możliwe ulepszenie nierówności Czebyszewa.

Zadanie 7.14
Niech będzie ciągiem zdarzeń niezależnych takich, że i niech oznacza odpowiednie funkcje charakterystyczne. Wykaż, że:



gdzie

Zadanie 7.15
Niech będzie -wymiarowym wektorem losowym. Wykaż, że:


dla każdego

Zadanie 7.16
Niech będą dane zmienna losowa i liczba oraz niech . Dla ciągu niezależnych zmiennych losowych takich, że dla wszystkich , dla ustalonego definiujemy następującą wielkość:



(wielkość ta jest nazywana dystrybuantą empiryczną i jest przykładem tak zwanego estymatora parametru ). Wykaż, że:

  1. jest zmienną losową dla każdego ,
  2. dla wszystkich (to znaczy, że estymator jest nieobciążony),
  3. (to znaczy, że estymator jest zgodny),
  4. .
Wskazówka.

Zadanie 7.17
Dla ciągu niezależnych zmiennych losowych o tym samym rozkładzie, skończonej nadziei matematycznej i wariancji , określamy zmienne losowe



oraz



Wykaż, że jest estymatorem zgodnym i nieobciążonym parametru , czyli że:

Udowodnij, że te same warunki zachodzą, gdy: