Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 14: Komputerowe metody statystyki

Z Studia Informatyczne
Wersja z dnia 11:10, 22 sie 2006 autorstwa Arek (dyskusja | edycje)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacjiPrzejdź do wyszukiwania

Ćwiczenia i zadania

Ćwiczenie

Sprawdzimy graficznie jakość liczb pseudolosowych wylosowanych z rozkładu normalnego, przy pomocy programu Maple.

Losujemy w tym celu próbkę prostą, powiedzmy 300 elementową próbkę z rozkładu N(20,2), a następnie sporządzamy na jej podstawie histogram, który umieszczamy na wspólnym rysunku z gęstością danego rozkładu:

tutaj rysunek 141.eps

Ćwiczenie

Podczas losowania ciągów liczb pseudolosowych bardzo ważną kwestią jest to, aby można było te liczby traktować jako realizacje niezależnych zmiennych losowych. Nie omawiamy tutaj odpowiednich testów statystycznych, jednak prezentujemy pewną metodę graficzną, pomocną przy ocenie tej niezależności. Polega ona na zaznaczaniu na wspólnym rysunku punktów postaci (xik,xi), gdzie k1 jest ustalone, zaś xi są wylosowanymi liczbami. Jeżeli otrzymany rysunek nie wykazuje żadnych prawidłowości, nie ma podstaw do kwestionowania niezależności.

Zbadamy 200-elementową próbkę, wylosowaną przez program Maple z rozkładu jednostajnego na przedziale (0,1). Histogram narysowany na podstawie tej próbki potwierdza raczej charakter rozkładu:

tutaj rysunek 142.eps

Przyjmując k=1 rysujemy 199 par liczb (xi1,xi):

tutaj rysunek 143.eps

Ćwiczenie

Do uzyskiwania liczb pseudolosowych można używać także innych algorytmów. Na przykład, na pierwszy rzut oka wydaje się, że następujący algorytm może być lepszy od algorytmu omawianego podczas wykładu: ustalamy ziarno X0 z odcinka (0,1), a kolejne liczby otrzymujemy z poprzednich przez podnoszenie do kwadratu, wymnażanie przez 103 i branie części ułamkowej:

xn+1=103xn2103xn2,

gdzie y oznacza część całkowitą liczby y.

Wykorzystując program Maple oraz ziarno X0=0.123456, generujemy 200 liczb pseudolosowych, następnie na ich podstawie rysujemy histogram, a także sprawdzamy testem graficznym ich niezależność:

tutaj rysunek 144.eps

tutaj rysunek 145.eps

Jak widać, do tej pory wszystko wygląda dobrze -- wylosujmy jednak 2000 liczb i narysujmy dla nich histogram:

tutaj rysunek 146.eps

Tak więc, badając dokładniej nasz generator okazało się, że od pewnego miejsca wszystkie losowane liczby są równe 0 -- po chwili zastanowienia większość studentów z pewnością potrafi wyjaśnić, dlaczego tak się stało.

Ćwiczenie

Dość często zdarza się, że w praktycznych zastosowaniach pojawiają się tak zwane mieszaniny rozkładów. Na przykład, badając wydzielanie pewnej substancji przez bakterie popełnia się błąd polegający na tym, że zamiast od pojedynczej bakterii pobiera się tę substancję od dwóch bakterii. Niech ε będzie prawdopodobieństwem popełnia tego błędu, zaś f1 oraz f2 -- gęstościami rozkładów substancji wydzielanych odpowiednio przez pojedynczą bakterię oraz przez dwie złączone bakterie. Wtedy rozkład o gęstości:

(1ε)f1+εf2

odpowiada wielkości pobranej substancji -- jest to właśnie mieszanina rozkładów o gęstościach f1 i f2. Przeprowadzimy eksperyment polegający na losowaniu próbki z mieszaniny rozkładów normalnych, a następnie dla tak dobranej próbki znajdziemy jądrowy estymator gęstości i porównamy go z gęstością wyjściową.

Przyjmijmy, że:

f1N(5,1),f2N(10,1) oraz ε=0.04.

Losowanie liczb z mieszaniny rozkładów prowadzimy następująco: wylosujemy liczbę z rozkładu dwupunktowego (0,1,ε), a następnie jeżeli wypadło 0, to losujemy element z rozkładu pierwszego, zaś jeżeli wypadła 1, to losujemy element z rozkładu drugiego.

Oto lista 200 wylosowanych elementów:
[2mm] 5.25, 3.91, 5.06, 4.29, 4.54, 5.21, 4.01, 5.77, 6.21, 4.70, 4.04, 5.0, 4.90, 4.38, 5.76, 4.23, 5.47, 5.13, 4.49, 6.36, 6.65, 4.95, 5.10, 4.69, 5.93, 5.76, 3.98, 6.51, 10.5, 10.4, 4.98, 3.84, 5.16, 4.53, 5.55, 4.95, 3.58, 5.15, 4.37, 4.50, 4.75, 6.32, 6.33, 3.83, 3.76, 5.07, 5.39, 5.05, 3.74, 9.54, 3.04, 6.38, 4.82, 3.70, 6.01, 5.82, 8.48, 4.40, 6.61, 5.98, 4.50, 4.74, 5.56, 4.58, 4.67, 4.26, 7.04, 6.24, 6.38, 6.59, 4.29, 6.28, 6.26, 11.4, 5.46, 9.93, 5.29, 4.78, 5.69, 5.14, 4.55, 5.18, 5.25, 7.90, 3.44, 5.02, 5.49, 5.43, 4.69, 6.59, 3.81, 4.76, 5.22, 5.61, 4.28, 5.44, 4.83, 5.51, 3.17, 5.76, 5.0, 4.32, 6.16, 5.27, 4.33, 5.27, 4.42, 5.36, 4.57, 5.08, 4.47, 2.77, 4.86, 11.1, 5.75, 5.13, 5.26, 5.40, 5.34, 4.30, 3.08, 5.22, 5.0, 4.20, 4.57, 7.64, 5.36, 5.83, 9.91, 3.82, 5.58, 5.37, 9.39, 4.86, 10.8, 11.4, 5.38, 5.60, 4.41, 5.74, 5.97, 4.12, 6.12, 5.59, 4.17, 4.39, 5.84, 3.83, 3.42, 6.11, 6.01, 3.40, 5.12, 6.12, 4.76, 5.30, 5.46, 5.58, 3.39, 5.13, 4.40, 4.31, 6.24, 4.23, 3.93, 10.3, 6.20, 4.29, 10.8, 7.17, 5.60, 5.96, 9.79, 2.97, 7.16, 4.51, 4.96, 5.82, 5.56, 6.24, 4.67, 4.13, 5.19, 6.47, 7.42, 5.0, 3.90, 5.61, 5.18, 5.99, 3.68, 4.02, 6.99, 5.33, 7.02, 6.13, 3.94, 5.12, 5.41, 4.32.
[2mm]

Na podstawie powyższej próby obliczamy:

σ^1.6222,h1.622220050.5622.

Teraz na wspólnym rysunku zaznaczamy wyjściową gęstość mieszaniny rozkładów (kolor niebieski) oraz jądrowy estymator gęstości (kolor czerwony):

tutaj rysunek 151.eps

. . .

Ćwiczenie

Opracuj procedurę pozyskiwania liczb pseudolosowych z danego rozkładu dyskretnego, za pomocą liczb pochodzących z rozkładu jednostajnego na przedziale (0,1).

Ćwiczenie

Opracowaną w powyższym zadaniu metodą, wylosuj 100 liczb z rozkładu dwumianowego o parametrach n=10 i p=0.2.

Ćwiczenie

Wyjaśnij powód, dla którego algorytm opisany w ćwiczeniu Uzupelnic c141| nie może być użyty do losowania liczb pseudolosowych.

Ćwiczenie

Na podstawie następującej próbki prostej z nieznanego rozkładu:

29,23,24,27,28,28,29,30,

wyznacz medianę tego rozkładu oraz jej 90% przedział ufności.

Ćwiczenie

Przeprowadź dowód tego, że estymator jądrowy jest gęstością.

Ćwiczenie

Powtórz ćwiczenie Uzupelnic cw145|, używając innych jąder poznanych na wykładzie.

Ćwiczenie

Wylosuj 100-elementową próbkę z rozkładu wykładniczego o średniej λ=0.2 i na jej podstawie narysuj jądrowy estymator gęstości. Jaka jest podstawowa wada tego estymatora? Zaproponuj taką modyfikację metody estymacji jądrowej (zmiana definicji jądra), która pozwoli przezwyciężyć tę trudność.

Ćwiczenie

Dla danych z GPW podanych w ćwiczeniu Uzupelnic cwgpw|, naszkicuj jądrowy estymator gęstości, a następnie, na tym samym rysunku, umieść wykres rozkładu normalnego o parametrach wyestymowanych na podstawie danej próby.