Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 14: Komputerowe metody statystyki: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Moskala (dyskusja | edycje)
Nie podano opisu zmian
Pitab (dyskusja | edycje)
Linia 1: Linia 1:
==Ćwiczenia i zadania==
==Ćwiczenia==


{{cwiczenie|||
{{cwiczenie|14.1|cw 14.1|
Sprawdzimy graficznie jakość liczb pseudolosowych
Sprawdzimy graficznie jakość liczb pseudolosowych
wylosowanych z rozkładu normalnego, przy pomocy programu Maple.
wylosowanych z rozkładu normalnego, przy pomocy programu Maple.
Linia 13: Linia 13:
</center>
</center>


{{cwiczenie|||
{{cwiczenie|14.2|cw 14.2|
Podczas losowania ciągów liczb pseudolosowych
Podczas losowania ciągów liczb pseudolosowych
bardzo ważną kwestią jest to, aby można było te  liczby
bardzo ważną kwestią jest to, aby można było te  liczby
Linia 36: Linia 36:


Przyjmując <math>\displaystyle k= 1</math> rysujemy 199 par liczb <math>\displaystyle (x_{i-1},x_i)</math>:
Przyjmując <math>\displaystyle k= 1</math> rysujemy 199 par liczb <math>\displaystyle (x_{i-1},x_i)</math>:
<center>
<center>
<flash>file=Rp.1.143.swf|width=350|height=350</flash>   
<flash>file=Rp.1.143.swf|width=350|height=350</flash>   
</center>
</center>


{{cwiczenie|||
{{cwiczenie|14.3|cw 14.3|
Do uzyskiwania liczb pseudolosowych można używać także innych algorytmów. Na przykład,
Do uzyskiwania liczb pseudolosowych można używać także innych algorytmów. Na przykład,
na pierwszy rzut oka wydaje się, że następujący algorytm może być lepszy od algorytmu omawianego podczas wykładu:
na pierwszy rzut oka wydaje się, że następujący algorytm może być lepszy od algorytmu omawianego podczas wykładu:
ustalamy ziarno <math>\displaystyle X_0</math> z odcinka <math>\displaystyle (0,1)</math>, a kolejne liczby otrzymujemy z poprzednich przez podnoszenie do kwadratu,
ustalamy ziarno <math>\displaystyle X_0</math> z odcinka <math>\displaystyle (0,1)</math>, a kolejne liczby otrzymujemy z poprzednich przez podnoszenie do kwadratu,
wymnażanie przez <math>\displaystyle 10^3</math> i branie części ułamkowej:
wymnażanie przez <math>\displaystyle 10^3</math> i branie części ułamkowej:
<center><math>\displaystyle  
<center><math>\displaystyle  
x_{n+1} = 10^3x_n^2 - \lfloor10^3x_n^2\rfloor,
x_{n+1} = 10^3x_n^2 - \lfloor10^3x_n^2\rfloor,
</math></center>
</math></center>


gdzie <math>\displaystyle \lfloor y\rfloor</math> oznacza część całkowitą liczby <math>\displaystyle y</math>.
gdzie <math>\displaystyle \lfloor y\rfloor</math> oznacza część całkowitą liczby <math>\displaystyle y</math>.
Linia 55: Linia 59:
200 liczb pseudolosowych, następnie na ich podstawie rysujemy histogram,
200 liczb pseudolosowych, następnie na ich podstawie rysujemy histogram,
a także sprawdzamy testem graficznym ich niezależność:
a także sprawdzamy testem graficznym ich niezależność:
<center>
<center>
<flash>file=Rp.1.144.swf|width=350|height=350</flash>   
<flash>file=Rp.1.144.swf|width=350|height=350</flash>   
Linia 63: Linia 68:
</center>
</center>


Jak widać, do tej pory wszystko wygląda dobrze -- wylosujmy jednak 2000 liczb i narysujmy dla nich histogram:
Jak widać, do tej pory wszystko wygląda dobrze - wylosujmy jednak 2000 liczb i narysujmy dla nich histogram:


<center>
<center>
Linia 70: Linia 75:


Tak więc, badając dokładniej nasz generator okazało się, że
Tak więc, badając dokładniej nasz generator okazało się, że
od pewnego miejsca wszystkie losowane liczby są równe 0 --
od pewnego miejsca wszystkie losowane liczby są równe 0 -
po chwili zastanowienia większość studentów z pewnością
po chwili zastanowienia większość studentów z pewnością
potrafi wyjaśnić, dlaczego tak się stało.
potrafi wyjaśnić, dlaczego tak się stało.


{{cwiczenie|||
{{cwiczenie|14.4|cw 14.4|
Dość często zdarza się, że w praktycznych zastosowaniach pojawiają się tak zwane mieszaniny rozkładów.
Dość często zdarza się, że w praktycznych zastosowaniach pojawiają się tak zwane mieszaniny rozkładów.
Na przykład, badając wydzielanie pewnej substancji przez bakterie popełnia się błąd polegający na tym, że zamiast od
Na przykład, badając wydzielanie pewnej substancji przez bakterie popełnia się błąd polegający na tym, że zamiast od
pojedynczej bakterii pobiera się tę substancję od dwóch bakterii. Niech <math>\displaystyle \varepsilon</math> będzie prawdopodobieństwem popełnia tego
pojedynczej bakterii pobiera się tę substancję od dwóch bakterii. Niech <math>\displaystyle \varepsilon</math> będzie prawdopodobieństwem popełnia tego
błędu, zaś <math>\displaystyle f_1</math> oraz <math>\displaystyle f_2</math> -- gęstościami rozkładów substancji wydzielanych odpowiednio przez pojedynczą bakterię
błędu, zaś <math>\displaystyle f_1</math> oraz <math>\displaystyle f_2</math> - gęstościami rozkładów substancji wydzielanych odpowiednio przez pojedynczą bakterię
oraz przez dwie złączone
oraz przez dwie złączone
bakterie. Wtedy rozkład o gęstości:
bakterie. Wtedy rozkład o gęstości:
<center><math>\displaystyle (1-\varepsilon)f_1 + \varepsilon f_2</math></center>
<center><math>\displaystyle (1-\varepsilon)f_1 + \varepsilon f_2</math></center>
odpowiada
odpowiada
wielkości pobranej substancji -- jest to właśnie mieszanina rozkładów o gęstościach <math>\displaystyle f_1</math> i <math>\displaystyle f_2</math>. Przeprowadzimy eksperyment polegający
wielkości pobranej substancji - jest to właśnie mieszanina rozkładów o gęstościach <math>\displaystyle f_1</math> i <math>\displaystyle f_2</math>. Przeprowadzimy eksperyment polegający
na losowaniu próbki z mieszaniny rozkładów normalnych, a następnie dla tak dobranej próbki znajdziemy jądrowy estymator
na losowaniu próbki z mieszaniny rozkładów normalnych, a następnie dla tak dobranej próbki znajdziemy jądrowy estymator
gęstości i porównamy go z gęstością wyjściową.
gęstości i porównamy go z gęstością wyjściową.
Linia 89: Linia 98:
}}
}}


Przyjmijmy, że: <center><math>\displaystyle f_1 \in N(5,1),\;\;f_2 \in N(10,1)\;\; </math> oraz <math>\displaystyle  \;\;\varepsilon = 0.04.</math></center>
Przyjmijmy, że:
 
 
<center><math>\displaystyle f_1 \in N(5,1),\;\;f_2 \in N(10,1)\;\; </math> oraz <math>\displaystyle  \;\;\varepsilon = 0.04.</math></center>
 


Losowanie liczb z mieszaniny rozkładów prowadzimy następująco: wylosujemy liczbę z rozkładu dwupunktowego <math>\displaystyle (0,1,\varepsilon)</math>,
Losowanie liczb z mieszaniny rozkładów prowadzimy następująco: wylosujemy liczbę z rozkładu dwupunktowego <math>\displaystyle (0,1,\varepsilon)</math>,
Linia 95: Linia 108:
losujemy element z rozkładu drugiego.
losujemy element z rozkładu drugiego.


Oto lista 200  wylosowanych elementów:<br>[2mm]
Oto lista 200  wylosowanych elementów:<br>
 
5.25, 3.91, 5.06, 4.29, 4.54, 5.21, 4.01, 5.77, 6.21, 4.70, 4.04,
5.25, 3.91, 5.06, 4.29, 4.54, 5.21, 4.01, 5.77, 6.21, 4.70, 4.04,
5.0, 4.90, 4.38, 5.76, 4.23, 5.47, 5.13, 4.49, 6.36, 6.65, 4.95,  5.10, 4.69, 5.93, 5.76, 3.98, 6.51, 10.5, 10.4, 4.98, 3.84, 5.16, 4.53,
5.0, 4.90, 4.38, 5.76, 4.23, 5.47, 5.13, 4.49, 6.36, 6.65, 4.95,  5.10, 4.69, 5.93, 5.76, 3.98, 6.51, 10.5, 10.4, 4.98, 3.84, 5.16, 4.53,
Linia 112: Linia 126:


Na podstawie powyższej próby obliczamy:
Na podstawie powyższej próby obliczamy:
<center><math>\displaystyle \hat{\sigma} \approx 1.6222,\;\; h \approx  \frac{1.6222}{\sqrt[5]{200}} \approx 0.5622.</math></center>
<center><math>\displaystyle \hat{\sigma} \approx 1.6222,\;\; h \approx  \frac{1.6222}{\sqrt[5]{200}} \approx 0.5622.</math></center>


Teraz na wspólnym rysunku zaznaczamy wyjściową gęstość mieszaniny rozkładów (kolor niebieski) oraz
Teraz na wspólnym rysunku zaznaczamy wyjściową gęstość mieszaniny rozkładów (kolor niebieski) oraz
Linia 121: Linia 138:
</center>
</center>


'''. . .'''
==={{kotwica|zad 14.1|Zadanie 14.1}}===
 
{{cwiczenie|||
Opracuj procedurę pozyskiwania liczb pseudolosowych z danego rozkładu dyskretnego, za pomocą liczb
Opracuj procedurę pozyskiwania liczb pseudolosowych z danego rozkładu dyskretnego, za pomocą liczb
pochodzących z rozkładu
pochodzących z rozkładu
jednostajnego na przedziale <math>\displaystyle (0,1)</math>.
jednostajnego na przedziale <math>\displaystyle (0,1)</math>.


}}
==={{kotwica|zad 14.2|Zadanie 14.2}}===
 
{{cwiczenie|||
Opracowaną w powyższym zadaniu metodą, wylosuj 100 liczb z rozkładu dwumianowego o parametrach <math>\displaystyle n = 10</math> i <math>\displaystyle p = 0.2</math>.
Opracowaną w powyższym zadaniu metodą, wylosuj 100 liczb z rozkładu dwumianowego o parametrach <math>\displaystyle n = 10</math> i <math>\displaystyle p = 0.2</math>.


}}
==={{kotwica|zad 14.3|Zadanie 14.3}}===
 
{{cwiczenie|||
Wyjaśnij powód, dla którego algorytm opisany w ćwiczeniu
Wyjaśnij powód, dla którego algorytm opisany w ćwiczeniu
[[##c141|Uzupelnic c141|]] nie może być użyty do losowania liczb pseudolosowych.
[[#cw_14.3|14.3]] nie może być użyty do losowania liczb pseudolosowych.
}}


{{cwiczenie|||
==={{kotwica|zad 14.4|Zadanie 14.4}}===
Na podstawie następującej próbki prostej z nieznanego rozkładu:
Na podstawie następującej próbki prostej z nieznanego rozkładu:
<center><math>\displaystyle 29,\; 23,\; 24,\; 27,\; 28,\; 28,\; 29, \;30,</math></center>
<center><math>\displaystyle 29,\; 23,\; 24,\; 27,\; 28,\; 28,\; 29, \;30,</math></center>


wyznacz medianę tego rozkładu oraz jej <math>\displaystyle 90\%</math> przedział ufności.
wyznacz medianę tego rozkładu oraz jej <math>\displaystyle 90\%</math> przedział ufności.


}}
==={{kotwica|zad 14.5|Zadanie 14.5}}===
 
{{cwiczenie|||
Przeprowadź dowód tego, że estymator jądrowy jest gęstością.
Przeprowadź dowód tego, że estymator jądrowy jest gęstością.


}}
==={{kotwica|zad 14.6|Zadanie 14.6}}===
 
Powtórz ćwiczenie [[#cw14.4|14.4]], używając innych jąder poznanych na wykładzie.
{{cwiczenie|||
Powtórz ćwiczenie [[##cw145|Uzupelnic cw145|]], używając innych jąder poznanych na wykładzie.
 
}}


{{cwiczenie|||
==={{kotwica|zad 14.7|Zadanie 14.7}}===
Wylosuj 100-elementową próbkę z rozkładu wykładniczego o średniej <math>\displaystyle \lambda = 0.2</math>
Wylosuj 100-elementową próbkę z rozkładu wykładniczego o średniej <math>\displaystyle \lambda = 0.2</math>
i na jej podstawie narysuj jądrowy estymator gęstości. Jaka jest podstawowa wada tego estymatora? Zaproponuj taką
i na jej podstawie narysuj jądrowy estymator gęstości. Jaka jest podstawowa wada tego estymatora? Zaproponuj taką
modyfikację metody estymacji jądrowej (zmiana definicji jądra), która pozwoli przezwyciężyć tę trudność.
modyfikację metody estymacji jądrowej (zmiana definicji jądra), która pozwoli przezwyciężyć tę trudność.


}}
==={{kotwica|zad 14.8|Zadanie 14.8}}===
 
Dla danych z GPW podanych w ćwiczeniu [[Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 1: Wstęp#cw1.4|1.4]],
{{cwiczenie|||
Dla danych z GPW podanych w ćwiczeniu [[##cwgpw|Uzupelnic cwgpw|]],
naszkicuj jądrowy estymator gęstości, a następnie, na tym samym rysunku, umieść wykres rozkładu normalnego o parametrach
naszkicuj jądrowy estymator gęstości, a następnie, na tym samym rysunku, umieść wykres rozkładu normalnego o parametrach
wyestymowanych na podstawie danej próby.
wyestymowanych na podstawie danej próby.
}}

Wersja z 13:48, 24 sie 2006

Ćwiczenia

Ćwiczenie 14.1

Sprawdzimy graficznie jakość liczb pseudolosowych wylosowanych z rozkładu normalnego, przy pomocy programu Maple.

Losujemy w tym celu próbkę prostą, powiedzmy 300 elementową próbkę z rozkładu N(20,2), a następnie sporządzamy na jej podstawie histogram, który umieszczamy na wspólnym rysunku z gęstością danego rozkładu:

<flash>file=Rp.1.141.swf|width=350|height=350</flash>

Ćwiczenie 14.2

Podczas losowania ciągów liczb pseudolosowych bardzo ważną kwestią jest to, aby można było te liczby traktować jako realizacje niezależnych zmiennych losowych. Nie omawiamy tutaj odpowiednich testów statystycznych, jednak prezentujemy pewną metodę graficzną, pomocną przy ocenie tej niezależności. Polega ona na zaznaczaniu na wspólnym rysunku punktów postaci (xik,xi), gdzie k1 jest ustalone, zaś xi są wylosowanymi liczbami. Jeżeli otrzymany rysunek nie wykazuje żadnych prawidłowości, nie ma podstaw do kwestionowania niezależności.

Zbadamy 200-elementową próbkę, wylosowaną przez program Maple z rozkładu jednostajnego na przedziale (0,1). Histogram narysowany na podstawie tej próbki potwierdza raczej charakter rozkładu:

<flash>file=Rp.1.142.swf|width=350|height=350</flash>

Przyjmując k=1 rysujemy 199 par liczb (xi1,xi):

<flash>file=Rp.1.143.swf|width=350|height=350</flash>

Ćwiczenie 14.3

Do uzyskiwania liczb pseudolosowych można używać także innych algorytmów. Na przykład, na pierwszy rzut oka wydaje się, że następujący algorytm może być lepszy od algorytmu omawianego podczas wykładu: ustalamy ziarno X0 z odcinka (0,1), a kolejne liczby otrzymujemy z poprzednich przez podnoszenie do kwadratu, wymnażanie przez 103 i branie części ułamkowej:


xn+1=103xn2103xn2,


gdzie y oznacza część całkowitą liczby y.

Wykorzystując program Maple oraz ziarno X0=0.123456, generujemy 200 liczb pseudolosowych, następnie na ich podstawie rysujemy histogram, a także sprawdzamy testem graficznym ich niezależność:

<flash>file=Rp.1.144.swf|width=350|height=350</flash>

<flash>file=Rp.1.145.swf|width=350|height=350</flash>

Jak widać, do tej pory wszystko wygląda dobrze - wylosujmy jednak 2000 liczb i narysujmy dla nich histogram:

<flash>file=Rp.1.146.swf|width=350|height=350</flash>

Tak więc, badając dokładniej nasz generator okazało się, że od pewnego miejsca wszystkie losowane liczby są równe 0 - po chwili zastanowienia większość studentów z pewnością potrafi wyjaśnić, dlaczego tak się stało.

Ćwiczenie 14.4

Dość często zdarza się, że w praktycznych zastosowaniach pojawiają się tak zwane mieszaniny rozkładów. Na przykład, badając wydzielanie pewnej substancji przez bakterie popełnia się błąd polegający na tym, że zamiast od pojedynczej bakterii pobiera się tę substancję od dwóch bakterii. Niech ε będzie prawdopodobieństwem popełnia tego błędu, zaś f1 oraz f2 - gęstościami rozkładów substancji wydzielanych odpowiednio przez pojedynczą bakterię oraz przez dwie złączone bakterie. Wtedy rozkład o gęstości:


(1ε)f1+εf2


odpowiada wielkości pobranej substancji - jest to właśnie mieszanina rozkładów o gęstościach f1 i f2. Przeprowadzimy eksperyment polegający na losowaniu próbki z mieszaniny rozkładów normalnych, a następnie dla tak dobranej próbki znajdziemy jądrowy estymator gęstości i porównamy go z gęstością wyjściową.

Przyjmijmy, że:


f1N(5,1),f2N(10,1) oraz ε=0.04.


Losowanie liczb z mieszaniny rozkładów prowadzimy następująco: wylosujemy liczbę z rozkładu dwupunktowego (0,1,ε), a następnie jeżeli wypadło 0, to losujemy element z rozkładu pierwszego, zaś jeżeli wypadła 1, to losujemy element z rozkładu drugiego.

Oto lista 200 wylosowanych elementów:

5.25, 3.91, 5.06, 4.29, 4.54, 5.21, 4.01, 5.77, 6.21, 4.70, 4.04, 5.0, 4.90, 4.38, 5.76, 4.23, 5.47, 5.13, 4.49, 6.36, 6.65, 4.95, 5.10, 4.69, 5.93, 5.76, 3.98, 6.51, 10.5, 10.4, 4.98, 3.84, 5.16, 4.53, 5.55, 4.95, 3.58, 5.15, 4.37, 4.50, 4.75, 6.32, 6.33, 3.83, 3.76, 5.07, 5.39, 5.05, 3.74, 9.54, 3.04, 6.38, 4.82, 3.70, 6.01, 5.82, 8.48, 4.40, 6.61, 5.98, 4.50, 4.74, 5.56, 4.58, 4.67, 4.26, 7.04, 6.24, 6.38, 6.59, 4.29, 6.28, 6.26, 11.4, 5.46, 9.93, 5.29, 4.78, 5.69, 5.14, 4.55, 5.18, 5.25, 7.90, 3.44, 5.02, 5.49, 5.43, 4.69, 6.59, 3.81, 4.76, 5.22, 5.61, 4.28, 5.44, 4.83, 5.51, 3.17, 5.76, 5.0, 4.32, 6.16, 5.27, 4.33, 5.27, 4.42, 5.36, 4.57, 5.08, 4.47, 2.77, 4.86, 11.1, 5.75, 5.13, 5.26, 5.40, 5.34, 4.30, 3.08, 5.22, 5.0, 4.20, 4.57, 7.64, 5.36, 5.83, 9.91, 3.82, 5.58, 5.37, 9.39, 4.86, 10.8, 11.4, 5.38, 5.60, 4.41, 5.74, 5.97, 4.12, 6.12, 5.59, 4.17, 4.39, 5.84, 3.83, 3.42, 6.11, 6.01, 3.40, 5.12, 6.12, 4.76, 5.30, 5.46, 5.58, 3.39, 5.13, 4.40, 4.31, 6.24, 4.23, 3.93, 10.3, 6.20, 4.29, 10.8, 7.17, 5.60, 5.96, 9.79, 2.97, 7.16, 4.51, 4.96, 5.82, 5.56, 6.24, 4.67, 4.13, 5.19, 6.47, 7.42, 5.0, 3.90, 5.61, 5.18, 5.99, 3.68, 4.02, 6.99, 5.33, 7.02, 6.13, 3.94, 5.12, 5.41, 4.32.
[2mm]

Na podstawie powyższej próby obliczamy:


σ^1.6222,h1.622220050.5622.


Teraz na wspólnym rysunku zaznaczamy wyjściową gęstość mieszaniny rozkładów (kolor niebieski) oraz jądrowy estymator gęstości (kolor czerwony):

<flash>file=Rp.1.151.swf|width=350|height=350</flash>

Zadanie 14.1

Opracuj procedurę pozyskiwania liczb pseudolosowych z danego rozkładu dyskretnego, za pomocą liczb pochodzących z rozkładu jednostajnego na przedziale (0,1).

Zadanie 14.2

Opracowaną w powyższym zadaniu metodą, wylosuj 100 liczb z rozkładu dwumianowego o parametrach n=10 i p=0.2.

Zadanie 14.3

Wyjaśnij powód, dla którego algorytm opisany w ćwiczeniu 14.3 nie może być użyty do losowania liczb pseudolosowych.

Zadanie 14.4

Na podstawie następującej próbki prostej z nieznanego rozkładu:


29,23,24,27,28,28,29,30,


wyznacz medianę tego rozkładu oraz jej 90% przedział ufności.

Zadanie 14.5

Przeprowadź dowód tego, że estymator jądrowy jest gęstością.

Zadanie 14.6

Powtórz ćwiczenie 14.4, używając innych jąder poznanych na wykładzie.

Zadanie 14.7

Wylosuj 100-elementową próbkę z rozkładu wykładniczego o średniej λ=0.2 i na jej podstawie narysuj jądrowy estymator gęstości. Jaka jest podstawowa wada tego estymatora? Zaproponuj taką modyfikację metody estymacji jądrowej (zmiana definicji jądra), która pozwoli przezwyciężyć tę trudność.

Zadanie 14.8

Dla danych z GPW podanych w ćwiczeniu 1.4, naszkicuj jądrowy estymator gęstości, a następnie, na tym samym rysunku, umieść wykres rozkładu normalnego o parametrach wyestymowanych na podstawie danej próby.