Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 11: Wnioskowanie statystyczne: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Arek (dyskusja | edycje)
Nie podano opisu zmian
 
Pitab (dyskusja | edycje)
Linia 1: Linia 1:
==Ćwiczenia i zadania==
==Ćwiczenia==


{{cwiczenie|||
{{cwiczenie|11.1|cw 11.1|
Przypuśćmy, że próbka prosta pochodzi z rozkładu jednostajnego na odcinku <math>\displaystyle (0,a)</math>, gdzie <math>\displaystyle a > 0 </math>
Przypuśćmy, że próbka prosta pochodzi z rozkładu jednostajnego na odcinku <math>\displaystyle (0,a)</math>, gdzie <math>\displaystyle a > 0 </math>
jest nieznanym parametrem. Zastanowimy się, co może być "dobrym" estymatorem parametru <math>\displaystyle a</math>.
jest nieznanym parametrem. Zastanowimy się, co może być "dobrym" estymatorem parametru <math>\displaystyle a</math>.
Linia 8: Linia 8:


Jako sensowne przybliżenie <math>\displaystyle a</math> można wziąć największy element próbki, czyli statystykę:
Jako sensowne przybliżenie <math>\displaystyle a</math> można wziąć największy element próbki, czyli statystykę:
<center><math>\displaystyle  
<center><math>\displaystyle  
T( \displaystyle x_1, \dots, x_n\displaystyle  ) = \max \{ \displaystyle x_1, \dots, x_n\displaystyle  \}.
T( \displaystyle x_1, \dots, x_n\displaystyle  ) = \max \{ \displaystyle x_1, \dots, x_n\displaystyle  \}.
</math></center>
</math></center>


Można udowodnić, że jest to estymator zgodny. Sprawdzimy, czy jest on także nieobciążony.
Można udowodnić, że jest to estymator zgodny. Sprawdzimy, czy jest on także nieobciążony.


Aby obliczyć nadzieję matematyczną zmiennej losowej <math>\displaystyle \max \{ \displaystyle X_1, \dots, X_n\displaystyle  \}</math>, wyznaczymy najpierw dystrybuantę <math>\displaystyle F</math>
Aby obliczyć nadzieję matematyczną zmiennej losowej <math>\displaystyle \max \{ \displaystyle X_1, \dots, X_n\displaystyle  \}</math>, wyznaczymy najpierw dystrybuantę <math>\displaystyle F</math>
oraz gęstość <math>\displaystyle f</math> tej zmiennej, a następnie wykorzystamy wzór (patrz definicja [[##tmpwl|Uzupelnic tmpwl|]]):
oraz gęstość <math>\displaystyle f</math> tej zmiennej, a następnie wykorzystamy wzór (patrz definicja [[Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych#def_7.22|7.22]]):
 
 
<center><math>\displaystyle {\Bbb E}(\max \{ \displaystyle X_1, \dots, X_n\displaystyle  \}) = \int_{-\infty}^\infty x f(x)\, dx.</math></center>
<center><math>\displaystyle {\Bbb E}(\max \{ \displaystyle X_1, \dots, X_n\displaystyle  \}) = \int_{-\infty}^\infty x f(x)\, dx.</math></center>


Oczywiście, z określenia naszej zmiennej losowej wynika natychmiast, że  <math>\displaystyle F(x) \leq 0</math> dla <math>\displaystyle x < 0</math> oraz
Oczywiście, z określenia naszej zmiennej losowej wynika natychmiast, że  <math>\displaystyle F(x) \leq 0</math> dla <math>\displaystyle x < 0</math> oraz
<math>\displaystyle F(x) = 1</math> dla <math>\displaystyle x \geq a</math> (wtedy też <math>\displaystyle f(x)=0</math>), zaś dla <math>\displaystyle x \in (0,a)</math>, z niezależności
<math>\displaystyle F(x) = 1</math> dla <math>\displaystyle x \geq a</math> (wtedy też <math>\displaystyle f(x)=0</math>), zaś dla <math>\displaystyle x \in (0,a)</math>, z niezależności
zmiennych  <math>\displaystyle X_1, \dots, X_n</math>  otrzymujemy:
zmiennych  <math>\displaystyle X_1, \dots, X_n</math>  otrzymujemy:
<center><math>\displaystyle  
<center><math>\displaystyle  
F(x) = P(\max \{ \displaystyle X_1, \dots, X_n\displaystyle  \} \le x)
F(x) = P(\max \{ \displaystyle X_1, \dots, X_n\displaystyle  \} \le x)
= P(X_1 \le x, \dots, X_n \le x)
= P(X_1 \le x, \dots, X_n \le x)
</math></center>
</math></center>


<center><math>\displaystyle  
<center><math>\displaystyle  
Linia 30: Linia 39:
= \left( \frac{x}{a} \right )^n.
= \left( \frac{x}{a} \right )^n.
</math></center>
</math></center>


Stąd:
Stąd:
<center><math>\displaystyle  f(x) = F'(x)=\frac{1}{a^n} n x^{n-1}\;\;  </math> dla <math>\displaystyle  \; x\in (0,a),</math></center>
<center><math>\displaystyle  f(x) = F'(x)=\frac{1}{a^n} n x^{n-1}\;\;  </math> dla <math>\displaystyle  \; x\in (0,a),</math></center>
zatem:
zatem:
<center><math>\displaystyle  
<center><math>\displaystyle  
{\Bbb E}(T( \displaystyle X_1, \dots, X_n\displaystyle  )) = \frac{1}{a^n}\, n \int_0^a x x^{n-1}\,dx = \frac{n}{n+1}a.
{\Bbb E}(T( \displaystyle X_1, \dots, X_n\displaystyle  )) = \frac{1}{a^n}\, n \int_0^a x x^{n-1}\,dx = \frac{n}{n+1}a.
</math></center>
</math></center>


Powyższy estymator jest więc obciążony, ale jest także asymptotycznie nieobciążony.
Powyższy estymator jest więc obciążony, ale jest także asymptotycznie nieobciążony.
Jednak już teraz widać, że estymatorem nieobciążonym parametru <math>\displaystyle p</math> jest estymator:
Jednak już teraz widać, że estymatorem nieobciążonym parametru <math>\displaystyle p</math> jest estymator:
<center><math>\displaystyle  
<center><math>\displaystyle  
T_*( \displaystyle X_1, \dots, X_n\displaystyle  )=\frac{n+1}{n} \max\{ \displaystyle X_1, \dots, X_n\displaystyle  \}.
T_*( \displaystyle X_1, \dots, X_n\displaystyle  )=\frac{n+1}{n} \max\{ \displaystyle X_1, \dots, X_n\displaystyle  \}.
</math></center>
</math></center>


Zauważmy, iż właściwie można było z góry przewidzieć, że estymator <math>\displaystyle \max\{ \displaystyle X_1, \dots, X_n\displaystyle  \}</math> będzie obciążony, gdyż
Zauważmy, iż właściwie można było z góry przewidzieć, że estymator <math>\displaystyle \max\{ \displaystyle X_1, \dots, X_n\displaystyle  \}</math> będzie obciążony, gdyż
praktycznie zawsze: <center><math>\displaystyle \max\{ \displaystyle x_1, \dots, x_n\displaystyle  \} < a</math></center>
praktycznie zawsze:
-- okazuje się, że wymnożenie przez współczynnik <math>\displaystyle \frac{n+1}{n}</math> zwiększa go tyle, ile trzeba.


{{cwiczenie|||


<center><math>\displaystyle \max\{ \displaystyle x_1, \dots, x_n\displaystyle  \} < a</math></center>
- okazuje się, że wymnożenie przez współczynnik <math>\displaystyle \frac{n+1}{n}</math> zwiększa go tyle, ile trzeba.
{{cwiczenie|11.2|cw 11.2|
Innym podejściem do estymacji parametru <math>\displaystyle a</math> w rozkładzie jednostajnym na przedziale <math>\displaystyle (0,a)</math>, jest wykorzystanie
Innym podejściem do estymacji parametru <math>\displaystyle a</math> w rozkładzie jednostajnym na przedziale <math>\displaystyle (0,a)</math>, jest wykorzystanie
wiadomości, że nadzieja matematyczna, której "dobrym" estymatorem jest średnia, w tym rozkładzie wynosi <math>\displaystyle \frac{a}{2}</math>,
wiadomości, że nadzieja matematyczna, której "dobrym" estymatorem jest średnia, w tym rozkładzie wynosi <math>\displaystyle \frac{a}{2}</math>,
Linia 56: Linia 80:
stwierdzić, że jest to estymator zgodny i nieobciążony. Nasuwa się więc naturalne pytanie o to,
stwierdzić, że jest to estymator zgodny i nieobciążony. Nasuwa się więc naturalne pytanie o to,
który estymator jest lepszy:
który estymator jest lepszy:
estymator <math>\displaystyle T_*</math>, określony w ćwiczeniu [[##earjm|Uzupelnic earjm|]], czy zdefiniowany powyżej estymator <math>\displaystyle S</math>.
estymator <math>\displaystyle T_*</math>, określony w ćwiczeniu [[#cw_11.1|11.1]], czy zdefiniowany powyżej estymator <math>\displaystyle S</math>.


}}
}}
Linia 63: Linia 87:
Wśród estymatorów nieobciążonych kryterium tym jest wielkość wariancji, przy czym im mniejsza wariancja, tym lepszy
Wśród estymatorów nieobciążonych kryterium tym jest wielkość wariancji, przy czym im mniejsza wariancja, tym lepszy
estymator. Liczymy więc wariancje <math>\displaystyle T_*</math> i <math>\displaystyle S</math>, wykorzystując (między innymi) wzór na wariancję w rozkładzie jednostajnym
estymator. Liczymy więc wariancje <math>\displaystyle T_*</math> i <math>\displaystyle S</math>, wykorzystując (między innymi) wzór na wariancję w rozkładzie jednostajnym
(patrz przykład [[##pwrj|Uzupelnic pwrj|]]) oraz twierdzenie [[##wlnad|Uzupelnic wlnad|]] (patrz punkt 6):
(patrz przykład [[Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych#przy_7.11|7.11]]) oraz twierdzenie [[Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych#tw_7.13|7.13]] (patrz punkt 6):
 
 
<center><math>\displaystyle  
<center><math>\displaystyle  
{\Bbb D}^2 (S)={\Bbb D}^2 (2 \bar{X}) = \frac{4}{n^2} {\Bbb D}^2 (X_1+ \dots + X_n)
{\Bbb D}^2 (S)={\Bbb D}^2 (2 \bar{X}) = \frac{4}{n^2} {\Bbb D}^2 (X_1+ \dots + X_n)
Linia 70: Linia 96:
\frac{a^2}{3n},
\frac{a^2}{3n},
</math></center>
</math></center>


<center><math>\displaystyle  
<center><math>\displaystyle  
{\Bbb D}^2 (T_*)={\Bbb D}^2 \left(\frac{n+1}{n} \max\{ \displaystyle X_1, \dots, X_n\displaystyle  \}\right) =  \left(\frac{n+1}{n}\right)^2 {\Bbb D}^2 ( \max( \displaystyle X_1, \dots, X_n\displaystyle  ))
{\Bbb D}^2 (T_*)={\Bbb D}^2 \left(\frac{n+1}{n} \max\{ \displaystyle X_1, \dots, X_n\displaystyle  \}\right) =  \left(\frac{n+1}{n}\right)^2 {\Bbb D}^2 ( \max( \displaystyle X_1, \dots, X_n\displaystyle  ))
</math></center>
</math></center>


<center><math>\displaystyle  
<center><math>\displaystyle  
= \left(\frac{n+1}{n}\right)^2 \left(\int_0^ax^2\frac{1}{a^n} n x^{n-1}\,dx -  \left(\frac{n}{n+1}a\right)^2\right)
= \left(\frac{n+1}{n}\right)^2 \left(\int_0^ax^2\frac{1}{a^n} n x^{n-1}\,dx -  \left(\frac{n}{n+1}a\right)^2\right)
</math></center>
</math></center>


<center><math>\displaystyle    = \left( \frac{n +1}{n} \right) ^{2}
<center><math>\displaystyle    = \left( \frac{n +1}{n} \right) ^{2}
Linia 83: Linia 112:
= {\frac {{a}^{2}}{n \left( n+2 \right) }}.
= {\frac {{a}^{2}}{n \left( n+2 \right) }}.
</math></center>
</math></center>


Dzielimy teraz przez siebie te dwie wariacje:
Dzielimy teraz przez siebie te dwie wariacje:
<center><math>\displaystyle  
<center><math>\displaystyle  
\frac{ {\Bbb D}^2 (S)}{{\Bbb D}^2 (T_*)} = \frac{2+n}{3} > 1\;\;  </math>  dla  <math>\displaystyle  n > 1,
\frac{ {\Bbb D}^2 (S)}{{\Bbb D}^2 (T_*)} = \frac{2+n}{3} > 1\;\;  </math>  dla  <math>\displaystyle  n > 1,
</math></center>
</math></center>


co oznacza, że  wariancja estymatora <math>\displaystyle S</math> jest
co oznacza, że  wariancja estymatora <math>\displaystyle S</math> jest
Linia 93: Linia 126:
Co więcej, im większa jest próbka, tym większy jest stosunek obu wariancji.
Co więcej, im większa jest próbka, tym większy jest stosunek obu wariancji.


{{cwiczenie|||
{{cwiczenie|11.3|cw 11.3|
Naturalnym estymatorem parametru <math>\displaystyle p</math> w rozkładzie dwupunktowym  <math>\displaystyle (0,1,p)</math> jest średnia z próbki.
Naturalnym estymatorem parametru <math>\displaystyle p</math> w rozkładzie dwupunktowym  <math>\displaystyle (0,1,p)</math> jest średnia z próbki.
Zauważmy, że tutaj: <center><math>\displaystyle \bar{x}=\frac{k}{n},</math></center>
Zauważmy, że tutaj:
 
 
<center><math>\displaystyle \bar{x}=\frac{k}{n},</math></center>
 
 
gdzie <math>\displaystyle k</math> jest liczbą zaobserwowanych jedynek.
gdzie <math>\displaystyle k</math> jest liczbą zaobserwowanych jedynek.
Łatwo sprawdzić, że jest to estymator zgodny i nieobciążony parametru <math>\displaystyle p</math>.
Łatwo sprawdzić, że jest to estymator zgodny i nieobciążony parametru <math>\displaystyle p</math>.
Linia 101: Linia 139:
}}
}}


'''. . .'''


{{cwiczenie|||
==={{kotwica|zad 11.1|Zadanie 11.1}}===
Wylosowano następującą próbkę prostą z rozkładu geometrycznego:
Wylosowano następującą próbkę prostą z rozkładu geometrycznego:
<center><math>\displaystyle 8,\; 10,\; 11,\; 11,\; 3,\; 8,\; 10,\; 12,\; 17,\; 16,\; 14.</math></center>
<center><math>\displaystyle 8,\; 10,\; 11,\; 11,\; 3,\; 8,\; 10,\; 12,\; 17,\; 16,\; 14.</math></center>

Wersja z 09:21, 24 sie 2006

Ćwiczenia

Ćwiczenie 11.1

Przypuśćmy, że próbka prosta pochodzi z rozkładu jednostajnego na odcinku (0,a), gdzie a>0 jest nieznanym parametrem. Zastanowimy się, co może być "dobrym" estymatorem parametru a.

Jako sensowne przybliżenie a można wziąć największy element próbki, czyli statystykę:


T(x1,,xn)=max{x1,,xn}.


Można udowodnić, że jest to estymator zgodny. Sprawdzimy, czy jest on także nieobciążony.

Aby obliczyć nadzieję matematyczną zmiennej losowej max{X1,,Xn}, wyznaczymy najpierw dystrybuantę F oraz gęstość f tej zmiennej, a następnie wykorzystamy wzór (patrz definicja 7.22):


𝔼(max{X1,,Xn})=xf(x)dx.


Oczywiście, z określenia naszej zmiennej losowej wynika natychmiast, że F(x)0 dla x<0 oraz F(x)=1 dla xa (wtedy też f(x)=0), zaś dla x(0,a), z niezależności zmiennych X1,,Xn otrzymujemy:


F(x)=P(max{X1,,Xn}x)=P(X1x,,Xnx)


=P(X1x)P(Xnx)=(xa)n.


Stąd:


f(x)=F(x)=1annxn1 dla x(0,a),


zatem:


𝔼(T(X1,,Xn))=1ann0axxn1dx=nn+1a.


Powyższy estymator jest więc obciążony, ale jest także asymptotycznie nieobciążony. Jednak już teraz widać, że estymatorem nieobciążonym parametru p jest estymator:


T*(X1,,Xn)=n+1nmax{X1,,Xn}.


Zauważmy, iż właściwie można było z góry przewidzieć, że estymator max{X1,,Xn} będzie obciążony, gdyż praktycznie zawsze:


max{x1,,xn}<a


- okazuje się, że wymnożenie przez współczynnik n+1n zwiększa go tyle, ile trzeba.

Ćwiczenie 11.2

Innym podejściem do estymacji parametru a w rozkładzie jednostajnym na przedziale (0,a), jest wykorzystanie wiadomości, że nadzieja matematyczna, której "dobrym" estymatorem jest średnia, w tym rozkładzie wynosi a2,

a więc jako estymator a można przyjąć estymator określony przez statystykę:
S(X1,,Xn)=2x¯.

Można łatwo stwierdzić, że jest to estymator zgodny i nieobciążony. Nasuwa się więc naturalne pytanie o to, który estymator jest lepszy: estymator T*, określony w ćwiczeniu 11.1, czy zdefiniowany powyżej estymator S.

Aby odpowiedzieć na powyższe pytanie, należy ustalić jakieś kryterium pozwalające na porównywanie estymatorów. Wśród estymatorów nieobciążonych kryterium tym jest wielkość wariancji, przy czym im mniejsza wariancja, tym lepszy estymator. Liczymy więc wariancje T* i S, wykorzystując (między innymi) wzór na wariancję w rozkładzie jednostajnym (patrz przykład 7.11) oraz twierdzenie 7.13 (patrz punkt 6):


𝔻2(S)=𝔻2(2X¯)=4n2𝔻2(X1++Xn)=4n2n𝔻2(X)=4a212n=a23n,


𝔻2(T*)=𝔻2(n+1nmax{X1,,Xn})=(n+1n)2𝔻2(max(X1,,Xn))


=(n+1n)2(0ax21annxn1dx(nn+1a)2)


=(n+1n)2(a2nn+2a2n2(n+1)2)=a2n(n+2).


Dzielimy teraz przez siebie te dwie wariacje:


𝔻2(S)𝔻2(T*)=2+n3>1 dla n>1,


co oznacza, że wariancja estymatora S jest większa od wariancji estymatora T*, a w związku z tym, ten drugi estymator jest lepszy w sensie naszego kryterium. Co więcej, im większa jest próbka, tym większy jest stosunek obu wariancji.

Ćwiczenie 11.3

Naturalnym estymatorem parametru p w rozkładzie dwupunktowym (0,1,p) jest średnia z próbki. Zauważmy, że tutaj:


x¯=kn,


gdzie k jest liczbą zaobserwowanych jedynek. Łatwo sprawdzić, że jest to estymator zgodny i nieobciążony parametru p.


Zadanie 11.1

Wylosowano następującą próbkę prostą z rozkładu geometrycznego:

8,10,11,11,3,8,10,12,17,16,14.

Jaka liczba będzie dobrym przybliżeniem parametru p?

}}

Ćwiczenie

Wylosowano następującą próbkę prostą z rozkładu jednostajnego na odcinku (a,a):

2.11,4.71,1.63,2.52,3.33,0.46,1.02,0.96.

Jak przybliżyć wartość parametru a?

Ćwiczenie

Dana jest próbka prosta X1,,Xn z rozkładu dwupunktowego (0,1,p). Znajdź rozkład estymatora X¯.

Ćwiczenie

Uzasadnij tezy zawarte w przykładzie Uzupelnic 111|.

Ćwiczenie

Uzasadnij, że estymator S z ćwiczenia Uzupelnic cw111| jest zgodny i nieobciążony.

Ćwiczenie

Zaproponuj estymator odchylenia standardowego.

Ćwiczenie

Zaproponuj estymator parametru λ w rozkładzie Poissona.

Ćwiczenie

Zaproponuj estymator parametru λ w rozkładzie wykładniczym.

Ćwiczenie

Sprawdź, że estymator:

s2(X1,,Xn)=1ni=1n(Xim)2,

jest zgodnym estymatorem wariancji (m, jak zwykle, oznacza nadzieję matematyczną X).

Ćwiczenie

Czy następujący estymator:

s*(X1,,Xn)=1n1i=1n(XiX¯)2,

jest obciążonym estymatorem odchylenia standardowego?

Ćwiczenie

Wykorzystując statystykę pozycyjną, zaproponuj estymator kwantyla qp.

Ćwiczenie

Wykaż wzór:

i=1n(xix¯)2=i=1nxi2nx¯2.

Ćwiczenie

Wykonaj 100 razy następujący eksperyment: z rozkładu jednostajnego na przedziale (0,10) losujemy 30 liczb i obliczamy wartości statystyk 2x¯ oraz n+1nmax{x1,,xn}. Otrzymasz dwa ciągi liczb, powiedzmy a1,,a100 oraz b1,,b100. Dla każdego z tych dwóch ciągów oblicz średnią i wariancję. Porównaj otrzymane wyniki z wnioskami zawartymi w ćwiczeniu Uzupelnic cw111|.