Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 11: Wnioskowanie statystyczne: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Pitab (dyskusja | edycje)
m Zastępowanie tekstu – „<math> ” na „<math>”
 
(Nie pokazano 24 wersji utworzonych przez 3 użytkowników)
Linia 2: Linia 2:


{{cwiczenie|11.1|cw 11.1|
{{cwiczenie|11.1|cw 11.1|
Przypuśćmy, że próbka prosta pochodzi z rozkładu jednostajnego na odcinku <math>\displaystyle (0,a)</math>, gdzie <math>\displaystyle a > 0 </math>
Przypuśćmy, że próbka prosta pochodzi z rozkładu jednostajnego na odcinku <math>(0,a)</math>, gdzie <math>a > 0</math>
jest nieznanym parametrem. Zastanowimy się, co może być "dobrym" estymatorem parametru <math>\displaystyle a</math>.
jest nieznanym parametrem. Zastanowimy się, co może być "dobrym" estymatorem parametru <math>a</math>.


}}
}}


Jako sensowne przybliżenie <math>\displaystyle a</math> można wziąć największy element próbki, czyli statystykę:
Jako sensowne przybliżenie <math>a</math> można wziąć największy element próbki, czyli statystykę:




<center><math>\displaystyle
<center><math>
T( \displaystyle x_1, \dots, x_n\displaystyle  ) = \max \{ \displaystyle x_1, \dots, x_n\displaystyle  \}.
T(x_1, \dots, x_n ) = \max \{x_1, \dots, x_n \}</math></center>
</math></center>




Można udowodnić, że jest to estymator zgodny. Sprawdzimy, czy jest on także nieobciążony.
Można udowodnić, że jest to estymator zgodny. Sprawdzimy, czy jest on także nieobciążony.


Aby obliczyć nadzieję matematyczną zmiennej losowej <math>\displaystyle \max \{ \displaystyle X_1, \dots, X_n\displaystyle  \}</math>, wyznaczymy najpierw dystrybuantę <math>\displaystyle F</math>
Aby obliczyć nadzieję matematyczną zmiennej losowej <math>\max \{X_1, \dots, X_n \}</math>, wyznaczymy najpierw dystrybuantę <math>F</math>
oraz gęstość <math>\displaystyle f</math> tej zmiennej, a następnie wykorzystamy wzór (patrz definicja [[Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych#def_7.22|7.22]]):
oraz gęstość <math>f</math> tej zmiennej, a następnie wykorzystamy wzór (patrz [[Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych#tw_7.22|twierdzenie 7.22]]):




<center><math>\displaystyle {\Bbb E}(\max \{ \displaystyle X_1, \dots, X_n\displaystyle  \}) = \int_{-\infty}^\infty x f(x)\, dx.</math></center>
<center><math>{\Bbb E}(\max \{X_1, \dots, X_n \}) = \int_{-\infty}^\infty x f(x)\, dx</math>.</center>




Oczywiście, z określenia naszej zmiennej losowej wynika natychmiast, że  <math>\displaystyle F(x) \leq 0</math> dla <math>\displaystyle x < 0</math> oraz
Oczywiście, z określenia naszej zmiennej losowej wynika natychmiast, że  <math>F(x) \leq 0</math> dla <math>x < 0</math> oraz
<math>\displaystyle F(x) = 1</math> dla <math>\displaystyle x \geq a</math> (wtedy też <math>\displaystyle f(x)=0</math>), zaś dla <math>\displaystyle x \in (0,a)</math>, z niezależności
<math>F(x) = 1</math> dla <math>x \geq a</math> (wtedy też <math>f(x)=0</math>), zaś dla <math>x \in (0,a)</math>, z niezależności
zmiennych  <math>\displaystyle X_1, \dots, X_n</math>  otrzymujemy:
zmiennych  <math>X_1, \dots, X_n</math>  otrzymujemy:




<center><math>\displaystyle
<center><math>
F(x) = P(\max \{ \displaystyle X_1, \dots, X_n\displaystyle  \} \le x)
F(x) = P(\max \{X_1, \dots, X_n \} \le x)
= P(X_1 \le x, \dots, X_n \le x)
= P(X_1 \le x, \dots, X_n \le x)
</math></center>
</math></center>




<center><math>\displaystyle
<center><math>
=  P(X_1 \le x)\cdot \dots \cdot P(X_n \le x)
=  P(X_1 \le x)\cdot \dots \cdot P(X_n \le x)
= \left( \frac{x}{a} \right )^n.
= \left( \frac{x}{a} \right )^n</math></center>
</math></center>




Linia 44: Linia 42:




<center><math>\displaystyle  f(x) = F'(x)=\frac{1}{a^n} n x^{n-1}\;\; </math> dla <math>\displaystyle  \; x\in (0,a),</math></center>
<center><math> f(x) = F'(x)=\frac{1}{a^n} n x^{n-1}\;\;</math> dla <math>\; x\in (0,a)</math>,</center>




Linia 50: Linia 48:




<center><math>\displaystyle
<center><math>
{\Bbb E}(T( \displaystyle X_1, \dots, X_n\displaystyle  )) = \frac{1}{a^n}\, n \int_0^a x x^{n-1}\,dx = \frac{n}{n+1}a.
{\Bbb E}(T(X_1, \dots, X_n )) = \frac{1}{a^n}\, n \int_0^a x x^{n-1}\,dx = \frac{n}{n+1}a</math></center>
</math></center>




Powyższy estymator jest więc obciążony, ale jest także asymptotycznie nieobciążony.
Powyższy estymator jest więc obciążony, ale jest także asymptotycznie nieobciążony.
Jednak już teraz widać, że estymatorem nieobciążonym parametru <math>\displaystyle p</math> jest estymator:
Jednak już teraz widać, że estymatorem nieobciążonym parametru <math>p</math> jest estymator:




<center><math>\displaystyle
<center><math>
T_*( \displaystyle X_1, \dots, X_n\displaystyle  )=\frac{n+1}{n} \max\{ \displaystyle X_1, \dots, X_n\displaystyle  \}.
T_*(X_1, \dots, X_n )=\frac{n+1}{n} \max\{X_1, \dots, X_n \}</math></center>
</math></center>




Zauważmy, iż właściwie można było z góry przewidzieć, że estymator <math>\displaystyle \max\{ \displaystyle X_1, \dots, X_n\displaystyle  \}</math> będzie obciążony, gdyż
Zauważmy, iż właściwie można było z góry przewidzieć, że estymator <math>\max\{X_1, \dots, X_n \}</math> będzie obciążony, gdyż
praktycznie zawsze:
praktycznie zawsze:




<center><math>\displaystyle \max\{ \displaystyle x_1, \dots, x_n\displaystyle  \} < a</math></center>
<center><math>\max\{x_1, \dots, x_n \} < a</math></center>




- okazuje się, że wymnożenie przez współczynnik <math>\displaystyle \frac{n+1}{n}</math> zwiększa go tyle, ile trzeba.
- okazuje się, że wymnożenie przez współczynnik <math>\frac{n+1}{n}</math> zwiększa go tyle, ile trzeba.


{{cwiczenie|11.2|cw 11.2|
{{cwiczenie|11.2|cw_11.2|
Innym podejściem do estymacji parametru <math>\displaystyle a</math> w rozkładzie jednostajnym na przedziale <math>\displaystyle (0,a)</math>, jest wykorzystanie
Innym podejściem do estymacji parametru <math>a</math> w rozkładzie jednostajnym na przedziale <math>(0,a)</math>, jest wykorzystanie
wiadomości, że nadzieja matematyczna, której "dobrym" estymatorem jest średnia, w tym rozkładzie wynosi <math>\displaystyle \frac{a}{2}</math>,
wiadomości, że nadzieja matematyczna, której "dobrym" estymatorem jest średnia, w tym rozkładzie wynosi <math>\frac{a}{2}</math>,
a więc jako estymator <math>\displaystyle a</math> można przyjąć estymator określony przez statystykę: <center><math>\displaystyle S( \displaystyle X_1, \dots, X_n\displaystyle  )=2 \bar{x} .</math></center>
a więc jako estymator <math>a</math> można przyjąć estymator określony przez statystykę: <center><math>S(X_1, \dots, X_n )=2 \bar{x}</math>.</center>
Można łatwo
Można łatwo
stwierdzić, że jest to estymator zgodny i nieobciążony. Nasuwa się więc naturalne pytanie o to,
stwierdzić, że jest to estymator zgodny i nieobciążony. Nasuwa się więc naturalne pytanie o to,
który estymator jest lepszy:
który estymator jest lepszy:
estymator <math>\displaystyle T_*</math>, określony w ćwiczeniu [[#cw_11.1|11.1]], czy zdefiniowany powyżej estymator <math>\displaystyle S</math>.
estymator <math>T_*</math>, określony w [[#cw_11.1|ćwiczeniu 11.1]], czy zdefiniowany powyżej estymator <math>S</math>.


}}
}}
Linia 86: Linia 82:
Aby odpowiedzieć na powyższe pytanie, należy ustalić jakieś kryterium pozwalające na porównywanie estymatorów.
Aby odpowiedzieć na powyższe pytanie, należy ustalić jakieś kryterium pozwalające na porównywanie estymatorów.
Wśród estymatorów nieobciążonych kryterium tym jest wielkość wariancji, przy czym im mniejsza wariancja, tym lepszy
Wśród estymatorów nieobciążonych kryterium tym jest wielkość wariancji, przy czym im mniejsza wariancja, tym lepszy
estymator. Liczymy więc wariancje <math>\displaystyle T_*</math> i <math>\displaystyle S</math>, wykorzystując (między innymi) wzór na wariancję w rozkładzie jednostajnym
estymator. Liczymy więc wariancje <math>T_*</math> i <math>S</math>, wykorzystując (między innymi) wzór na wariancję w rozkładzie jednostajnym
(patrz przykład [[Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych#przy_7.11|7.11]]) oraz twierdzenie [[Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych#tw_7.13|7.13]] (patrz punkt 6):
(patrz [[Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych#przy_7.11|przykład 7.11]]) oraz [[Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych#tw_7.13|twierdzenie 7.13]] (patrz punkt 6):




<center><math>\displaystyle
<center><math>
{\Bbb D}^2 (S)={\Bbb D}^2 (2 \bar{X}) = \frac{4}{n^2} {\Bbb D}^2 (X_1+ \dots + X_n)
{\Bbb D}^2 (S)={\Bbb D}^2 (2 \bar{X}) = \frac{4}{n^2} {\Bbb D}^2 (X_1+ \dots + X_n)
=  \frac{4}{n^2} n {\Bbb D}^2 (X)
=  \frac{4}{n^2} n {\Bbb D}^2 (X)
=  \frac{4a^2}{12n} =
=  \frac{4a^2}{12n} =
\frac{a^2}{3n},
\frac{a^2}{3n}</math>,</center>
</math></center>




<center><math>\displaystyle
<center><math>
{\Bbb D}^2 (T_*)={\Bbb D}^2 \left(\frac{n+1}{n} \max\{ \displaystyle X_1, \dots, X_n\displaystyle  \}\right) =  \left(\frac{n+1}{n}\right)^2 {\Bbb D}^2 ( \max( \displaystyle X_1, \dots, X_n\displaystyle  ))
{\Bbb D}^2 (T_*)={\Bbb D}^2 \left(\frac{n+1}{n} \max\{X_1, \dots, X_n \}\right) =  \left(\frac{n+1}{n}\right)^2 {\Bbb D}^2 ( \max(X_1, \dots, X_n ))
</math></center>
</math></center>




<center><math>\displaystyle
<center><math>
= \left(\frac{n+1}{n}\right)^2 \left(\int_0^ax^2\frac{1}{a^n} n x^{n-1}\,dx -  \left(\frac{n}{n+1}a\right)^2\right)
= \left(\frac{n+1}{n}\right)^2 \left(\int_0^ax^2\frac{1}{a^n} n x^{n-1}\,dx -  \left(\frac{n}{n+1}a\right)^2\right)
</math></center>
</math></center>




<center><math>\displaystyle    = \left( \frac{n +1}{n} \right) ^{2}
<center><math> = \left( \frac{n +1}{n} \right) ^{2}
\left( {\frac {{a}^{2}n}{n+2}}-{\frac {{a}^{2}{n}^{2}}{ \left( n+1 \right) ^{2}}} \right)
\left( {\frac {{a}^{2}n}{n+2}}-{\frac {{a}^{2}{n}^{2}}{ \left( n+1 \right) ^{2}}} \right)
= {\frac {{a}^{2}}{n \left( n+2 \right) }}.
= {\frac {{a}^{2}}{n \left( n+2 \right) }}</math></center>
</math></center>




Linia 117: Linia 111:




<center><math>\displaystyle
<center><math>
\frac{ {\Bbb D}^2 (S)}{{\Bbb D}^2 (T_*)} = \frac{2+n}{3} > 1\;\; </math>  dla  <math>\displaystyle  n > 1,
\frac{ {\Bbb D}^2 (S)}{{\Bbb D}^2 (T_*)} = \frac{2+n}{3} > 1\;\;</math>  dla  <math> n > 1</math>,</center>
</math></center>




co oznacza, że  wariancja estymatora <math>\displaystyle S</math> jest
co oznacza, że  wariancja estymatora <math>S</math> jest
większa od wariancji estymatora <math>\displaystyle T_*</math>, a w związku z tym, ten drugi estymator jest lepszy w sensie naszego kryterium.
większa od wariancji estymatora <math>T_*</math>, a w związku z tym, ten drugi estymator jest lepszy w sensie naszego kryterium.
Co więcej, im większa jest próbka, tym większy jest stosunek obu wariancji.
Co więcej, im większa jest próbka, tym większy jest stosunek obu wariancji.


{{cwiczenie|11.3|cw 11.3|
{{cwiczenie|11.3|cw 11.3|
Naturalnym estymatorem parametru <math>\displaystyle p</math> w rozkładzie dwupunktowym  <math>\displaystyle (0,1,p)</math> jest średnia z próbki.
Naturalnym estymatorem parametru <math>p</math> w rozkładzie dwupunktowym  <math>(0,1,p)</math> jest średnia z próbki.
Zauważmy, że tutaj:
Zauważmy, że tutaj:




<center><math>\displaystyle \bar{x}=\frac{k}{n},</math></center>
<center><math>\bar{x}=\frac{k}{n}</math>,</center>




gdzie <math>\displaystyle k</math> jest liczbą zaobserwowanych jedynek.
gdzie <math>k</math> jest liczbą zaobserwowanych jedynek.
Łatwo sprawdzić, że jest to estymator zgodny i nieobciążony parametru <math>\displaystyle p</math>.
Łatwo sprawdzić, że jest to estymator zgodny i nieobciążony parametru <math>p</math>.


}}
}}


 
-----------------------------------------------------
==={{kotwica|zad 11.1|Zadanie 11.1}}===
'''{{kotwica|zad 11.1|Zadanie 11.1}}'''
Wylosowano następującą próbkę prostą z rozkładu geometrycznego:
Wylosowano następującą próbkę prostą z rozkładu geometrycznego:
<center><math>\displaystyle 8,\; 10,\; 11,\; 11,\; 3,\; 8,\; 10,\; 12,\; 17,\; 16,\; 14.</math></center>
<center><math>8,\; 10,\; 11,\; 11,\; 3,\; 8,\; 10,\; 12,\; 17,\; 16,\; 14</math>.</center>


Jaka liczba będzie dobrym przybliżeniem parametru <math>\displaystyle p</math>?
Jaka liczba będzie dobrym przybliżeniem parametru <math>p</math>?


}}
'''{{kotwica|zad 11.2|Zadanie 11.2}}'''
Wylosowano następującą próbkę prostą z rozkładu jednostajnego na odcinku <math>(-a,a)</math>:


{{cwiczenie|||
Wylosowano następującą próbkę prostą z rozkładu jednostajnego na odcinku <math>\displaystyle (-a,a)</math>:
<center><math>\displaystyle -2.11, \; -4.71, \; 1.63,\; -2.52,\; 3.33,\; 0.46,\; 1.02,\; -0.96.</math></center>


Jak przybliżyć wartość parametru <math>\displaystyle a</math>?
<center><math>-2.11, \; -4.71, \; 1.63,\; -2.52,\; 3.33,\; 0.46,\; 1.02,\; -0.96</math>.</center>


}}


{{cwiczenie|||
Jak przybliżyć wartość parametru <math>a</math>?
Dana jest próbka prosta  <math>\displaystyle X_1, \dots, X_n</math>  z rozkładu dwupunktowego <math>\displaystyle (0,1,p)</math>. Znajdź rozkład estymatora <math>\displaystyle \bar{X}</math>.
'''{{kotwica|zad 11.3|Zadanie 11.3}}'''
Dana jest próbka prosta  <math>X_1, \dots, X_n</math>  z rozkładu dwupunktowego <math>(0,1,p)</math>. Znajdź rozkład estymatora <math>\bar{X}</math>.


}}
'''{{kotwica|zad 11.4|Zadanie 11.4}}'''
Uzasadnij tezy zawarte w [[Rachunek prawdopodobieństwa i statystyka/Wykład 11: Wnioskowanie statystyczne#przy_11.5|przykładzie 11.5]].


{{cwiczenie|||
'''{{kotwica|zad 11.5|Zadanie 11.5}}'''
Uzasadnij tezy zawarte w przykładzie [[##111|Uzupelnic 111|]].
Uzasadnij, że estymator <math>S</math> z [[#cw_11.2|ćwiczenia 11.2]]. jest zgodny i nieobciążony.


}}
'''{{kotwica|zad 11.6|Zadanie 11.6}}'''
Zaproponuj estymator odchylenia standardowego.


{{cwiczenie|||
'''{{kotwica|zad 11.7|Zadanie 11.7}}'''
Uzasadnij, że estymator <math>\displaystyle S</math> z ćwiczenia [[##cw111|Uzupelnic cw111|]] jest zgodny i nieobciążony.
Zaproponuj estymator parametru <math>\lambda</math> w rozkładzie Poissona.


}}
'''{{kotwica|zad 11.8|Zadanie 11.8}}'''
Zaproponuj estymator parametru <math>\lambda</math> w rozkładzie wykładniczym.


{{cwiczenie|||
'''{{kotwica|zad 11.9|Zadanie 11.9}}'''
Zaproponuj estymator odchylenia standardowego.
Sprawdź, że estymator:
 
}}


{{cwiczenie|||
Zaproponuj estymator parametru <math>\displaystyle \lambda</math> w rozkładzie Poissona.


}}
<center><math>
s^{2}(X_1, \dots, X_n ) = \frac{1}{n} \sum_{i=1}^{n} ( X_{i}-m)^{2}</math>,</center>


{{cwiczenie|||
Zaproponuj estymator parametru <math>\displaystyle \lambda</math> w rozkładzie wykładniczym.


}}
jest zgodnym estymatorem wariancji (<math>m</math>, jak zwykle, oznacza nadzieję matematyczną <math>X</math>).


{{cwiczenie|||
'''{{kotwica|zad 11.10|Zadanie 11.10}}'''
Sprawdź, że estymator:
Czy następujący estymator:
<center><math>\displaystyle
s^{2}( \displaystyle X_1, \dots, X_n\displaystyle  ) = \frac{1}{n} \sum_{i=1}^{n} ( X_{i}-m)^{2},
</math></center>


jest zgodnym estymatorem wariancji (<math>\displaystyle m</math>, jak zwykle, oznacza nadzieję matematyczną <math>\displaystyle X</math>).


}}
<center><math>
s_*(X_1, \dots, X_n ) = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} ( X_{i}-\bar{X})^{2} }</math>,</center>


{{cwiczenie|||
Czy następujący estymator:
<center><math>\displaystyle
s_*( \displaystyle X_1, \dots, X_n\displaystyle  ) = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} ( X_{i}-\bar{X})^{2} },
</math></center>


jest obciążonym estymatorem odchylenia standardowego?
jest obciążonym estymatorem odchylenia standardowego?


}}
'''{{kotwica|zad 11.11|Zadanie 11.11}}'''
Wykorzystując statystykę pozycyjną, zaproponuj estymator kwantyla <math>q_p</math>.


{{cwiczenie|||
'''{{kotwica|zad 11.12|Zadanie 11.12}}'''
Wykorzystując statystykę pozycyjną, zaproponuj estymator kwantyla <math>\displaystyle q_p</math>.
Wykaż wzór:
 
}}


{{cwiczenie|||
Wykaż wzór:
<center><math>\displaystyle
\sum_{i=1}^n(x_i - \bar{x})^2 = \sum_{i=1}^nx_i^2 - n\bar{x}^2.
</math></center>


}}
<center><math>
\sum_{i=1}^n(x_i - \bar{x})^2 = \sum_{i=1}^nx_i^2 - n\bar{x}^2</math></center>


{{cwiczenie|||
Wykonaj 100 razy następujący eksperyment: z rozkładu jednostajnego na przedziale <math>\displaystyle (0,10)</math> losujemy
30 liczb i obliczamy wartości statystyk <math>\displaystyle 2 \bar{x}</math> oraz <math>\displaystyle \frac{n+1}{n} \max\{ \displaystyle x_1, \dots, x_n\displaystyle  \}</math>.
Otrzymasz dwa ciągi liczb, powiedzmy <math>\displaystyle a_1, \dots, a_{100}</math> oraz
<math>\displaystyle b_1, \dots, b_{100}</math>. Dla każdego z tych dwóch ciągów oblicz średnią i wariancję.
Porównaj otrzymane wyniki z wnioskami zawartymi w ćwiczeniu [[##cw111|Uzupelnic cw111|]].


}}
'''{{kotwica|zad 11.13|Zadanie 11.13}}'''
Wykonaj 100 razy następujący eksperyment: z rozkładu jednostajnego na przedziale <math>(0,10)</math> losujemy
30 liczb i obliczamy wartości statystyk <math>2 \bar{x}</math> oraz <math>\frac{n+1}{n} \max\{x_1, \dots, x_n \}</math>.
Otrzymasz dwa ciągi liczb, powiedzmy <math>a_1, \dots, a_{100}</math> oraz
<math>b_1, \dots, b_{100}</math>. Dla każdego z tych dwóch ciągów oblicz średnią i wariancję.
Porównaj otrzymane wyniki z wnioskami zawartymi w [[#cw_11.2|ćwiczeniu 11.2]].

Aktualna wersja na dzień 22:12, 11 wrz 2023

Ćwiczenia

Ćwiczenie 11.1

Przypuśćmy, że próbka prosta pochodzi z rozkładu jednostajnego na odcinku (0,a), gdzie a>0 jest nieznanym parametrem. Zastanowimy się, co może być "dobrym" estymatorem parametru a.

Jako sensowne przybliżenie a można wziąć największy element próbki, czyli statystykę:


T(x1,,xn)=max{x1,,xn}


Można udowodnić, że jest to estymator zgodny. Sprawdzimy, czy jest on także nieobciążony.

Aby obliczyć nadzieję matematyczną zmiennej losowej max{X1,,Xn}, wyznaczymy najpierw dystrybuantę F oraz gęstość f tej zmiennej, a następnie wykorzystamy wzór (patrz twierdzenie 7.22):


𝔼(max{X1,,Xn})=xf(x)dx.


Oczywiście, z określenia naszej zmiennej losowej wynika natychmiast, że F(x)0 dla x<0 oraz F(x)=1 dla xa (wtedy też f(x)=0), zaś dla x(0,a), z niezależności zmiennych X1,,Xn otrzymujemy:


F(x)=P(max{X1,,Xn}x)=P(X1x,,Xnx)


=P(X1x)P(Xnx)=(xa)n


Stąd:


f(x)=F(x)=1annxn1 dla x(0,a),


zatem:


𝔼(T(X1,,Xn))=1ann0axxn1dx=nn+1a


Powyższy estymator jest więc obciążony, ale jest także asymptotycznie nieobciążony. Jednak już teraz widać, że estymatorem nieobciążonym parametru p jest estymator:


T*(X1,,Xn)=n+1nmax{X1,,Xn}


Zauważmy, iż właściwie można było z góry przewidzieć, że estymator max{X1,,Xn} będzie obciążony, gdyż praktycznie zawsze:


max{x1,,xn}<a


- okazuje się, że wymnożenie przez współczynnik n+1n zwiększa go tyle, ile trzeba.

Ćwiczenie 11.2

Innym podejściem do estymacji parametru a w rozkładzie jednostajnym na przedziale (0,a), jest wykorzystanie wiadomości, że nadzieja matematyczna, której "dobrym" estymatorem jest średnia, w tym rozkładzie wynosi a2,

a więc jako estymator a można przyjąć estymator określony przez statystykę:
S(X1,,Xn)=2x¯.

Można łatwo stwierdzić, że jest to estymator zgodny i nieobciążony. Nasuwa się więc naturalne pytanie o to, który estymator jest lepszy: estymator T*, określony w ćwiczeniu 11.1, czy zdefiniowany powyżej estymator S.

Aby odpowiedzieć na powyższe pytanie, należy ustalić jakieś kryterium pozwalające na porównywanie estymatorów. Wśród estymatorów nieobciążonych kryterium tym jest wielkość wariancji, przy czym im mniejsza wariancja, tym lepszy estymator. Liczymy więc wariancje T* i S, wykorzystując (między innymi) wzór na wariancję w rozkładzie jednostajnym (patrz przykład 7.11) oraz twierdzenie 7.13 (patrz punkt 6):


𝔻2(S)=𝔻2(2X¯)=4n2𝔻2(X1++Xn)=4n2n𝔻2(X)=4a212n=a23n,


𝔻2(T*)=𝔻2(n+1nmax{X1,,Xn})=(n+1n)2𝔻2(max(X1,,Xn))


=(n+1n)2(0ax21annxn1dx(nn+1a)2)


=(n+1n)2(a2nn+2a2n2(n+1)2)=a2n(n+2)


Dzielimy teraz przez siebie te dwie wariacje:


𝔻2(S)𝔻2(T*)=2+n3>1 dla n>1,


co oznacza, że wariancja estymatora S jest większa od wariancji estymatora T*, a w związku z tym, ten drugi estymator jest lepszy w sensie naszego kryterium. Co więcej, im większa jest próbka, tym większy jest stosunek obu wariancji.

Ćwiczenie 11.3

Naturalnym estymatorem parametru p w rozkładzie dwupunktowym (0,1,p) jest średnia z próbki. Zauważmy, że tutaj:


x¯=kn,


gdzie k jest liczbą zaobserwowanych jedynek. Łatwo sprawdzić, że jest to estymator zgodny i nieobciążony parametru p.


Zadanie 11.1 Wylosowano następującą próbkę prostą z rozkładu geometrycznego:

8,10,11,11,3,8,10,12,17,16,14.

Jaka liczba będzie dobrym przybliżeniem parametru p?

Zadanie 11.2 Wylosowano następującą próbkę prostą z rozkładu jednostajnego na odcinku (a,a):


2.11,4.71,1.63,2.52,3.33,0.46,1.02,0.96.


Jak przybliżyć wartość parametru a? Zadanie 11.3 Dana jest próbka prosta X1,,Xn z rozkładu dwupunktowego (0,1,p). Znajdź rozkład estymatora X¯.

Zadanie 11.4 Uzasadnij tezy zawarte w przykładzie 11.5.

Zadanie 11.5 Uzasadnij, że estymator S z ćwiczenia 11.2. jest zgodny i nieobciążony.

Zadanie 11.6 Zaproponuj estymator odchylenia standardowego.

Zadanie 11.7 Zaproponuj estymator parametru λ w rozkładzie Poissona.

Zadanie 11.8 Zaproponuj estymator parametru λ w rozkładzie wykładniczym.

Zadanie 11.9 Sprawdź, że estymator:


s2(X1,,Xn)=1ni=1n(Xim)2,


jest zgodnym estymatorem wariancji (m, jak zwykle, oznacza nadzieję matematyczną X).

Zadanie 11.10 Czy następujący estymator:


s*(X1,,Xn)=1n1i=1n(XiX¯)2,


jest obciążonym estymatorem odchylenia standardowego?

Zadanie 11.11 Wykorzystując statystykę pozycyjną, zaproponuj estymator kwantyla qp.

Zadanie 11.12 Wykaż wzór:


i=1n(xix¯)2=i=1nxi2nx¯2


Zadanie 11.13 Wykonaj 100 razy następujący eksperyment: z rozkładu jednostajnego na przedziale (0,10) losujemy 30 liczb i obliczamy wartości statystyk 2x¯ oraz n+1nmax{x1,,xn}. Otrzymasz dwa ciągi liczb, powiedzmy a1,,a100 oraz b1,,b100. Dla każdego z tych dwóch ciągów oblicz średnią i wariancję. Porównaj otrzymane wyniki z wnioskami zawartymi w ćwiczeniu 11.2.