Rachunek prawdopodobieństwa i statystyka/Wykład 11: Wnioskowanie statystyczne: Różnice pomiędzy wersjami
Nie podano opisu zmian |
m Zastępowanie tekstu – „<math> ” na „<math>” |
||
(Nie pokazano 29 wersji utworzonych przez 5 użytkowników) | |||
Linia 1: | Linia 1: | ||
==Wnioskowanie statystyczne== | |||
Omówimy ogólne aspekty wnioskowania statystycznego. | Omówimy ogólne aspekty wnioskowania statystycznego. | ||
Linia 24: | Linia 6: | ||
następnie przeformułujemy je w sposób dający szansę na ich | następnie przeformułujemy je w sposób dający szansę na ich | ||
rozwiązanie. Podamy definicje statystyki i estymatora oraz ich | rozwiązanie. Podamy definicje statystyki i estymatora oraz ich | ||
podstawowe własności | podstawowe własności. | ||
==Pojęcia podstawowe== | ==Pojęcia podstawowe== | ||
[[File:Rp-11-1-1.mp4|253x253px|thumb|right| ]] | |||
Jak pamiętamy, statystyka opisowa dotyczy sytuacji, w których mamy | Jak pamiętamy, statystyka opisowa dotyczy sytuacji, w których mamy | ||
do czynienia z pewną cechą (lub cechami) elementów określonej | do czynienia z pewną cechą (lub cechami) elementów określonej | ||
Linia 40: | Linia 19: | ||
komisja wyborcza po przeliczeniu wszystkich oddanych głosów | komisja wyborcza po przeliczeniu wszystkich oddanych głosów | ||
pozwalają jednoznacznie podać procent wyborców popierających daną partię, | pozwalają jednoznacznie podać procent wyborców popierających daną partię, | ||
powiedzmy partię <math> | powiedzmy partię <math>ABC</math>. Jest to zrobione na podstawie danych o | ||
każdej osobie, która poszła do wyborów. Natomiast sondaż | każdej osobie, która poszła do wyborów. Natomiast sondaż | ||
przeprowadzany przez ankieterów przed lokalami wyborczymi dotyczy | przeprowadzany przez ankieterów przed lokalami wyborczymi dotyczy | ||
tylko niewielkiej części głosujących, a jednak na jego podstawie | tylko niewielkiej części głosujących, a jednak na jego podstawie | ||
jest podawany procent wyborców popierających partię <math> | jest podawany procent wyborców popierających partię <math>ABC</math>. Jest to | ||
możliwe dzięki metodom tak zwanego wnioskowania | możliwe dzięki metodom tak zwanego wnioskowania | ||
statystycznego. | statystycznego. | ||
Linia 54: | Linia 33: | ||
parametru tej cechy (na przykład jej wartości średniej). | parametru tej cechy (na przykład jej wartości średniej). | ||
Ile wynosi parametr (na przykład średnia) naszej cechy w całej | 1. Ile wynosi parametr (na przykład średnia) naszej cechy w całej populacji? <math>\longrightarrow</math> ''Estymacja punktowa'' | ||
populacji? <math> | |||
W jakim zakresie (zbiorze) znajduje się ten parametr? | 2. W jakim zakresie (zbiorze) znajduje się ten parametr? <math>\longrightarrow</math> ''Estymacja przedziałowa'' | ||
<math> | |||
Czy prawdą jest, że nasz parametr należy do | 3. Czy prawdą jest, że nasz parametr należy do określonego zbioru? <math>\longrightarrow</math> ''Testowanie hipotez statystycznych'' | ||
określonego zbioru? <math> | |||
Zauważmy, że tak sformułowane problemy są faktycznie | Zauważmy, że tak sformułowane problemy są faktycznie | ||
niemożliwe do rozwiązania. Przykładowo, nie możemy z całą | niemożliwe do rozwiązania. Przykładowo, nie możemy z całą | ||
pewnością , na podstawie sondażu przed lokalami wyborczymi, | pewnością , na podstawie sondażu przed lokalami wyborczymi, | ||
jakie poparcie uzyskała partia <math> | jakie poparcie uzyskała partia <math>ABC</math>. Dlatego nasze pytania | ||
muszą zostać przeformułowane tak, aby można było na nie | muszą zostać przeformułowane tak, aby można było na nie | ||
sensownie odpowiedzieć. Aby to zrobić, najpierw zbudujemy | sensownie odpowiedzieć. Aby to zrobić, najpierw zbudujemy | ||
pewien model matematyczny, a następnie zajmiemy się kolejno | pewien model matematyczny, a następnie zajmiemy się kolejno | ||
rozwiązywaniem powyższych problemów. W tym miejscu zauważmy | rozwiązywaniem powyższych problemów. W tym miejscu zauważmy | ||
jeszcze tylko to, że są one ze sobą silnie związane | jeszcze tylko to, że są one ze sobą silnie związane - | ||
gdybyśmy umieli w pełni rozwiązać problem estymacji | gdybyśmy umieli w pełni rozwiązać problem estymacji | ||
punktowej, umielibyśmy też oczywiście rozwiązać problemy | punktowej, umielibyśmy też oczywiście rozwiązać problemy | ||
estymacji przedziałowej i testowania hipotez. | estymacji przedziałowej i testowania hipotez. | ||
Na początku zakładamy, że interesująca nas cecha <math> | Na początku zakładamy, że interesująca nas cecha <math>X</math> | ||
ma charakter losowy, czyli że jest ona zmienną losową (lub wektorem losowym) | ma charakter losowy, czyli że jest ona zmienną losową (lub wektorem losowym) | ||
określoną na pewnej przestrzeni probabilistycznej, | określoną na pewnej przestrzeni probabilistycznej, | ||
powiedzmy <math> | powiedzmy <math>(\Omega, \Sigma, P)</math>. W takim razie, | ||
interesujący nas parametr jest parametrem zmiennej losowej | interesujący nas parametr jest parametrem zmiennej losowej | ||
<math> | <math>X</math> lub, bardziej precyzyjnie, parametrem rozkładu <math>P_X</math> tej | ||
zmiennej. Wówczas | [[File:Rp-11-1-2.mp4|253x253px|thumb|right| ]]zmiennej. Wówczas zamiast mówić, na przykład, o wartości średniej danej cechy, będziemy mówić o nadziei | ||
zamiast mówić, na przykład, | |||
matematycznej odpowiadającej jej zmiennej losowej. Tak więc sformułowane | matematycznej odpowiadającej jej zmiennej losowej. Tak więc sformułowane | ||
powyżej pytania dotyczą parametrów rozkładu <math> | powyżej pytania dotyczą parametrów rozkładu <math>P_X</math>. | ||
Dość często możemy z góry założyć, że nasza cecha posiada rozkład | Dość często możemy z góry założyć, że nasza cecha posiada rozkład | ||
określonego typu. Na przykład, gdy prowadzimy sondaż, nasza | określonego typu. Na przykład, gdy prowadzimy sondaż, nasza | ||
cecha ma rozkład dwupunktowy <math> | cecha ma rozkład dwupunktowy <math>(0,1,p)</math>: "0" oznacza, że wyborca nie | ||
głosował na partię <math> | głosował na partię <math>ABC</math>, zaś "1" oznacza, że na tę partię głosował - nas natomiast | ||
interesuje parametr <math> | interesuje parametr <math>p</math>, a właściwie <math>p\cdot 100\%</math>. Często też, | ||
korzystając z centralnego twierdzenia granicznego, można | korzystając z centralnego twierdzenia granicznego, można | ||
założyć, że dana cecha ma rozkład <math> | założyć, że dana cecha ma rozkład <math>N(m,\sigma)</math> - wtedy | ||
parametr <math> | parametr <math>m</math> odpowiada średniej wartości cechy, zaś <math>\sigma</math> - jej odchyleniu | ||
standardowemu. | standardowemu. | ||
W związku z powyższym, przyjmujemy ogólne założenie, że mamy | W związku z powyższym, przyjmujemy ogólne założenie, że mamy | ||
ustaloną jakąś rodzinę rozkładów prawdopodobieństwa, | ustaloną jakąś rodzinę rozkładów prawdopodobieństwa, | ||
indeksowaną przez pewien parametr <math> | indeksowaną przez pewien parametr <math>\theta \in \Theta</math> - będziemy pisać: | ||
pisać: <center><math> | |||
<math> | |||
przedziałem <math> | <center> | ||
rozkładów normalnych, zatem <math> | <math> | ||
kartezjańskim <math> | \mathcal{P} = \{P_\theta : \theta \in \Theta\}</math> | ||
możliwość, że <math> | </center> | ||
rozkładów prawdopodobieństwa, czyli że <math> | |||
W pierwszym z powyższych przypadków | |||
<math>\mathcal{P}</math> jest rodziną rozkładów dwupunktowych <math>(0,1,p)</math>, a więc <math>\Theta</math> jest | |||
przedziałem <math>(0,1)</math>, zaś w drugim - <math>\mathcal{P}</math> jest rodziną wszystkich | |||
rozkładów normalnych, zatem <math>\Theta</math> jest iloczynem | |||
kartezjańskim <math>{\Bbb R}\times(0, \infty)</math>. Dopuszcza się też | |||
możliwość, że <math>\mathcal{P}</math> jest zbiorem wszystkich możliwych | |||
rozkładów prawdopodobieństwa, czyli że <math>\Theta=\mathcal{P}</math>. | |||
Możemy teraz, przy powyższych założeniach i oznaczeniach, interesujące nas zagadnienia | Możemy teraz, przy powyższych założeniach i oznaczeniach, interesujące nas zagadnienia | ||
sformułować w następujący sposób: | sformułować w następujący sposób: | ||
1' znaleźć <math>\theta \in \Theta</math> takie, że <math>P_X = P_\theta</math>, | |||
2' znaleźć zbiór <math>\Theta_0 \subset \Theta</math> taki, że <math>P_X = | |||
P_\theta</math> dla pewnego <math>\theta \in \Theta_0</math>, | |||
P_\theta</math> dla pewnego <math> | |||
3' czy prawdą jest, że <math>P_X = P_\theta</math> dla pewnego <math>\theta \in \Theta_0</math>, gdzie <math>\Theta_0</math> jest z góry | |||
dla pewnego <math> | |||
ustalonym zbiorem? | ustalonym zbiorem? | ||
Linia 131: | Linia 110: | ||
Załóżmy, że obserwujemy ciąg zmiennych losowych, | Załóżmy, że obserwujemy ciąg zmiennych losowych, | ||
powiedzmy | powiedzmy <math>X_1,\dots, X_n</math>, określonych na | ||
przestrzeni probabilistycznej <math> | przestrzeni probabilistycznej <math>(\Omega, \Sigma, P)</math> (przypominamy, że na tej samej przestrzeni jest określona także zmienna losowa <math>X</math>, reprezentująca daną cechę), z których każda ma | ||
zmienna losowa <math> | taki sam rozkład jak <math>X</math>, czyli: | ||
taki sam rozkład jak <math> | |||
P_X\;\; | |||
zmiennej losowej <math> | <center><math> | ||
odpowiada on zaobserwowanym | P_{X_i} = P_X\;\;</math> dla <math>\; i = 1, \dots, n | ||
faktycznie wartościom cechy, powiedzmy <math> | </math></center> | ||
Tak zdefiniowany ciąg nazywa się próbką ze | |||
zmiennej losowej <math>X</math> - | |||
odpowiada on zaobserwowanym faktycznie wartościom cechy, powiedzmy <math>x_1,\dots, | |||
x_n</math> (ten ostatni ciąg także nazywa się próbką wartości | x_n</math> (ten ostatni ciąg także nazywa się próbką wartości | ||
cechy, tak więc w dalszej części będziemy mówić po prostu o próbce, a | cechy, tak więc w dalszej części będziemy mówić po prostu o próbce, a | ||
z kontekstu będzie wynikać znaczenie, w jakim słowo to | z kontekstu będzie wynikać znaczenie, w jakim słowo to | ||
zostało użyte). Bardzo często zdarza się, iż obserwacje wartości cechy są | zostało użyte). Bardzo często zdarza się, iż obserwacje wartości cechy są | ||
niezależne od siebie | niezależne od siebie - jeżeli tak jest, to ciąg <math>x_1,\dots, x_n</math> | ||
nazywa się próbką prostą. W języku zmiennych losowych | nazywa się próbką prostą. W języku zmiennych losowych | ||
mówimy, że <math> | mówimy, że <math>X_1,\dots, X_n</math> jest próbką prostą, gdy zmienne | ||
losowe <math> | losowe <math>X_1,\dots, X_n</math> tworzą próbkę i są niezależnymi | ||
zmiennymi losowymi. W dalszej części będziemy rozważać | zmiennymi losowymi. W dalszej części będziemy rozważać | ||
tylko próbki proste. | tylko próbki proste. | ||
Linia 152: | Linia 136: | ||
Wprowadzimy teraz dwa nowe terminy. | Wprowadzimy teraz dwa nowe terminy. | ||
{{definicja||| | {{definicja|11.1|def 11.1| | ||
Statystyką nazywamy dowolną funkcję <math>T\colon {\Bbb R}^n \longrightarrow {\Bbb R}^d</math>, która jest mierzalna ze względu na | |||
<math>\sigma</math>-algebrę zbiorów borelowskich <math>{\cal | |||
B}({{\Bbb R}^n})</math>, to znaczy: | |||
<center><math> | |||
T^{-1}(B)\in {\cal B}({{\Bbb R}^n})\;\;</math> dla każdego <math>\; B\in {\cal B}({{\Bbb R}^d}) | |||
</math></center> | |||
}} | }} | ||
Okazuje się, iż zdecydowana większość rozważanych w praktyce funkcji <math> | Okazuje się, iż zdecydowana większość rozważanych w praktyce funkcji <math>{\Bbb R}^n \longrightarrow \ {\Bbb R}^d</math> spełnia powyższą definicję. | ||
Zauważmy, ze jeżeli na przestrzeni <math> | Zauważmy, ze jeżeli na przestrzeni <math>{\Bbb R}^n</math> określimy rozkład prawdopodobieństwa, powiedzmy <math>Q</math>, to znaczy gdy <math>({\Bbb R}^n,{\cal | ||
B}({{\Bbb R}^n}),Q)</math> jest przestrzenią probabilistyczną, to statystyka | B}({{\Bbb R}^n}),Q)</math> jest przestrzenią probabilistyczną, to statystyka | ||
<math> | <math>T\colon {\Bbb R}^n \longrightarrow {\Bbb R}^d</math> jest <math>d</math>-wymiarowym wektorem losowym, określonym na tej przestrzeni. | ||
{{definicja|11.2|def 11.2| | |||
Niech <math>X_1, \dots , X_n</math> będzie próbką prostą | |||
ze zmiennej losowej <math>X</math>. Estymatorem parametru zmiennej | |||
<math>X</math> nazywamy zmienną losową, będącą złożeniem wektora | |||
losowego <math>(X_1, \dots , X_n)</math> ze statystyką <math>T</math>, czyli | |||
funkcję: | |||
<center><math> | |||
T\circ (X_1, \dots , X_n) | |||
</math></center> | |||
}} | }} | ||
Opuszczając znak operatora złożenia "<math> | Opuszczając znak operatora złożenia "<math>\circ</math>", co się często w praktyce czyni, | ||
możemy estymator oznaczyć (nieściśle) jako: <center><math>\ | możemy estymator oznaczyć (nieściśle) jako: | ||
<center><math> | |||
T(X_1, \dots , X_n) | |||
</math></center> | |||
{{przyklad|11.3|przy 11.3| | |||
Przykładem statystyki jest średnia: | |||
<center><math> | |||
T(x_1, \dots, x_n ) | |||
= \frac{x_1+ \dots + x_n}{n} | |||
</math></center> | |||
a odpowiadającym jej estymatorem jest: | |||
<center><math> | |||
T(X_1, \dots, X_n ) = \frac{X_1+ \dots + X_n}{n} | |||
</math></center> | |||
}} | |||
Dla tej statystyki jak i tego estymatora zarezerwowano następujące oznaczenia: | Dla tej statystyki jak i tego estymatora zarezerwowano następujące oznaczenia: | ||
<center><math> | |||
\bar{x}\;</math> lub <math>\;\bar{x}_n\;\;</math> oraz, odpowiednio, <math>\;\;\bar{X}\;</math> lub <math>\;\bar{X}_n | |||
</math></center> | |||
{{przyklad|11.4|przy 11.4| | |||
Innym przykładem statystyki jest tak zwana statystyka pozycyjna: | Innym przykładem statystyki jest tak zwana statystyka pozycyjna: | ||
Estymator, jak każdy wektor losowy, posiada swój rozkład <math> | |||
<center><math> | |||
T(x_1, \dots, x_n ) = (x_{(1)}, \dots x_{(n)}) | |||
</math></center> | |||
gdzie <math>x_{(1)}, \dots, x_{(n)}</math> oznaczają elementy próbki <math>x_1, \dots, x_n</math> ustawione w porządku rosnącym: | |||
<center><math> | |||
x_{(1)} \le \dots \le x_{(n)} | |||
</math></center> | |||
}} | |||
Estymator, jak każdy wektor losowy, posiada swój rozkład <math>P_{T(X_1, | |||
\dots, X_n)}</math>, który będziemy w skrócie oznaczać symbolem | \dots, X_n)}</math>, który będziemy w skrócie oznaczać symbolem | ||
<math> | <math>P_T</math>. Dość często utożsamia się statystykę <math>T</math> z | ||
odpowiadającym jej estymatorem <math> | odpowiadającym jej estymatorem <math>T(X_1, \dots , X_n)</math> i w | ||
związku z tym mówi się także, że <math> | związku z tym mówi się także, że <math>P_T</math> jest rozkładem | ||
statystyki <math> | statystyki <math>T</math>. Oczywiście, rozkład <math>P_T</math> zależy w sposób | ||
jednoznaczny od rozkładu <math> | jednoznaczny od rozkładu <math>P_X</math> zmiennej losowej <math>X</math>, z której | ||
pochodzi próbka prosta. Istnieją twierdzenia, dzięki którym | pochodzi próbka prosta. Istnieją twierdzenia, dzięki którym | ||
można w szczególnych przypadkach efektywnie wyznaczyć tę | można w szczególnych przypadkach efektywnie wyznaczyć tę zależność. | ||
zależność. | |||
Wiadomo (patrz | |||
<math> | {{przyklad|11.5|przy 11.5| | ||
rozkładem <math> | Wiadomo (patrz [[Rachunek prawdopodobieństwa i statystyka/Wykład 9: Rozkład normalny i centralne twierdzenie graniczne#tw_9.2|twierdzenie 9.2]]), że gdy zmienna <math>X</math> ma rozkład | ||
nie znamy rozkładu zmiennej <math> | <math>N(m,\sigma)</math>, to rozkład <math>P_T</math> statystyki <math>T = \bar{x}</math> jest rozkładem <math>N(m,\frac{\sigma}{\sqrt{n}})</math>. Natomiast w przypadku, gdy | ||
matematyczną <math> | nie znamy rozkładu zmiennej <math>X</math>, a jedynie jej nadzieję | ||
próbki <math> | matematyczną <math>m</math> i odchylenie standardowe <math>\sigma</math>, ale wielkość | ||
wynika, że <math> | próbki <math>n</math> jest duża, to z centralnego twierdzenia granicznego | ||
<math> | wynika, że <math>P_T</math> ma w przybliżeniu rozkład | ||
<math>N(m,\frac{\sigma}{\sqrt{n}})</math>. }} | |||
==Estymatory nieobciążone i zgodne== | ==Estymatory nieobciążone i zgodne== | ||
[[File:Rp-11-3.mp4|253x253px|thumb|right]] | |||
Jednym z zadań statystyki jest znajdowanie estymatorów (a więc statystyk), które w jakimś sensie mówią nam o | |||
rozkładzie <math>P_X</math> zmiennej losowej <math>X</math>, z której pochodzi dana próbka. Na przykład, wydaje się, że znajomość średniej arytmetycznej: | |||
<center> | |||
<math> | |||
\bar{X} = \frac{X_1+ \dots + X_n}{n}</math>, | |||
\bar{X} = \frac{X_1+ \dots + X_n}{n} | </center> | ||
</math></center> | |||
daje nam pewne informacje o nadziei matematycznej <math> | |||
dają pewne informacje o wartości średniej | daje nam pewne informacje o nadziei matematycznej <math>{\Bbb E}(X)</math>. Zauważmy jednak, że istnieją inne estymatory, które także dają pewne informacje o wartości średniej - przykładowo: | ||
= \frac{x_1+ x_n}{2}</math></center> lub | |||
<center><math> | |||
<center> | |||
<math> | |||
T(x_1, \dots, x_n ) | |||
= \frac{x_1+ x_n}{2} | |||
</math> | |||
</center> | |||
lub | |||
<center> | |||
<math> | |||
T(x_1, \dots, x_n ) | |||
= \frac{ | = \frac{ | ||
\min_{1 \le i \le n} \{x_i\} + \max_{1\le i \le n} \{x_i\} }{2} | \min_{1 \le i \le n} \{x_i\} + \max_{1\le i \le n} \{x_i\} }{2}</math> | ||
</math></center> | </center> | ||
Oczywiście, można wskazać jeszcze inne, dość "rozsądne" estymatory nadziei matematycznej. | Oczywiście, można wskazać jeszcze inne, dość "rozsądne" estymatory nadziei matematycznej. | ||
Linia 234: | Linia 287: | ||
W dalszej części podajemy dwa kryteria oceny jakości estymatorów parametrów liczbowych. | W dalszej części podajemy dwa kryteria oceny jakości estymatorów parametrów liczbowych. | ||
{{definicja||| | {{definicja|11.6|def 11.6| | ||
Niech <math>X_1, \dots , X_n</math> będzie próbką prostą | |||
ze zmiennej losowej <math>X</math> oraz niech <math>\mathcal{P} = \{P_\theta : \theta \in \Theta\}</math> będzie rodziną rozkładów, przy czym <math>\Theta \subset {\Bbb R}</math>. | |||
Estymator <math>T(X_1, \dots , X_n)</math> nazywamy estymatorem | |||
nieobciążonym parametru <math>\theta \in \Theta</math>, jeżeli: | |||
<center><math> | |||
{\Bbb E}(T(X_1, \dots , X_n)) = \theta</math></center> | |||
Estymator, który nie jest nieobciążony nazywamy estymatorem obciążonym. | Estymator, który nie jest nieobciążony nazywamy estymatorem obciążonym. | ||
}} | }} | ||
Średnia arytmetyczna jest estymatorem nieobciążonym nadziei matematycznej <math> | {{przyklad|11.7|przy 11.7| | ||
Średnia arytmetyczna jest estymatorem nieobciążonym nadziei matematycznej <math>{\Bbb E}(X)</math>. | |||
Rzeczywiście, stosując podstawowe własności nadziei matematycznej otrzymujemy: | Rzeczywiście, stosując podstawowe własności nadziei matematycznej otrzymujemy: | ||
<center><math> | |||
<center><math> | |||
{\Bbb E}(\bar{X}_n) = {\Bbb E}\left(\frac{X_1+ \dots + X_n}{n}\right) = | {\Bbb E}(\bar{X}_n) = {\Bbb E}\left(\frac{X_1+ \dots + X_n}{n}\right) = | ||
\frac{1}{n}{\Bbb E}(X_1+ \dots + X_n) = \frac{1}{n} n {\Bbb E}(X) = {\Bbb E}(X). | \frac{1}{n}{\Bbb E}(X_1+ \dots + X_n) = \frac{1}{n} n {\Bbb E}(X) = {\Bbb E}(X)</math></center> | ||
</math></center> | |||
}} | |||
{{przyklad|11.8|przy 11.8| | |||
Niech <math>m = {\Bbb E}(X)</math> oraz niech <math>s^2</math> będzie statystyką określoną wzorem: | |||
<center><math> | |||
s^{2}(x_1, \dots, x_n ) = \frac{1}{n} \sum_{i=1}^{n} ( x_{i}-m)^{2}</math></center> | |||
Wówczas estymator odpowiadający statystyce <math>s^2</math> jest nieobciążonym estymatorem wariancji <math>{\Bbb D}^2 (X)</math>. Rzeczywiście: | |||
<center><math> | |||
<center><math> | {\Bbb E}(s^2(X_1, \dots, X_n )) = {\Bbb E}\left( \frac{1}{n} \sum_{i=1}^{n} ( X_{i}-m)^{2} \right) | ||
{\Bbb E}(s^2( | |||
= \frac{1}{n}\sum_{i=1}^{n}{\Bbb E} ( (X_{i}-m)^{2}) | = \frac{1}{n}\sum_{i=1}^{n}{\Bbb E} ( (X_{i}-m)^{2}) | ||
</math></center> | </math></center> | ||
<center><math> | |||
= \frac{1}{n} n {\Bbb D}^2 (X) = {\Bbb D}^2 (X)</math></center> | |||
}} | |||
{{przyklad|11.9|przy 11.9| | |||
W przypadku, gdy nie znamy nadziei | W przypadku, gdy nie znamy nadziei | ||
matematycznej <math> | matematycznej <math>m</math>, możemy także estymować wariancję - | ||
definiujemy wtedy <math> | definiujemy wtedy <math>s^2</math> następująco: | ||
<center><math> | |||
s^{2}( | |||
</math></center> | <center><math> | ||
s^{2}(x_1, \dots, x_n ) = \frac{1}{n} \sum_{i=1}^{n} ( x_{i}-\bar{x})^{2}</math></center> | |||
Okazuje się niestety, iż jest to estymator obciążony. Aby to wykazać, zauważmy najpierw, że ponieważ | Okazuje się niestety, iż jest to estymator obciążony. Aby to wykazać, zauważmy najpierw, że ponieważ | ||
zmienne losowe <math> | zmienne losowe <math>X_i - \bar{X}</math> mają takie same rozkłady, zatem: | ||
<center><math> | |||
<center><math> | |||
{\Bbb E}(s^2(X_1, \dots, X_n )) = \frac{1}{n} n {\Bbb E}((X_1 - \bar{X})^2) | |||
= {\Bbb E}\left(\left(X_1 - \frac{X_1 + \dots + X_n}{n} \right)^2\right) | = {\Bbb E}\left(\left(X_1 - \frac{X_1 + \dots + X_n}{n} \right)^2\right) | ||
</math></center> | </math></center> | ||
<center><math> | |||
= {\Bbb E}\left(\left(\frac{n-1}{n}X_1 - \frac{X_2 + \dots + X_n}{n} \right)^2\right) | |||
<center><math> | |||
= {\Bbb E}\left(\left(\frac{n-1}{n}X_1 - \frac{X_2 + \dots + X_n}{n} \right)^2\right) | |||
</math></center> | </math></center> | ||
<center><math> | |||
<center><math> | |||
= {\Bbb E}\left(\left(\frac{n-1}{n}(X_1 - m)- \frac{(X_2-m) + \dots + (X_n - m)}{n} \right)^2\right) | |||
</math></center> | </math></center> | ||
(tę ostatnią równość otrzymano dodając i odejmując liczbę <math> | |||
(tę ostatnią równość otrzymano dodając i odejmując liczbę <math>\frac{n-1}{n}m</math>). | |||
Po podniesieniu do kwadratu odpowiednich wyrażeń i wykorzystaniu następującego faktu, | Po podniesieniu do kwadratu odpowiednich wyrażeń i wykorzystaniu następującego faktu, | ||
wynikającego z niezależności zmiennych losowych | wynikającego z niezależności zmiennych losowych | ||
<math> | <math>X_i</math> i <math>X_j</math> (patrz [[Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych#tw_7.15|twierdzenie 7.15]]): | ||
<center><math> | |||
<center><math> | |||
{\Bbb E}((X_i - m)(X_j - m)) = {\Bbb E}(X_i - m){\Bbb E}(X_j - m) = 0 \cdot 0 = 0\;\;</math> dla <math>\;i \neq j</math>,</center> | |||
otrzymujemy: | otrzymujemy: | ||
<center><math> | |||
<center><math> | |||
<center><math> | |||
{\Bbb E}(s^2(X_1, \dots, X_n )) = \frac{1}{n^2}\left((n-1)^2{\Bbb E}((X_1-m)^2) +E((X_2 - m)^2)+\dots\right. | |||
</math></center> | |||
<center><math> | |||
\left.+ E((X_n - m)^2)\right) | |||
= \frac{1}{n^2} \left((n-1)^2 {\Bbb D}^2 (X) + (n-1) {\Bbb D}^2 (X) \right) | = \frac{1}{n^2} \left((n-1)^2 {\Bbb D}^2 (X) + (n-1) {\Bbb D}^2 (X) \right) | ||
</math></center> | </math></center> | ||
Pomimo tego, iż zdefiniowany w poprzednim przykładzie estymator <math> | <center><math> | ||
jest on często używany, gdyż dla dużej próbki: <center><math> | = \frac{1}{n^2}(n-1) (n -1+1) {\Bbb D}^2 (X) = \frac{n-1}{n} {\Bbb D}^2 (X)</math></center> | ||
Inaczej mówiąc, obciążenie tego estymatora jest dla dużych <math> | |||
}} | |||
{{uwaga|11.10|uw 11.10| | |||
Pomimo tego, iż zdefiniowany w poprzednim przykładzie estymator <math>s^2(X_1, \dots, X_n )</math> jest obciążony, jest on często używany, gdyż dla dużej próbki: | |||
<center><math> | |||
\frac{n-1}{n}\approx 1</math></center> | |||
Inaczej mówiąc, obciążenie tego estymatora jest dla dużych <math>n</math> nieistotne. Estymatory o takiej | |||
własności nazywa się estymatorami asymptotycznie nieobciążonymi. | własności nazywa się estymatorami asymptotycznie nieobciążonymi. | ||
}} | }} | ||
{{uwaga||| | {{uwaga|11.11|uw 11.11| | ||
Wynik uzyskany w [[#przy_11.9|przykładzie 11.9]] można wykorzystać do konstrukcji nieobciążonego estymatora wariancji. | |||
Jest nim oczywiście: | |||
<center><math> | |||
s_*^{2}(X_1, \dots, X_n ) = \frac{n}{n-1} s^2(X_1, \dots, X_n ) = \frac{1}{n-1} \sum_{i=1}^{n} ( X_{i}-\bar{X})^{2}</math>,</center> | |||
gdyż: | |||
<center><math> | |||
{\Bbb E}(s_*^{2}(X_1, \dots, X_n )) = \frac{n}{n-1} {\Bbb E}(s^2(X_1, \dots, X_n ) ) = {\Bbb D}^2 (X)</math></center> | |||
}} | }} | ||
{{definicja||| | {{definicja|11.12|def 11.12| | ||
Niech <math>X_1, \dots , X_n</math> będzie próbką prostą | |||
ze zmiennej losowej <math>X</math> oraz niech <math>\mathcal{P} = \{P_\theta : \theta \in \Theta\}</math> będzie rodziną rozkładów, | |||
przy czym <math>\theta\subset {\Bbb R}</math>. Estymator <math>T(X_1, \dots , X_n)</math> nazywamy | |||
estymatorem zgodnym parametru <math>\theta \in \Theta</math>, jeżeli: | |||
<center><math> | |||
T(X_1, \dots, X_n ) \stackrel{1}{\longrightarrow} \theta</math></center> | |||
}} | }} | ||
Średnia <math> | {{przyklad|11.13|przy 11.13| | ||
liczb ( | Średnia <math>\bar{X}</math> jest estymatorem zgodnym nadziei matematycznej - wynika to natychmiast z mocnego prawa wielkich liczb ([[Rachunek prawdopodobieństwa i statystyka/Wykład 7: Parametry rozkładów zmiennych losowych#tw_7.22|twierdzenie 7.22]]). | ||
}} |
Aktualna wersja na dzień 22:12, 11 wrz 2023
Wnioskowanie statystyczne
Omówimy ogólne aspekty wnioskowania statystycznego. Postawimy trzy naturalne problemy: problem estymacji punktowej, problem estymacji przedziałowej oraz problem testowania hipotez, a następnie przeformułujemy je w sposób dający szansę na ich rozwiązanie. Podamy definicje statystyki i estymatora oraz ich podstawowe własności.
Pojęcia podstawowe
Jak pamiętamy, statystyka opisowa dotyczy sytuacji, w których mamy do czynienia z pewną cechą (lub cechami) elementów określonej populacji oraz znamy wartość tej cechy dla każdego jej elementu (lub przynajmniej znamy dane zgrupowane w szeregu rozdzielczym). Z zupełnie innym problemem mamy do czynienia w przypadku, gdy znamy wartości cechy tylko dla pewnej liczby elementów, a chcemy tę cechę jakoś scharakteryzować w odniesieniu do całej populacji. Na przykład, wyniki jakie podaje komisja wyborcza po przeliczeniu wszystkich oddanych głosów pozwalają jednoznacznie podać procent wyborców popierających daną partię, powiedzmy partię . Jest to zrobione na podstawie danych o każdej osobie, która poszła do wyborów. Natomiast sondaż przeprowadzany przez ankieterów przed lokalami wyborczymi dotyczy tylko niewielkiej części głosujących, a jednak na jego podstawie jest podawany procent wyborców popierających partię . Jest to możliwe dzięki metodom tak zwanego wnioskowania statystycznego.
Wymienimy poniżej trzy typowe problemy, które dają się rozwiązać metodami wnioskowania statystycznego. Ogólny kontekst jest w każdym przypadku taki sam: obserwujemy wartości pewnej cechy dla wybranych jej elementów i na tej podstawie chcemy odpowiedzieć na jedno z pytań, dotyczących konkretnego parametru tej cechy (na przykład jej wartości średniej).
1. Ile wynosi parametr (na przykład średnia) naszej cechy w całej populacji? Estymacja punktowa
2. W jakim zakresie (zbiorze) znajduje się ten parametr? Estymacja przedziałowa
3. Czy prawdą jest, że nasz parametr należy do określonego zbioru? Testowanie hipotez statystycznych
Zauważmy, że tak sformułowane problemy są faktycznie niemożliwe do rozwiązania. Przykładowo, nie możemy z całą pewnością , na podstawie sondażu przed lokalami wyborczymi, jakie poparcie uzyskała partia . Dlatego nasze pytania muszą zostać przeformułowane tak, aby można było na nie sensownie odpowiedzieć. Aby to zrobić, najpierw zbudujemy pewien model matematyczny, a następnie zajmiemy się kolejno rozwiązywaniem powyższych problemów. W tym miejscu zauważmy jeszcze tylko to, że są one ze sobą silnie związane - gdybyśmy umieli w pełni rozwiązać problem estymacji punktowej, umielibyśmy też oczywiście rozwiązać problemy estymacji przedziałowej i testowania hipotez.
Na początku zakładamy, że interesująca nas cecha ma charakter losowy, czyli że jest ona zmienną losową (lub wektorem losowym) określoną na pewnej przestrzeni probabilistycznej, powiedzmy . W takim razie, interesujący nas parametr jest parametrem zmiennej losowej lub, bardziej precyzyjnie, parametrem rozkładu tej
zmiennej. Wówczas zamiast mówić, na przykład, o wartości średniej danej cechy, będziemy mówić o nadziei
matematycznej odpowiadającej jej zmiennej losowej. Tak więc sformułowane powyżej pytania dotyczą parametrów rozkładu .
Dość często możemy z góry założyć, że nasza cecha posiada rozkład określonego typu. Na przykład, gdy prowadzimy sondaż, nasza cecha ma rozkład dwupunktowy : "0" oznacza, że wyborca nie głosował na partię , zaś "1" oznacza, że na tę partię głosował - nas natomiast interesuje parametr , a właściwie . Często też, korzystając z centralnego twierdzenia granicznego, można założyć, że dana cecha ma rozkład - wtedy parametr odpowiada średniej wartości cechy, zaś - jej odchyleniu standardowemu.
W związku z powyższym, przyjmujemy ogólne założenie, że mamy ustaloną jakąś rodzinę rozkładów prawdopodobieństwa, indeksowaną przez pewien parametr - będziemy pisać:
W pierwszym z powyższych przypadków
jest rodziną rozkładów dwupunktowych , a więc jest
przedziałem , zaś w drugim - jest rodziną wszystkich
rozkładów normalnych, zatem jest iloczynem
kartezjańskim . Dopuszcza się też
możliwość, że jest zbiorem wszystkich możliwych
rozkładów prawdopodobieństwa, czyli że .
Możemy teraz, przy powyższych założeniach i oznaczeniach, interesujące nas zagadnienia sformułować w następujący sposób:
1' znaleźć takie, że ,
2' znaleźć zbiór taki, że dla pewnego ,
3' czy prawdą jest, że dla pewnego , gdzie jest z góry ustalonym zbiorem?
Zauważmy jednak, iż tak sformułowane zadania są w dalszym ciągu niewykonalne, a zatem powinny zostać jeszcze trochę przeformułowane, czym zajmujemy się w kolejnym punkcie.
Model statystyczny
Wracamy do budowy modelu matematycznego dla naszych zagadnień.
Załóżmy, że obserwujemy ciąg zmiennych losowych, powiedzmy , określonych na przestrzeni probabilistycznej (przypominamy, że na tej samej przestrzeni jest określona także zmienna losowa , reprezentująca daną cechę), z których każda ma taki sam rozkład jak , czyli:
Tak zdefiniowany ciąg nazywa się próbką ze
zmiennej losowej -
odpowiada on zaobserwowanym faktycznie wartościom cechy, powiedzmy (ten ostatni ciąg także nazywa się próbką wartości
cechy, tak więc w dalszej części będziemy mówić po prostu o próbce, a
z kontekstu będzie wynikać znaczenie, w jakim słowo to
zostało użyte). Bardzo często zdarza się, iż obserwacje wartości cechy są
niezależne od siebie - jeżeli tak jest, to ciąg
nazywa się próbką prostą. W języku zmiennych losowych
mówimy, że jest próbką prostą, gdy zmienne
losowe tworzą próbkę i są niezależnymi
zmiennymi losowymi. W dalszej części będziemy rozważać
tylko próbki proste.
Wprowadzimy teraz dwa nowe terminy.
Definicja 11.1
Statystyką nazywamy dowolną funkcję , która jest mierzalna ze względu na -algebrę zbiorów borelowskich , to znaczy:
Okazuje się, iż zdecydowana większość rozważanych w praktyce funkcji spełnia powyższą definicję. Zauważmy, ze jeżeli na przestrzeni określimy rozkład prawdopodobieństwa, powiedzmy , to znaczy gdy jest przestrzenią probabilistyczną, to statystyka jest -wymiarowym wektorem losowym, określonym na tej przestrzeni.
Definicja 11.2
Niech będzie próbką prostą ze zmiennej losowej . Estymatorem parametru zmiennej nazywamy zmienną losową, będącą złożeniem wektora losowego ze statystyką , czyli funkcję:
Opuszczając znak operatora złożenia "", co się często w praktyce czyni, możemy estymator oznaczyć (nieściśle) jako:
Przykład 11.3
Przykładem statystyki jest średnia:
a odpowiadającym jej estymatorem jest:
Dla tej statystyki jak i tego estymatora zarezerwowano następujące oznaczenia:
Przykład 11.4
Innym przykładem statystyki jest tak zwana statystyka pozycyjna:
gdzie oznaczają elementy próbki ustawione w porządku rosnącym:
Estymator, jak każdy wektor losowy, posiada swój rozkład , który będziemy w skrócie oznaczać symbolem . Dość często utożsamia się statystykę z odpowiadającym jej estymatorem i w związku z tym mówi się także, że jest rozkładem statystyki . Oczywiście, rozkład zależy w sposób jednoznaczny od rozkładu zmiennej losowej , z której pochodzi próbka prosta. Istnieją twierdzenia, dzięki którym można w szczególnych przypadkach efektywnie wyznaczyć tę zależność.
Przykład 11.5
Wiadomo (patrz twierdzenie 9.2), że gdy zmienna ma rozkład , to rozkład statystyki jest rozkładem . Natomiast w przypadku, gdy nie znamy rozkładu zmiennej , a jedynie jej nadzieję matematyczną i odchylenie standardowe , ale wielkość próbki jest duża, to z centralnego twierdzenia granicznego wynika, że ma w przybliżeniu rozkład
.Estymatory nieobciążone i zgodne
Jednym z zadań statystyki jest znajdowanie estymatorów (a więc statystyk), które w jakimś sensie mówią nam o rozkładzie zmiennej losowej , z której pochodzi dana próbka. Na przykład, wydaje się, że znajomość średniej arytmetycznej:
,
daje nam pewne informacje o nadziei matematycznej . Zauważmy jednak, że istnieją inne estymatory, które także dają pewne informacje o wartości średniej - przykładowo:
lub
Oczywiście, można wskazać jeszcze inne, dość "rozsądne" estymatory nadziei matematycznej.
Powstaje więc problem, jaki estymator należy stosować w konkretnej sytuacji. Rozwiązuje się go w ten sposób, że wprowadza się kilka kryteriów, które powinien spełniać "dobry" estymator, a następnie bada się, czy rozpatrywany przez nas estymator spełnia te kryteria. Istnieją też sposoby porównywania między sobą estymatorów tego samego parametru.
W dalszej części podajemy dwa kryteria oceny jakości estymatorów parametrów liczbowych.
Definicja 11.6
Niech będzie próbką prostą ze zmiennej losowej oraz niech będzie rodziną rozkładów, przy czym . Estymator nazywamy estymatorem nieobciążonym parametru , jeżeli:
Estymator, który nie jest nieobciążony nazywamy estymatorem obciążonym.
Przykład 11.7
Średnia arytmetyczna jest estymatorem nieobciążonym nadziei matematycznej . Rzeczywiście, stosując podstawowe własności nadziei matematycznej otrzymujemy:
Przykład 11.8
Niech oraz niech będzie statystyką określoną wzorem:
Wówczas estymator odpowiadający statystyce jest nieobciążonym estymatorem wariancji . Rzeczywiście:
Przykład 11.9
W przypadku, gdy nie znamy nadziei matematycznej , możemy także estymować wariancję - definiujemy wtedy następująco:
Okazuje się niestety, iż jest to estymator obciążony. Aby to wykazać, zauważmy najpierw, że ponieważ
zmienne losowe mają takie same rozkłady, zatem:
(tę ostatnią równość otrzymano dodając i odejmując liczbę ).
Po podniesieniu do kwadratu odpowiednich wyrażeń i wykorzystaniu następującego faktu,
wynikającego z niezależności zmiennych losowych
i (patrz twierdzenie 7.15):
otrzymujemy:
Pomimo tego, iż zdefiniowany w poprzednim przykładzie estymator jest obciążony, jest on często używany, gdyż dla dużej próbki:
Inaczej mówiąc, obciążenie tego estymatora jest dla dużych nieistotne. Estymatory o takiej
własności nazywa się estymatorami asymptotycznie nieobciążonymi.
Wynik uzyskany w przykładzie 11.9 można wykorzystać do konstrukcji nieobciążonego estymatora wariancji. Jest nim oczywiście:
gdyż:
Definicja 11.12
Niech będzie próbką prostą ze zmiennej losowej oraz niech będzie rodziną rozkładów, przy czym . Estymator nazywamy estymatorem zgodnym parametru , jeżeli:
Przykład 11.13
Średnia jest estymatorem zgodnym nadziei matematycznej - wynika to natychmiast z mocnego prawa wielkich liczb (twierdzenie 7.22).