Rachunek prawdopodobieństwa i statystyka/Wykład 13: Przedziały ufności i testy

From Studia Informatyczne

Istotną część wnioskowania statystycznego stanowią estymacja przedziałowa i testowanie hipotez. Podamy przykłady podstawowych metod związanych z tymi zagadnieniami. Wyznaczymy przedziały ufności dla średniej w standardowych sytuacjach. Pokażemy jak się wykonuje testy statystyczne, stosując podejście klasyczne i współczesne. Opiszemy test \displaystyle \chi^2 dopasowania rozkładu.

Spis treści

Estymacja przedziałowa

Estymacja punktowa omówiona na poprzednim wykładzie nie daje odpowiedzi na pytanie, jak pewny jest otrzymany wynik estymacji, czyli jak dokładnie przybliża on prawdziwą wartość estymatora. Niedogodność tę można częściowo pokonać, wyznaczając tak zwane przedziały ufności dla określonych parametrów, które definiujemy następująco:

Definicja 13.1

Niech \displaystyle \alpha\in (0,1) będzie ustaloną liczbą (zwykle \displaystyle \alpha jest równe \displaystyle 0.01, \displaystyle 0.05 lub \displaystyle 0.1). Przedział \displaystyle A = A_{ \displaystyle X_1, \dots, X_n\displaystyle  } \subset {\Bbb R}, zależny od próbki losowej \displaystyle X_1, \dots, X_n , nazywamy przedziałem ufności parametru \displaystyle \theta \in T na poziomie ufności \displaystyle \alpha, jeżeli:


\displaystyle  P(\theta \in A) = 1 - \alpha.


Przykład 13.2

Kontrolując pewną hurtownię zważono 10 torebek cukru, otrzymując następujące wyniki (w gramach):


\displaystyle  1002, \;1003,\; 997,\; 997,\; 994,\; 995,\; 998,\; 997,\; 1003,\; 999.


Jaka jest średnia waga torebki cukru w tej hurtowni?

Zakładając, że waga torebki cukru ma rozkład normalny, można na przykład użyć metody największej wiarygodności i obliczyć estymator:


\displaystyle  \bar{x}_{10} = 998.5.


Jednak nas interesuje coś więcej - od czego jest mniejsza średnia waga torebki cukru, przy czym nie musimy (i nie potrafimy) mieć absolutnie pewnego wyniku. Mówiąc inaczej, szukamy liczby \displaystyle b takiej, że:


\displaystyle  P(m \le b) = 0.9,


gdzie \displaystyle m oznacza nadzieję matematyczną wagi torebki cukru w hurtowni.

Przed przystąpieniem do rozwiązywania naszego zadania, ujawnijmy wynik:


\displaystyle  b = 999.716.


(wynik ten otrzymano przy założeniu, że dokładność wagi wynosi 3 g). Używając języka potocznego możemy więc powiedzieć, że mamy \displaystyle 90\% pewności, że średnia waga torebki cukru jest mniejsza niż 999.716 g. Przedział:


\displaystyle  (- \infty, 999.716)


nazywamy \displaystyle 90\% przedziałem ufności dla nadziei matematycznej. Oczywiście, można mówić także o \displaystyle 95\%, \displaystyle 99\% oraz innych przedziałach ufności. W naszym przypadku \displaystyle 95\% przedział ufności to \displaystyle ( - \infty,1000.060), zaś \displaystyle 99\% przedział ufności to \displaystyle ( -\infty,1000.707). Tak więc nie możemy już twierdzić, że na \displaystyle 95\%, ani tym bardziej na \displaystyle 99\%, waga jednej torebki cukru jest mniejsza od 1 kg.

Przedstawimy teraz rozwiązanie problemu, który jest oczywistym uogólnieniem powyższego przykładu, uzyskując, jako wyniki szczególne, przytoczone powyżej rozwiązania.

Załóżmy, że dana jest próbka prosta \displaystyle x_1, \dots, x_n z rozkładu \displaystyle N(m,\sigma), przy czym zakładamy najpierw, że znamy odchylenie standardowe \displaystyle \sigma (w przypadku ważenia cukru może ono odpowiadać znanej dokładności wagi, którą dysponujemy). Dla ustalonej liczby \displaystyle \alpha\in (0,1) szukamy takiej liczby \displaystyle b, że:


\displaystyle  P(m \le b) = 1 - \alpha.

(równie dobrze można było pisać \displaystyle \alpha zamiast \displaystyle 1 - \alpha; my jednak postępujemy zgodnie z tradycją).


Ponieważ (patrz twierdzenie 9.2) estymator:


\displaystyle \displaystyle  Z_n  = \frac{\bar{X}_n - m}{\sigma}\sqrt{n}


ma rozkład \displaystyle N(0,1), zatem:


\displaystyle  P(m \le b) = P( - m \ge - b) = P\left(\frac{\bar{X}_n - m}{\sigma}\sqrt{n} \ge \frac{\bar{X}_n - b}{\sigma}\sqrt{n}\right)


\displaystyle  = P\left(Z_n \ge \frac{\bar{X}_n - b}{\sigma}\sqrt{n}\right).


Teraz, z jednej strony:


\displaystyle  P(m \le b) = 1 - \alpha,


zaś z drugiej strony:


\displaystyle  P\left(Z_n \ge \frac{\bar{X}_n - b}{\sigma}\sqrt{n}\right) = 1 - \Phi\left(\frac{\bar{X}_n - a}{\sigma}\sqrt{n}\right).


Mamy więc:


\displaystyle  \Phi\left(\frac{\bar{X}_n - b}{\sigma}\sqrt{n}\right) = \alpha


i stąd:


\displaystyle  \frac{\bar{X}_n - b}{\sigma}\sqrt{n} = \Phi^{-1}{(\alpha)},


co daje wynik:


\displaystyle  b = \bar{X}_n -\sigma \frac{\Phi^{-1}(\alpha)}{\sqrt{n}} = \bar{X}_n +\sigma \frac{\Phi^{-1}(1-\alpha)}{\sqrt{n}}.


Wróćmy do przykładu 13.2 - w tym przypadku \displaystyle n = 10 oraz \displaystyle \sigma = 3 (dokładność wagi). Ponieważ obserwujemy próbkę, więc w powyższym wzorze w miejsce estymatora średniej podstawiamy wartość odpowiadającej mu statystyki (obliczonej na podstawie tej próbki), czyli:


\displaystyle  \bar{X}_{10} = \bar{x}_{10} = 998.5.


Teraz przyjmując za \displaystyle \alpha kolejno liczby \displaystyle 0.1, \displaystyle 0.05 oraz \displaystyle 0.01, otrzymamy ujawnione wcześniej wartości \displaystyle b.

Opisane powyżej zagadnienie można modyfikować na różne sposoby. Po pierwsze, może nas interesować przedział ufności innego typu, na przykład postaci: \displaystyle (a, \infty) lub \displaystyle (\bar{x}_n - \varepsilon, \bar{x}_n + \varepsilon). Po drugie, nie zawsze można założyć, że znamy odchylenie standardowe \displaystyle \sigma. Po trzecie, założenie, że rozkład jest normalny, często nie jest spełnione. Możemy także być zainteresowani znalezieniem przedziału ufności dla innego, niż nadzieja matematyczna, parametru rozkładu.

Istnieją różne metody radzenia sobie w wymienionych przypadkach, ale większość z nich polega na zastosowaniu podobnego do poprzedniego schematu postępowania, który polega na wykorzystaniu pewnej zmiennej losowej o znanym rozkładzie, będącej funkcją estymatora interesującego nas parametru, a następnie na obliczeniu na jej podstawie (oraz na podstawie zaobserwowanej próbki) końców przedziału ufności na określonym z góry poziomie ufności \displaystyle 1-\alpha. W naszych wcześniejszych rozważaniach tą zmienną losową była zmienna \displaystyle Z_n, zaś jej rozkład był znany na podstawie twierdzenia 9.2, przy czym uwzględniliśmy założoną wcześniej znajomość \displaystyle \sigma. Poniżej opiszemy dwie sytuacje, w których kolejny raz zastosujemy opisany właśnie sposób postępowania.

Zakładamy najpierw, że obserwujemy próbkę prostą \displaystyle x_1, \dots, x_n z pewnego nieznanego rozkładu, przy czym \displaystyle n jest dużą liczbą (już dla \displaystyle n \ge 30 poniższe rozumowanie prowadzi do dobrych rezultatów). Na podstawie tej próbki chcemy wyznaczyć \displaystyle 100(1- \alpha)\% przedział ufności dla nadziei matematycznej \displaystyle m tego rozkładu, postaci:


\displaystyle  (\bar{x_n} - \varepsilon, \bar{x_n} + \varepsilon).


Aby rozwiązać powyższe zadanie wykorzystamy pewną modyfikację zmiennej losowej:


\displaystyle   Z_n  = \frac{\bar{X}_n - m}{\sigma}\sqrt{n}.


Po pierwsze, na podstawie centralnego twierdzenia granicznego (oraz tego, że \displaystyle n jest duże) możemy założyć, że zmienna ta ma rozkład \displaystyle N(0,1). Nie możemy jednak bezpośrednio jej wykorzystać, tak jak to zrobiliśmy poprzednio, gdyż tym razem nie założyliśmy znajomości parametru \displaystyle \sigma. Problem ten pokonujemy wykorzystując to, że dla dużych \displaystyle n liczba:


\displaystyle s = \sqrt{\frac{1}{n}\sum_{i=1}(x_i - \bar{x}_n)^2}


dobrze przybliża \displaystyle \sigma (dlaczego?). Rozważamy więc zmienną losową:


\displaystyle  W_n  = \frac{\bar{X}_n - m}{s}\sqrt{n},


o której można założyć, że ma rozkład \displaystyle N(0,1), a której wartość może być już teraz wyliczona na podstawie samej tylko próbki \displaystyle x_1, \dots, x_n. Naszym zadaniem jest znalezienie takiego \displaystyle \varepsilon, że:


\displaystyle  P(m \in (\bar{X_n} - \varepsilon, \bar{X_n} + \varepsilon)) = 1 -\alpha.


Przekształcamy więc kolejno:


\displaystyle  P(m \in (\bar{X_n} - \varepsilon, \bar{X_n} + \varepsilon))=P\left(|\bar{X}_n - m| \le \varepsilon\right)   = P\left(|W_n| \le \frac{\varepsilon}{s}\sqrt{n}\right)


\displaystyle  =\Phi\left(\frac{\varepsilon}{s}\sqrt{n}\right) - \Phi\left(-\frac{\varepsilon}{s}\sqrt{n}\right) = 2\Phi\left(\frac{\varepsilon}{s}\sqrt{n}\right) - 1.


Stąd:


\displaystyle  \Phi\left(\frac{\varepsilon}{s}\sqrt{n}\right) = 1 - \frac{\alpha}{2},


czyli:


\displaystyle  \frac{\varepsilon}{s}\sqrt{n} = \Phi^{-1}\left(1 - \frac{\alpha}{2}\right)


i wreszcie:


\displaystyle  \varepsilon = \frac{s}{\sqrt{n}} \Phi^{-1}\left(1 - \frac{\alpha}{2}\right).


Wiem zatem, że z prawdopodobieństwem \displaystyle 1 - \alpha wartość parametru \displaystyle m znajduje się w przedziale:


\displaystyle  \left(\bar{x}_n - \frac{s}{\sqrt{n}} \Phi^{-1}\left(1 - \frac{\alpha}{2}\right), \  \bar{x}_n + \frac{s}{\sqrt{n}} \Phi^{-1}\left(1 - \frac{\alpha}{2}\right)\right).


Nasuwa się teraz pytanie o to, jak postępować gdy próbka \displaystyle x_1, \dots, x_n jest mała, a (tak jak poprzednio) chcemy wyznaczyć \displaystyle 100(1- \alpha)\% przedział ufności dla nadziei matematycznej \displaystyle m rozkładu, z którego ona pochodzi. Niestety, w przypadku gdy nie znamy charakteru tego rozkładu, zadanie to jest niewykonalne przy użyciu naszej metody[1]

Załóżmy więc dodatkowo, że próbka pochodzi z rozkładu \displaystyle N(m,\sigma) o nieznanym odchyleniu standardowym. Zmienną losową, którą tutaj wykorzystamy, jest:


\displaystyle  \displaystyle t = \frac{\bar{X}_n - m}{s}\sqrt{n}, \ \ \ gdzie \displaystyle    s = \sqrt{\frac{1}{n-1}\sum_{i=1}(X_i - \bar{X}_n)^2}.      (13.1)


Okazuje się, że zmienna ta ma tak zwany rozkład Studenta, nazywany czasem także rozkładem \displaystyle t. Rozkład ten posiada jeden parametr \displaystyle n, który określa się jako liczbę stopni swobody. Nie podajemy tutaj dość skomplikowanego wzoru na gęstość tego rozkładu - praktycznie wszystkie standardowe programy komputerowe posiadające odpowiednie pakiety funkcji statystycznych (a więc, między innymi, programy Maple i Excel), podają wartości dystrybuanty \displaystyle F_{t_n}(x) oraz kwantyli \displaystyle F_{t_n}^{-1}(\alpha) dla wszystkich wartości \displaystyle n, gdzie \displaystyle t_n oznacza rozkład Studenta o \displaystyle n stopniach swobody. Rozkład Studenta, podobnie jak rozkład \displaystyle N(0,1), jest symetryczny, zatem:


\displaystyle  F_{t_n}(-x) = 1 - F_{t_n}(x)\;\; dla każdego \displaystyle   x\in {\Bbb R},


co znakomicie ułatwia korzystanie z tablic. Co więcej, dystrybuanta \displaystyle F_{t_n} zmierza do dystrybuanty standardowego rozkładu normalnego, czyli dla każdego \displaystyle x \in {\Bbb R}:


\displaystyle  F_{t_n}(x) \longrightarrow \Phi(x), \;\; gdy \displaystyle   n \longrightarrow \infty.


Okazuje się, że już dla \displaystyle n = 20 wynikające z powyższej zbieżności przybliżenie jest całkiem dobre. Następująca animacja obrazuje zbieżność gęstości rozkładu \displaystyle t (linia niebieska) do gęstości standardowego rozkładu normalnego (linia czerwona):



Kluczowym dla naszych dalszych rozważań jest następujące:

Twierdzenie 13.3

Dla próbki prostej \displaystyle X_1, \dots, X_n pochodzącej z rozkładu \displaystyle N(m,\sigma), estymator \displaystyle t, określony wzorem 13.1, ma rozkład Studenta o \displaystyle n-1 stopniach swobody. Inaczej:


\displaystyle  P(t \le x) = F_{t_{n-1}}(x)\;\; dla każdego \displaystyle   x \in {\Bbb R}.


Dzięki temu, że rozkład Studenta jest symetryczny można, tak jak poprzednio, wyprowadzić wzory na przedziały ufności typu \displaystyle (-\infty,b), \displaystyle (a,\infty) oraz \displaystyle (\bar{x}_n - \varepsilon, \bar{x}_n + \varepsilon). Proponujemy Czytelnikowi aby sprawdził, że przedziałami tymi odpowiednio są:


\displaystyle  \left(- \infty,  \bar{X}_n + s \frac{F_{t_{n-1}}^{-1}(1-\alpha)}{\sqrt{n}}\right),      (13.2)


\displaystyle  \left(\bar{X}_n - s \frac{F_{t_{n-1}}^{-1}(1-\alpha)}{\sqrt{n}}, \infty\right),      (13.3)


\displaystyle  \left(\bar{X}_n - s \frac{F_{t_{n-1}}^{-1}(1-\frac{\alpha}{2})}{\sqrt{n}}, \bar{X}_n + s \frac{F_{t_{n-1}}^{-1}(1-\frac{\alpha}{2})}{\sqrt{n}}\right),      (13.4)

gdzie, zgodnie z naszymi oznaczeniami, \displaystyle F_{t_{n-1}}^{-1}(u) oznacza kwantyl rzędu \displaystyle u w rozkładzie \displaystyle t o \displaystyle n-1 stopniach swobody.

Powyższe wzory stosuje się zazwyczaj, gdy próbka jest mała, to znaczy gdy \displaystyle n \le 30. Faktycznie, dla \displaystyle n \ge 20 rozkład \displaystyle t_n niewiele różni się od rozkładu \displaystyle N(0,1), a wraz ze wzrostem \displaystyle n różnica ta jest coraz mniejsza. Tak więc, zadane wzorami (13.2), (13.3) i (13.4) przedziały ufności są praktycznie takie same jak te wcześniejsze, wyznaczone w oparciu o centralne twierdzenie graniczne.

Można także wyprowadzić wzory na przedziały ufności dla pozostałych parametrów, przyjmując zarówno takie same, jak i inne niż poprzednio założenia o charakterze rozkładu. Tutaj jednak ograniczymy się tylko do jednego, ale bardzo ważnego przypadku.

Załóżmy, że próbka prosta \displaystyle x_1, \dots, x_npochodzi z rozkładu dwupunktowego \displaystyle (0,1,p) i że na jej podstawie chcemy wyznaczyć przedział ufności dla parametru \displaystyle p. W przypadku, gdy liczność próbki jest mała (\displaystyle n < 30), wzory takie są dość skomplikowane. Natomiast, gdy wielkość próbki jest duża, można wykorzystać to, że nadzieja matematyczna zmiennej losowej, z której pochodzi dana próbka, wynosi \displaystyle p, natomiast jej wariancja jest równa \displaystyle p(1-p). Stosując podobne rozumowanie jak poprzednio można otrzymać następujące wzory na \displaystyle (1- \alpha)100\% przedziały ufności dla \displaystyle p:


\displaystyle  \left(\hat{p} - \frac{\sqrt{\hat{p}(1-\hat{p})}}{\sqrt{n}} \Phi^{-1}\left(1 - \frac{\alpha}{2}\right), \  \hat{p} + \frac{\sqrt{\hat{p}(1-\hat{p})}}{\sqrt{n}} \Phi^{-1}\left(1 - \frac{\alpha}{2}\right)\right),


\displaystyle  \left(0, \  \hat{p} + \frac{\sqrt{\hat{p}(1-\hat{p})}}{\sqrt{n}} \Phi^{-1}\left(1 - \alpha\right)\right),


\displaystyle  \left(\hat{p} - \frac{\sqrt{\hat{p}(1-\hat{p})}}{\sqrt{n}} \Phi^{-1}\left(1 - \alpha\right), 1\right),


gdzie:


\displaystyle  \hat{p}=\bar{x}_n  = \frac{k}{n},


zaś \displaystyle k oznacza liczbę jedynek (czyli liczbę "sukcesów") w próbce \displaystyle x_1, \dots, x_n .

Na zakończenie tego punktu zwróćmy uwagę na to, że przedziały ufności dla niektórych parametrów mogą być także wyznaczane przy pomocy programów typu Maple lub Excel.

Testowanie hipotez

Często zdarzają się sytuacje, w których, na podstawie posiadanych obserwacji, powinniśmy podjąć określone decyzje. Pomocą może nam służyć tutaj teoria testowania hipotez statystycznych. W naszym kursie ograniczamy się jedynie do najprostszych przypadków testów parametrycznych, a nasz sposób podejścia opiera się na wyznaczaniu tak zwanej wartości-\displaystyle p (ang. \displaystyle p-value) - metodzie, która stała się popularna dopiero po upowszechnieniu się komputerów. Oczywiście, omówimy także podejście tradycyjne - więcej na ten temat można przeczytać praktycznie we wszystkich podręcznikach, które zawierają elementy statystyki.

Jak zwykle, zaczniemy od przykładu. Powróćmy do zagadnienia oceny średniej wagi torebki cukru w pewnej hurtowni (patrz przykład 13.2) i postawmy nasz problem trochę inaczej. Zapytajmy mianowicie, czy prawdą jest, że średnia waga torebki cukru w tej hurtowni wynosi 1 kg, czy może jednak jest mniejsza od 1 kg?

Formalnie rzecz ujmując, stawiamy tutaj dwie hipotezy: tak zwaną hipotezę zerową, oznaczaną zwykle jako \displaystyle H_0, oraz hipotezę alternatywną, oznaczaną jako \displaystyle H_1. W naszym przypadku:


\displaystyle H_0\colon m = 1000, \ \ \ \ H_1\colon m < 1000,


gdzie \displaystyle m jest średnią wagą torebki. Aby rozstrzygnąć zadany problem, musimy dysponować statystyką testową, powiedzmy \displaystyle T, która przy założeniu prawdziwości hipotezy \displaystyle H_0 posiada następujące własności:

(1) znany jest rozkład \displaystyle T,

(2) można obliczyć wartość \displaystyle T dla danej próbki prostej,

(3) jej zachowanie wyraźnie wskazuje na zachodzenie \displaystyle H_0 lub \displaystyle H_1.

Następnie dla zaobserwowanej próbki prostej \displaystyle x_1, \dots, x_n liczymy tak zwaną wartość-\displaystyle p (\displaystyle p-value), to znaczy:


\displaystyle P( T( \displaystyle x_1, \dots, x_n\displaystyle  ) \in K),


przy czym \displaystyle K jest tak dobrane, że:

(1) \displaystyle K najlepiej świadczy na korzyść \displaystyle H_1,

(2) \displaystyle T( \displaystyle x_1, \dots, x_n\displaystyle   ) \in K.

Przykład 13.4

Rozważmy następujące wyniki (te same co w przykładzie 13.2) ważenia 10 torebek cukru (w gramach):


\displaystyle  1002,\; 1003,\; 997,\; 997,\; 994,\; 995,\; 998,\; 997,\; 1003,\; 999.


Załóżmy, że jest to próbka prosta z rozkładu \displaystyle N(m,\sigma) o znanym odchyleniu standardowym \displaystyle \sigma = 3. Jako statystykę testową bierzemy:


\displaystyle  Z_n  = \frac{\bar{X}_n - m}{\sigma}\sqrt{n},


która, jak wiemy, posiada rozkład \displaystyle N(0,1). Z przykładu 13.2 pamiętamy, że \displaystyle \bar{x}_{10} = 998.5, łatwo więc obliczyć wartość powyższej statystyki dla naszej próbki danych:


\displaystyle  z =\frac{998.5 - 1000}{3}\sqrt{10} \approx - 1.581.


Teraz zakładamy hipotezę \displaystyle H_0, czyli że \displaystyle m = 1000. Zauważmy, iż ujemne wartości \displaystyle Z_n sugerują, że wartość średnia jest raczej mniejsza niż 1000, tak więc największym zbiorem świadczącym na korzyść \displaystyle H_1 i jednocześnie zawierającym obliczoną wcześniej wartość statystyki \displaystyle Z_n, jest przedział:


\displaystyle  K = (-\infty,z]\approx (-\infty,-1.581],


zatem wartość-\displaystyle p wynosi:


\displaystyle  P(Z_n \in K) \approx \Phi(- 1.581) \approx 0.057.


Nietrudno zauważyć, że otrzymana powyżej wartość jest prawdopodobieństwem tego, że, przy założeniu prawdziwości hipotezy zerowej, zachodzi zaobserwowane przez nas zdarzenie lub inne zdarzenie, które jeszcze bardziej świadczy na korzyść hipotezy alternatywnej. Inaczej mówiąc, jeżeli średnia waga torebki cukru rzeczywiście wynosiłaby 1 kg, to szansa na to, że 10 (wylosowanych zupełnie przypadkowo) torebek będzie miało zadane wagi, jest mniejsza niż 5.7. Podejmując teraz decyzję co do prawdziwości hipotezy zerowej mamy następującą wskazówkę: jeżeli odrzucimy \displaystyle H_0 na korzyść \displaystyle H_1, to prawdopodobieństwo tego, że decyzja ta jest błędna, wynosi około 5.7%.

Dla jeszcze lepszego zrozumienia przeprowadzonego powyżej rozumowania, rozważmy dwa inne zestawy danych oraz obliczone na ich podstawie wartości-\displaystyle p. Dla próbki:


\displaystyle  999, \; 1004,\; 1001,\; 994,\; 997, \;999,\; 1002,\; 1001,\; 999, \; 1000,


mamy:


\displaystyle  \bar{x}_{10}= 999.6, \;z \approx - 0.422\; oraz wartość- \displaystyle  p \approx 0.337,


natomiast dla próbki:


\displaystyle  999,\; 996,\; 1001,\; 996,\; 996,\; 996,\; 1002,\; 990,\; 995,\; 1000,


otrzymujemy:


\displaystyle  \bar{x}_{10} =997.1, \; z \approx - 3.057\; oraz wartość- \displaystyle  p \approx 0.001.


W pierwszym przypadku, odrzucając hipotezę zerową, z dość dużym prawdopodobieństwem narazilibyśmy się na popełnienie błędu, zaś w drugim przypadku popełnienie takiego błądu jest niezwykle mało prawdopodobne.

W powyższym przykładzie nie powiedzieliśmy, kiedy należy odrzucić hipotezę zerową, bowiem jest to decyzja "poza matematyczna". Dlatego też wskazaliśmy jedynie, jak określić prawdopodobieństwo błędu, z jakim należy się liczyć odrzucając prawdziwą hipotezę zerową - błąd ten jest nazywany błędem pierwszego rodzaju. Rozważa się też tak zwany błąd drugiego rodzaju, polegający na nieodrzuceniu fałszywej hipotezy zerowej. Jednak, w większości przypadków, policzenie prawdopodobieństwa tego błędu nie jest możliwe, a poza tym istnieje przekonanie, że jest on mniej istotny niż błąd pierwszego rodzaju, co w konsekwencji sprawia, iż hipoteza zerowa jest w pewnym sensie uprzywilejowana.

Spójrzmy teraz ogólnie na nasze dotychczasowe rozważania. Na podstawie próbki prostej \displaystyle x_1, \dots, x_n chcemy przetestować hipotezę zerową:


\displaystyle  H_0\colon \theta = \theta_0,


względem hipotezy alternatywnej \displaystyle H_1, przy czym \displaystyle H_1 może być tak zwaną hipotezą jednostronną:


\displaystyle  H_1\colon  \theta < \theta_0\;\; lub \displaystyle  \;\; H_1\colon \theta > \theta_0,


albo hipotezą dwustronną:


\displaystyle  H_1\colon \theta \neq \theta_0.


W klasycznym podejściu do problemu testowania hipotez wykonujemy następujące kroki:

(1) ustalamy zawsze tak zwany poziom istotności \displaystyle \alpha - jest to zwykle mała liczba dodatnia, np. \displaystyle \alpha  = 0.01, \displaystyle \alpha = 0.05 lub \displaystyle \alpha  = 0.1,

(2) wybieramy statystykę testową \displaystyle T o znanym rozkładzie,

(3) wybieramy zbiór \displaystyle K, zwany zbiorem krytycznym, taki że:


\displaystyle  P(T( \displaystyle X_1, \dots, X_n\displaystyle   )  \in K) = \alpha,


zaś warunek:


\displaystyle  T( \displaystyle X_1, \dots, X_n\displaystyle  )\in K


wskazuje na prawdziwość hipotezy \displaystyle H_1,

(4) obliczamy \displaystyle T( \displaystyle x_1, \dots, x_n\displaystyle  ), czyli wartość statystyki \displaystyle T na zaobserwowanej próbce,

(5) jeżeli:


\displaystyle  T( \displaystyle x_1, \dots, x_n\displaystyle  ) \notin K,


to stwierdzamy, iż nie ma podstaw do odrzucenia hipotezy \displaystyle H_0, natomiast jeżeli:


\displaystyle  T( \displaystyle x_1, \dots, x_n\displaystyle  ) \in K,


to odrzucamy hipotezę \displaystyle H_0 na korzyść hipotezy \displaystyle H_1.

Jaki widać, z technicznego punktu widzenia najistotniejszą sprawą jest wyznaczenie zbioru krytycznego \displaystyle K, który na ogół jest przedziałem, przy czym dla jednostronnych hipotez alternatywnych:


\displaystyle  K = (-\infty, a]\;\; lub \displaystyle  \;\;K = [b, \infty),


zaś dla hipotez dwustronnych:


\displaystyle  K = (-\infty, a] \cup [b, \infty).


Tak więc wyznaczenie zbioru \displaystyle K redukuje się do wyznaczenia pewnych kwantyli rozkładu statystyki \displaystyle T. Kwantyle typowych rzędów dla wielu używanych w praktyce rozkładów są od lat stablicowane, dlatego też opisane powyżej podejście klasyczne mogło być (i było) stosowane od dawna.

Z kolei w podejściu opartym na obliczaniu wartości-\displaystyle p, zamiast kroków (3) i (5) wykonujemy następujące:

(3') obliczamy wartość-\displaystyle p dla \displaystyle T( \displaystyle x_1, \dots, x_n\displaystyle  ), co (zgodnie z poprzednim określeniem) oznacza, że:


\displaystyle  P( T( \displaystyle x_1, \dots, x_n\displaystyle  ) \in K),


przy czym \displaystyle K jest tak dobrane, że \displaystyle K najlepiej świadczy na korzyść \displaystyle H_1 oraz \displaystyle T( \displaystyle x_1, \dots, x_n\displaystyle   ) \in K,

(5') jeżeli:


wartość- \displaystyle  p>\alpha,


to stwierdzamy, iż nie ma podstaw do odrzucenia hipotezy \displaystyle H_0, natomiast jeżeli:


wartość- \displaystyle  p\leq\alpha,


to odrzucamy hipotezę \displaystyle H_0 na korzyść hipotezy \displaystyle H_1. Zauważmy zatem, że podejście oparte na obliczaniu wartości-\displaystyle p może być istotnie trudniejsze, jednakże obecnie, kiedy dysponujemy komputerami z odpowiednim oprogramowaniem, nie nastręcza ono większych problemów i dlatego też podejście to zyskuje sobie ostatnio coraz więcej zwolenników, gdyż z metodologicznego punktu widzenia jest ono równoważne podejściu klasycznemu, a zarazem istotnie od niego prostsze.

Wracając do przykładu 13.4, ustalmy poziom istotności \displaystyle \alpha  = 0.05. W dwóch pierwszych przypadkach nie ma podstaw do odrzucenia hipotezy \displaystyle H_0, natomiast w trzecim - hipoteza \displaystyle H_0 powinna zostać odrzucona na korzyść hipotezy \displaystyle H_1. Gdybyśmy ustalili \displaystyle \alpha = 0.1, to również w drugim przypadku należałoby odrzucić hipotezę \displaystyle H_0.

Jak już wcześniej wspominaliśmy, dla skutecznego przeprowadzenia testu statystycznego wymagane jest dysponowanie odpowiednią statystyką o znanym rozkładzie. Okazuje się, iż nie zawsze jest to możliwe - gdyby, na przykład, liczebność próbki była zbyt mała, zaś rozkład z którego ona pochodzi nie byłby rozkładem normalnym, sprawa nie wyglądałaby zbyt obiecująco. Podobne problemy z doborem odpowiedniej statystyki o znanym rozkładzie powstają także wtedy, gdy chcemy testować hipotezy o innych (niż wartość oczekiwana) parametrach. Z drugiej strony, wiele szczegółowych sytuacji zostało dokładnie "rozpracowanych" - znaleziono pożyteczne statystyki i ich rozkłady, a w ostatnich latach niezbędne obliczenia numeryczne zostały zaimplementowane jako funkcje z pakietów statystycznych wielu programów komputerowych (w szczególności, program Maple posiada szereg wbudowanych testów statystycznych).

Jak pamiętamy, najistotniejszym wynikiem testu statystycznego jest wartość-\displaystyle p: mała wskazuje na \displaystyle H_1, zaś duża - na \displaystyle H_0. Uważny Czytelnik przypuszczalnie zauważył, że istnieje związek pomiędzy procedurą wyznaczania przedziałów ufności, a procedurą testowania hipotez. Tak rzeczywiście w wielu przypadkach jest - dlatego też programy Maple i Excel, przeprowadzając testy statystyczne wyliczają przy okazji przedziały ufności.

Test \displaystyle \chi^2 dopasowania rozkładu

Do testów parametrycznych sprowadza się także niektóre inne problemy statystyczne - można, na przykład, testować hipotezę, że próbka prosta pochodzi z rozkładu normalnego, istnieją też testy dotyczące niezależności zmiennych losowych, losowości próbki oraz wielu innych zagadnień. Opiszemy poniżej jeden z takich testów, znany jako test \displaystyle \chi^2 dopasowania rozkładu (faktycznie pod tą nazwą kryją się dwa, różniące się nieco, problemy).

Równość rozkładów

Obserwujemy próbkę prostą \displaystyle x_1, \dots, x_n ze zmiennej losowej \displaystyle X i stawiamy hipotezę:


\displaystyle  H_0\colon P_X  = Q,


przeciw hipotezie alternatywnej:


\displaystyle  H_0\colon P_X  \neq Q,


gdzie \displaystyle Q jest pewnym ustalonym rozkładem.

Formalnie rzecz biorąc, zagadnienie to różni się istotnie od poprzednio omawianych przykładów wnioskowania parametrycznego, niemniej, godząc się na utratę części informacji, można przeprowadzić opisany poniżej test.

Najpierw tworzymy z naszej próbki szereg rozdzielczy, czyli ustalamy takie liczby \displaystyle a_0 < \dots < a_k, że:


\displaystyle  a_0 \le \min \{ \displaystyle x_1, \dots, x_n\displaystyle  \}, \;\; a_k \ge \max\{ \displaystyle x_1, \dots, x_n\displaystyle  \},


a następnie zliczamy elementy próbki w poszczególnych klasach, otrzymując:


\displaystyle   n_{i}=\# \{x_{j}: \ x_{j} \in (a_{i-1},a_{i}] \}\;\; dla \displaystyle   i = 1,\dots, k.


Teraz obliczamy "teoretyczne" prawdopodobieństwa poszczególnych klas:


\displaystyle  \pi_i = Q((a_{i-1},a_{i}]) \;\; dla \displaystyle   i = 1,\dots, k.


Jeżeli hipoteza zerowa jest prawdziwa, to należy oczekiwać, iż wielkości \displaystyle n_i będą bardzo bliskie iloczynom \displaystyle n\pi_i - jest to z kolei równoważne temu, że wielkość określona jako:


\displaystyle  \chi = \sum_{i=1}^k\frac{(n_i - n\pi_i)^2}{n\pi_i},


jest bliska zeru.

Zauważmy, że zdefiniowana powyżej wielkość zależy od próbki, a więc jest zmienną losową. Co więcej, znamy rozkład tej zmiennej - jest to tak zwany rozkład \displaystyle \chi^2 o \displaystyle k-1 stopniach swobody. Rozkład ten jest dobrze znany - został on stablicowany w wielu podręcznikach, jest także obecny (praktycznie we wszystkich) programach komputerowych, zawierających odpowiednie pakiety statystyczne. Poniższa animacja pokazuje przebieg gęstości rozkładu \displaystyle \chi^2, dla najczęściej używanych ilości stopni swobody.



Tak więc w naszym przypadku:


wartość- \displaystyle  p =  P(\chi \ge \chi_0) = 1 - F_{\chi^2_{k-1}}(\chi_0),


gdzie \displaystyle \chi_0 jest obliczoną dla danej próbki wartością statystyki \displaystyle \chi, natomiast zbiór krytyczny ma postać:


\displaystyle  K = [k, \infty),


przy czym dla danego poziomu istotności \displaystyle \alpha, liczba \displaystyle k jest kwantylem rzędu \displaystyle 1-\alpha rozkładu \displaystyle \chi^2 o \displaystyle k-1 stopniach swobody, czyli:


\displaystyle  k = F^{-1}_{\chi^2_{k-1}}(1 - \alpha).

Przynależność do rodziny rozkładów

Obserwujemy próbkę prostą \displaystyle x_1, \dots, x_n ze zmiennej losowej \displaystyle X i stawiamy hipotezę:


\displaystyle  H_0\colon P_X  \in \mathcal{P},


przeciw hipotezie alternatywnej:


\displaystyle  H_0\colon P_X  \notin \mathcal{P},


gdzie \displaystyle \mathcal{P} jest pewną ustaloną rodziną rozkładów.

O ile wiemy, że rodzina rozkładów \displaystyle \mathcal{P} zależy od skończonej liczby parametrów, powiedzmy \displaystyle \lambda_1, \dots, \lambda_r, to powyższy problem sprowadza się w następujący sposób do poprzedniego: na podstawie danej próbki wyznaczamy metodą największej wiarygodności estymatory \displaystyle \hat{\lambda_1}, \dots, \hat{\lambda_r} parametrów \displaystyle \lambda_1, , \displaystyle \lambda_r, a następnie rozważamy rozkład \displaystyle Q \in \mathcal{P} odpowiadający wyestymowanym wartościom parametrów \displaystyle \hat{\lambda_1}, \dots, \hat{\lambda_r} i stosujemy dla niego opisaną powyżej procedurę, pamiętając jednak, że teraz należy użyć rozkładu \displaystyle \chi^2 o \displaystyle k - r -1 stopniach swobody.