Rachunek prawdopodobieństwa i statystyka/Wykład 13: Przedziały ufności i testy

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Istotną część wnioskowania statystycznego stanowią estymacja przedziałowa i testowanie hipotez. Podamy przykłady podstawowych metod związanych z tymi zagadnieniami. Wyznaczymy przedziały ufności dla średniej w standardowych sytuacjach. Pokażemy jak się wykonuje testy statystyczne, stosując podejście klasyczne i współczesne. Opiszemy test dopasowania rozkładu.

Estymacja przedziałowa

Estymacja punktowa omówiona na poprzednim wykładzie nie daje odpowiedzi na pytanie, jak pewny jest otrzymany wynik estymacji, czyli jak dokładnie przybliża on prawdziwą wartość estymatora. Niedogodność tę można częściowo pokonać, wyznaczając tak zwane przedziały ufności dla określonych parametrów, które definiujemy następująco:

Definicja 13.1

Niech będzie ustaloną liczbą (zwykle jest równe , lub ). Przedział , zależny od próbki losowej , nazywamy przedziałem ufności parametru na poziomie ufności , jeżeli:



Przykład 13.2

Kontrolując pewną hurtownię zważono 10 torebek cukru, otrzymując następujące wyniki (w gramach):



Jaka jest średnia waga torebki cukru w tej hurtowni?

Zakładając, że waga torebki cukru ma rozkład normalny, można na przykład użyć metody największej wiarygodności i obliczyć estymator:



Jednak nas interesuje coś więcej - od czego jest mniejsza średnia waga torebki cukru, przy czym nie musimy (i nie potrafimy) mieć absolutnie pewnego wyniku. Mówiąc inaczej, szukamy liczby takiej, że:



gdzie oznacza nadzieję matematyczną wagi torebki cukru w hurtowni.

Przed przystąpieniem do rozwiązywania naszego zadania, ujawnijmy wynik:



(wynik ten otrzymano przy założeniu, że dokładność wagi wynosi 3 g). Używając języka potocznego możemy więc powiedzieć, że mamy pewności, że średnia waga torebki cukru jest mniejsza niż 999.716 g. Przedział:



nazywamy przedziałem ufności dla nadziei matematycznej. Oczywiście, można mówić także o , oraz innych przedziałach ufności. W naszym przypadku przedział ufności to , zaś przedział ufności to . Tak więc nie możemy już twierdzić, że na , ani tym bardziej na , waga jednej torebki cukru jest mniejsza od 1 kg.

Przedstawimy teraz rozwiązanie problemu, który jest oczywistym uogólnieniem powyższego przykładu, uzyskując, jako wyniki szczególne, przytoczone powyżej rozwiązania.

Załóżmy, że dana jest próbka prosta z rozkładu , przy czym zakładamy najpierw, że znamy odchylenie standardowe (w przypadku ważenia cukru może ono odpowiadać znanej dokładności wagi, którą dysponujemy). Dla ustalonej liczby szukamy takiej liczby , że:


(równie dobrze można było pisać zamiast ; my jednak postępujemy zgodnie z tradycją).


Ponieważ (patrz twierdzenie 9.2) estymator:



ma rozkład , zatem:




Teraz, z jednej strony:



zaś z drugiej strony:



Mamy więc:



i stąd:



co daje wynik:



Wróćmy do przykładu 13.2 - w tym przypadku oraz (dokładność wagi). Ponieważ obserwujemy próbkę, więc w powyższym wzorze w miejsce estymatora średniej podstawiamy wartość odpowiadającej mu statystyki (obliczonej na podstawie tej próbki), czyli:



Teraz przyjmując za kolejno liczby , oraz , otrzymamy ujawnione wcześniej wartości .

Opisane powyżej zagadnienie można modyfikować na różne sposoby. Po pierwsze, może nas interesować przedział ufności innego typu, na przykład postaci: lub ). Po drugie, nie zawsze można założyć, że znamy odchylenie standardowe . Po trzecie, założenie, że rozkład jest normalny, często nie jest spełnione. Możemy także być zainteresowani znalezieniem przedziału ufności dla innego, niż nadzieja matematyczna, parametru rozkładu.

Istnieją różne metody radzenia sobie w wymienionych przypadkach, ale większość z nich polega na zastosowaniu podobnego do poprzedniego schematu postępowania, który polega na wykorzystaniu pewnej zmiennej losowej o znanym rozkładzie, będącej funkcją estymatora interesującego nas parametru, a następnie na obliczeniu na jej podstawie (oraz na podstawie zaobserwowanej próbki) końców przedziału ufności na określonym z góry poziomie ufności . W naszych wcześniejszych rozważaniach tą zmienną losową była zmienna , zaś jej rozkład był znany na podstawie twierdzenia 9.2, przy czym uwzględniliśmy założoną wcześniej znajomość . Poniżej opiszemy dwie sytuacje, w których kolejny raz zastosujemy opisany właśnie sposób postępowania.

Zakładamy najpierw, że obserwujemy próbkę prostą z pewnego nieznanego rozkładu, przy czym jest dużą liczbą (już dla poniższe rozumowanie prowadzi do dobrych rezultatów). Na podstawie tej próbki chcemy wyznaczyć przedział ufności dla nadziei matematycznej tego rozkładu, postaci:



Aby rozwiązać powyższe zadanie wykorzystamy pewną modyfikację zmiennej losowej:



Po pierwsze, na podstawie centralnego twierdzenia granicznego (oraz tego, że jest duże) możemy założyć, że zmienna ta ma rozkład . Nie możemy jednak bezpośrednio jej wykorzystać, tak jak to zrobiliśmy poprzednio, gdyż tym razem nie założyliśmy znajomości parametru . Problem ten pokonujemy wykorzystując to, że dla dużych liczba:



dobrze przybliża (dlaczego?). Rozważamy więc zmienną losową:



o której można założyć, że ma rozkład , a której wartość może być już teraz wyliczona na podstawie samej tylko próbki . Naszym zadaniem jest znalezienie takiego , że:



Przekształcamy więc kolejno:




Stąd:



czyli:



i wreszcie:



Wiem zatem, że z prawdopodobieństwem wartość parametru znajduje się w przedziale:



Nasuwa się teraz pytanie o to, jak postępować gdy próbka jest mała, a (tak jak poprzednio) chcemy wyznaczyć przedział ufności dla nadziei matematycznej rozkładu, z którego ona pochodzi. Niestety, w przypadku gdy nie znamy charakteru tego rozkładu, zadanie to jest niewykonalne przy użyciu naszej metody<ref>Można wtedy stosować metodę bootstrap, o której będzie mowa na wykładzie 14.</ref>

Załóżmy więc dodatkowo, że próbka pochodzi z rozkładu o nieznanym odchyleniu standardowym. Zmienną losową, którą tutaj wykorzystamy, jest:


gdzie      (13.1)


Okazuje się, że zmienna ta ma tak zwany rozkład Studenta, nazywany czasem także rozkładem . Rozkład ten posiada jeden parametr , który określa się jako liczbę stopni swobody. Nie podajemy tutaj dość skomplikowanego wzoru na gęstość tego rozkładu - praktycznie wszystkie standardowe programy komputerowe posiadające odpowiednie pakiety funkcji statystycznych (a więc, między innymi, programy Maple i Excel), podają wartości dystrybuanty oraz kwantyli dla wszystkich wartości , gdzie oznacza rozkład Studenta o stopniach swobody. Rozkład Studenta, podobnie jak rozkład , jest symetryczny, zatem:


dla każdego


co znakomicie ułatwia korzystanie z tablic. Co więcej, dystrybuanta zmierza do dystrybuanty standardowego rozkładu normalnego, czyli dla każdego :


gdy


Okazuje się, że już dla wynikające z powyższej zbieżności przybliżenie jest całkiem dobre. Następująca animacja obrazuje zbieżność gęstości rozkładu (linia niebieska) do gęstości standardowego rozkładu normalnego (linia czerwona):

Kluczowym dla naszych dalszych rozważań jest następujące:

Twierdzenie 13.3

Dla próbki prostej pochodzącej z rozkładu , estymator , określony wzorem 13.1, ma rozkład Studenta o stopniach swobody. Inaczej:


dla każdego


Dzięki temu, że rozkład Studenta jest symetryczny można, tak jak poprzednio, wyprowadzić wzory na przedziały ufności typu , oraz . Proponujemy Czytelnikowi aby sprawdził, że przedziałami tymi odpowiednio są:


     (13.2)


     (13.3)


     (13.4)

gdzie, zgodnie z naszymi oznaczeniami, oznacza kwantyl rzędu w rozkładzie o stopniach swobody.

Powyższe wzory stosuje się zazwyczaj, gdy próbka jest mała, to znaczy gdy . Faktycznie, dla rozkład niewiele różni się od rozkładu , a wraz ze wzrostem różnica ta jest coraz mniejsza. Tak więc, zadane wzorami (13.2), (13.3) i (13.4) przedziały ufności są praktycznie takie same jak te wcześniejsze, wyznaczone w oparciu o centralne twierdzenie graniczne.

Można także wyprowadzić wzory na przedziały ufności dla pozostałych parametrów, przyjmując zarówno takie same, jak i inne niż poprzednio założenia o charakterze rozkładu. Tutaj jednak ograniczymy się tylko do jednego, ale bardzo ważnego przypadku.

Załóżmy, że próbka prosta pochodzi z rozkładu dwupunktowego i że na jej podstawie chcemy wyznaczyć przedział ufności dla parametru . W przypadku, gdy liczność próbki jest mała (), wzory takie są dość skomplikowane. Natomiast, gdy wielkość próbki jest duża, można wykorzystać to, że nadzieja matematyczna zmiennej losowej, z której pochodzi dana próbka, wynosi , natomiast jej wariancja jest równa . Stosując podobne rozumowanie jak poprzednio można otrzymać następujące wzory na przedziały ufności dla :





gdzie:



zaś oznacza liczbę jedynek (czyli liczbę "sukcesów") w próbce .

Na zakończenie tego punktu zwróćmy uwagę na to, że przedziały ufności dla niektórych parametrów mogą być także wyznaczane przy pomocy programów typu Maple lub Excel.

Testowanie hipotez

Często zdarzają się sytuacje, w których, na podstawie posiadanych obserwacji, powinniśmy podjąć określone decyzje. Pomocą może nam służyć tutaj teoria testowania hipotez statystycznych. W naszym kursie ograniczamy się jedynie do najprostszych przypadków testów parametrycznych, a nasz sposób podejścia opiera się na wyznaczaniu tak zwanej wartości- (ang. -value) - metodzie, która stała się popularna dopiero po upowszechnieniu się komputerów. Oczywiście, omówimy także podejście tradycyjne - więcej na ten temat można przeczytać praktycznie we wszystkich podręcznikach, które zawierają elementy statystyki.

Jak zwykle, zaczniemy od przykładu. Powróćmy do zagadnienia oceny średniej wagi torebki cukru w pewnej hurtowni (patrz przykład 13.2) i postawmy nasz problem trochę inaczej. Zapytajmy mianowicie, czy prawdą jest, że średnia waga torebki cukru w tej hurtowni wynosi 1 kg, czy może jednak jest mniejsza od 1 kg?

Formalnie rzecz ujmując, stawiamy tutaj dwie hipotezy: tak zwaną hipotezę zerową, oznaczaną zwykle jako , oraz hipotezę alternatywną, oznaczaną jako . W naszym przypadku:



gdzie jest średnią wagą torebki. Aby rozstrzygnąć zadany problem, musimy dysponować statystyką testową, powiedzmy , która przy założeniu prawdziwości hipotezy posiada następujące własności:

(1) znany jest rozkład ,

(2) można obliczyć wartość dla danej próbki prostej,

(3) jej zachowanie wyraźnie wskazuje na zachodzenie lub .

Następnie dla zaobserwowanej próbki prostej liczymy tak zwaną wartość- (-value), to znaczy:



przy czym jest tak dobrane, że:

(1) najlepiej świadczy na korzyść ,

(2) .

Przykład 13.4

Rozważmy następujące wyniki (te same co w przykładzie 13.2) ważenia 10 torebek cukru (w gramach):



Załóżmy, że jest to próbka prosta z rozkładu o znanym odchyleniu standardowym . Jako statystykę testową bierzemy:



która, jak wiemy, posiada rozkład . Z przykładu 13.2 pamiętamy, że , łatwo więc obliczyć wartość powyższej statystyki dla naszej próbki danych:



Teraz zakładamy hipotezę , czyli że . Zauważmy, iż ujemne wartości sugerują, że wartość średnia jest raczej mniejsza niż 1000, tak więc największym zbiorem świadczącym na korzyść i jednocześnie zawierającym obliczoną wcześniej wartość statystyki , jest przedział:



zatem wartość- wynosi:



Nietrudno zauważyć, że otrzymana powyżej wartość jest prawdopodobieństwem tego, że, przy założeniu prawdziwości hipotezy zerowej, zachodzi zaobserwowane przez nas zdarzenie lub inne zdarzenie, które jeszcze bardziej świadczy na korzyść hipotezy alternatywnej. Inaczej mówiąc, jeżeli średnia waga torebki cukru rzeczywiście wynosiłaby 1 kg, to szansa na to, że 10 (wylosowanych zupełnie przypadkowo) torebek będzie miało zadane wagi, jest mniejsza niż 5.7. Podejmując teraz decyzję co do prawdziwości hipotezy zerowej mamy następującą wskazówkę: jeżeli odrzucimy na korzyść , to prawdopodobieństwo tego, że decyzja ta jest błędna, wynosi około 5.7%.

Dla jeszcze lepszego zrozumienia przeprowadzonego powyżej rozumowania, rozważmy dwa inne zestawy danych oraz obliczone na ich podstawie wartości-. Dla próbki:



mamy:


oraz wartość-


natomiast dla próbki:



otrzymujemy:


oraz wartość-


W pierwszym przypadku, odrzucając hipotezę zerową, z dość dużym prawdopodobieństwem narazilibyśmy się na popełnienie błędu, zaś w drugim przypadku popełnienie takiego błądu jest niezwykle mało prawdopodobne.

W powyższym przykładzie nie powiedzieliśmy, kiedy należy odrzucić hipotezę zerową, bowiem jest to decyzja "poza matematyczna". Dlatego też wskazaliśmy jedynie, jak określić prawdopodobieństwo błędu, z jakim należy się liczyć odrzucając prawdziwą hipotezę zerową - błąd ten jest nazywany błędem pierwszego rodzaju. Rozważa się też tak zwany błąd drugiego rodzaju, polegający na nieodrzuceniu fałszywej hipotezy zerowej. Jednak, w większości przypadków, policzenie prawdopodobieństwa tego błędu nie jest możliwe, a poza tym istnieje przekonanie, że jest on mniej istotny niż błąd pierwszego rodzaju, co w konsekwencji sprawia, iż hipoteza zerowa jest w pewnym sensie uprzywilejowana.

Spójrzmy teraz ogólnie na nasze dotychczasowe rozważania. Na podstawie próbki prostej chcemy przetestować hipotezę zerową:



względem hipotezy alternatywnej , przy czym może być tak zwaną hipotezą jednostronną:


lub


albo hipotezą dwustronną:



W klasycznym podejściu do problemu testowania hipotez wykonujemy następujące kroki:

(1) ustalamy zawsze tak zwany poziom istotności - jest to zwykle mała liczba dodatnia, np. , lub ,

(2) wybieramy statystykę testową o znanym rozkładzie,

(3) wybieramy zbiór , zwany zbiorem krytycznym, taki że:



zaś warunek:



wskazuje na prawdziwość hipotezy ,

(4) obliczamy , czyli wartość statystyki na zaobserwowanej próbce,

(5) jeżeli:



to stwierdzamy, iż nie ma podstaw do odrzucenia hipotezy , natomiast jeżeli:



to odrzucamy hipotezę na korzyść hipotezy .

Jaki widać, z technicznego punktu widzenia najistotniejszą sprawą jest wyznaczenie zbioru krytycznego , który na ogół jest przedziałem, przy czym dla jednostronnych hipotez alternatywnych:


lub


zaś dla hipotez dwustronnych:



Tak więc wyznaczenie zbioru redukuje się do wyznaczenia pewnych kwantyli rozkładu statystyki . Kwantyle typowych rzędów dla wielu używanych w praktyce rozkładów są od lat stablicowane, dlatego też opisane powyżej podejście klasyczne mogło być (i było) stosowane od dawna.

Z kolei w podejściu opartym na obliczaniu wartości-, zamiast kroków (3) i (5) wykonujemy następujące:

(3') obliczamy wartość- dla , co (zgodnie z poprzednim określeniem) oznacza, że:



przy czym jest tak dobrane, że najlepiej świadczy na korzyść oraz ,

(5') jeżeli:


wartość-


to stwierdzamy, iż nie ma podstaw do odrzucenia hipotezy , natomiast jeżeli:


wartość-


to odrzucamy hipotezę na korzyść hipotezy . Zauważmy zatem, że podejście oparte na obliczaniu wartości- może być istotnie trudniejsze, jednakże obecnie, kiedy dysponujemy komputerami z odpowiednim oprogramowaniem, nie nastręcza ono większych problemów i dlatego też podejście to zyskuje sobie ostatnio coraz więcej zwolenników, gdyż z metodologicznego punktu widzenia jest ono równoważne podejściu klasycznemu, a zarazem istotnie od niego prostsze.

Wracając do przykładu 13.4, ustalmy poziom istotności . W dwóch pierwszych przypadkach nie ma podstaw do odrzucenia hipotezy , natomiast w trzecim - hipoteza powinna zostać odrzucona na korzyść hipotezy . Gdybyśmy ustalili , to również w drugim przypadku należałoby odrzucić hipotezę .

Jak już wcześniej wspominaliśmy, dla skutecznego przeprowadzenia testu statystycznego wymagane jest dysponowanie odpowiednią statystyką o znanym rozkładzie. Okazuje się, iż nie zawsze jest to możliwe - gdyby, na przykład, liczebność próbki była zbyt mała, zaś rozkład z którego ona pochodzi nie byłby rozkładem normalnym, sprawa nie wyglądałaby zbyt obiecująco. Podobne problemy z doborem odpowiedniej statystyki o znanym rozkładzie powstają także wtedy, gdy chcemy testować hipotezy o innych (niż wartość oczekiwana) parametrach. Z drugiej strony, wiele szczegółowych sytuacji zostało dokładnie "rozpracowanych" - znaleziono pożyteczne statystyki i ich rozkłady, a w ostatnich latach niezbędne obliczenia numeryczne zostały zaimplementowane jako funkcje z pakietów statystycznych wielu programów komputerowych (w szczególności, program Maple posiada szereg wbudowanych testów statystycznych).

Jak pamiętamy, najistotniejszym wynikiem testu statystycznego jest wartość-: mała wskazuje na , zaś duża - na . Uważny Czytelnik przypuszczalnie zauważył, że istnieje związek pomiędzy procedurą wyznaczania przedziałów ufności, a procedurą testowania hipotez. Tak rzeczywiście w wielu przypadkach jest - dlatego też programy Maple i Excel, przeprowadzając testy statystyczne wyliczają przy okazji przedziały ufności.

Test dopasowania rozkładu

Do testów parametrycznych sprowadza się także niektóre inne problemy statystyczne - można, na przykład, testować hipotezę, że próbka prosta pochodzi z rozkładu normalnego, istnieją też testy dotyczące niezależności zmiennych losowych, losowości próbki oraz wielu innych zagadnień. Opiszemy poniżej jeden z takich testów, znany jako test dopasowania rozkładu (faktycznie pod tą nazwą kryją się dwa, różniące się nieco, problemy).

Równość rozkładów

Obserwujemy próbkę prostą ze zmiennej losowej i stawiamy hipotezę:



przeciw hipotezie alternatywnej:



gdzie jest pewnym ustalonym rozkładem.

Formalnie rzecz biorąc, zagadnienie to różni się istotnie od poprzednio omawianych przykładów wnioskowania parametrycznego, niemniej, godząc się na utratę części informacji, można przeprowadzić opisany poniżej test.

Najpierw tworzymy z naszej próbki szereg rozdzielczy, czyli ustalamy takie liczby , że:



a następnie zliczamy elementy próbki w poszczególnych klasach, otrzymując:


dla


Teraz obliczamy "teoretyczne" prawdopodobieństwa poszczególnych klas:


dla


Jeżeli hipoteza zerowa jest prawdziwa, to należy oczekiwać, iż wielkości będą bardzo bliskie iloczynom - jest to z kolei równoważne temu, że wielkość określona jako:



jest bliska zeru.

Zauważmy, że zdefiniowana powyżej wielkość zależy od próbki, a więc jest zmienną losową. Co więcej, znamy rozkład tej zmiennej - jest to tak zwany rozkład o stopniach swobody. Rozkład ten jest dobrze znany - został on stablicowany w wielu podręcznikach, jest także obecny (praktycznie we wszystkich) programach komputerowych, zawierających odpowiednie pakiety statystyczne. Poniższa animacja pokazuje przebieg gęstości rozkładu , dla najczęściej używanych ilości stopni swobody.

Plik:Rp132.mp4
253x253px

Tak więc w naszym przypadku:


wartość-


gdzie jest obliczoną dla danej próbki wartością statystyki , natomiast zbiór krytyczny ma postać:



przy czym dla danego poziomu istotności , liczba jest kwantylem rzędu rozkładu o stopniach swobody, czyli:


Przynależność do rodziny rozkładów

Obserwujemy próbkę prostą ze zmiennej losowej i stawiamy hipotezę:



przeciw hipotezie alternatywnej:



gdzie jest pewną ustaloną rodziną rozkładów.

O ile wiemy, że rodzina rozkładów zależy od skończonej liczby parametrów, powiedzmy , to powyższy problem sprowadza się w następujący sposób do poprzedniego: na podstawie danej próbki wyznaczamy metodą największej wiarygodności estymatory parametrów , , , a następnie rozważamy rozkład odpowiadający wyestymowanym wartościom parametrów i stosujemy dla niego opisaną powyżej procedurę, pamiętając jednak, że teraz należy użyć rozkładu o stopniach swobody.