Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 13: Przedziały ufności i testy

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Ćwiczenia i zadania

Ćwiczenie 13.1

Dwudziestu losowo wybranych pracowników pewnego dużego przedsiębiorstwa sprawdzono pod względem ilości opuszczonych w ostatnim roku dni pracy. Okazało się, że średnia liczba dni nieobecności wynosi 10.6, natomiast odchylenie standardowe jest równe 5.04. Jak można oszacować średnią liczbę dni nieobecności w pracy pracowników tego przedsiębiorstwa?

Aby odpowiedzieć na powyższe pytanie, na początku należy przyjąć pewne założenia - w tym przypadku sensownie jest założyć, że liczba dni nieobecności jest zmienną losową o rozkładzie normalnym oraz że dane dotyczące tych 20 pracowników stanowią próbkę prostą. Teraz sprecyzujmy nasz problem: mamy znaleźć dwustronny przedział ufności na zadanym poziomie ufności, powiedzmy 0.95.

Dalsze postępowanie jest już proste - budujemy przedział ufności dla nadziei matematycznej, używając rozkładu Studenta, czyli korzystając ze wzoru 13.4. Tak więc, pamiętając, że w naszym przypadku α=0.05, wyznaczamy (przy pomocy tablic lub komputera) kwantyl rzędu 0.975 rozkładu Studenta o 19 stopniach swobody, który wynosi 2.0930, aby otrzymać następujący przybliżony przedział ufności:


(10.65.042.093020,10.6+5.042.093020)(8.2412,12.9588)


Podkreślamy wyraźnie, iż nie jest to przedział ufności dla liczby dni opuszczonych przez pracownika, lecz dla wartości oczekiwanej liczby takich dni.

Ćwiczenie 13.2

Aby zbadać wadliwość nowej serii dysków komputerowych, wybrano losowo 30 wyprodukowanych dysków i poddano je szczegółowym testom. Okazało się, że aż 4 spośród nich uległo awarii. Jaka jest minimalna wadliwość dysków z tej serii?

Mamy tutaj wyznaczyć przedział ufności dla nieznanej wadliwości p, a z treści zadania wynika, że ma to być przedział postaci (p1,1) (górny koniec przedziału równy 1 jest w tej sytuacji oczywisty). Ponieważ wielkość próbki pozwala na zastosowanie odpowiedniego wzoru (jakiego?), otrzymujemy następujący 90% przybliżony przedział ufności:


(0.0538,1)


Mówiąc językiem potocznym, mamy 90% pewności, że średnio ponad 5% dysków będzie się psuło. Analogicznie, możemy także wyznaczyć 90% przybliżony przedział ufności postaci (0,p2), otrzymując:


(0,0.2129),


co oznacza, że nie powinno się psuć średnio więcej niż 21% dysków.

Ćwiczenie 13.3

Aby sprawdzić, czy pewna cecha ma średnią wartość m = 20, wykonano 50 pomiarów tej cechy otrzymując średnią wartość próbki x¯=20.63 i odchylenie standardowe w próbce s=2.66. Możemy więc przypuszczać, że średnia wartość cechy jest większa od 20.

Wykonujemy tutaj test hipotezy:


H0:m=20


wobec hipotezy alternatywnej:


H1:m>20


Poniżej podajemy dwa niezależne rozwiązania tego zadania.

I. Rozwiązanie klasyczne wykorzystujące zbiór krytyczny.

Wykorzystamy statystykę Zn:


Wn=X¯nmsn


która, jak wiemy, przy założeniu, że m=20 posiada w przybliżeniu rozkład N(0,1) (pamiętajmy, że n=50). Ponieważ małe wartości tej statystyki wskazują na hipotezę zerową, zaś duże -- na hipotezę alternatywną, tak więc zbiór krytyczny K ma tutaj postać:


K=[b,)


Ustalamy poziom istotności, na przykład α=0.05, a następnie dobieramy tak liczbę b, aby:


P(WnK)=P(Wnb)=1Φ(b)=α


Zatem:


b=Φ1(1α)


czyli w naszym przypadku zbiór krytyczny to:


K=[1.64,)


Obliczamy teraz wartość statystyki Wn na podstawie danych otrzymanych z próbki:


w=20.63202.66501.6747


Jak widać, powyższa wartość należy do zbioru krytycznego K, a więc odrzucamy hipotezę zerową na korzyść hipotezy alternatywnej. Gdybyśmy jednak testowali naszą hipotezę na poziomie istotności α=0.01, to otrzymalibyśmy b2.3263, a więc wówczas wartość w nie należałaby do zbioru krytycznego K=[2.3263,), czyli na tym poziomie istotności nie byłoby podstaw do odrzucenia hipotezy H0.

II. Rozwiązanie wykorzystujące wartość-p.

Podobnie jak poprzednio rozważamy tę samą statystykę Wn, której

wartość umiemy obliczyć, gdyż zakładamy

H0

-- jest nią oczywiście:

w1.6747

Przy hipotezie H1:m>20, otrzymujemy:


wartość- p=P(Z50w)1Φ(w)10.953=0.047


Zatem na poziomie istotności α=0.05 odrzucamy H0, zaś na poziomie istotności α=0.01 nie mamy podstaw, aby tak uczynić.

Chociaż obie powyższe metody doprowadziły do tej samej konkluzji zauważmy, że ta druga metoda posiada przewagę nad pierwszą, gdyż wyliczona wartość-p daje pewną dodatkową informację: przy założeniu hipotezy zerowej prawdopodobieństwo tego, że wylosowana próbka będzie miała średnią nie mniejszą niż 20.63, wynosi w przybliżeniu 0.047. Tak więc stosując tę drugą metodę można, w zależności od sytuacji, bardziej świadomie przyjąć lub odrzucić hipotezę H0.

Ćwiczenie 13.4

Po wykonaniu 15 rzutów monetą okazało się, że reszka wypadła w 10 rzutach. Czy moneta jest symetryczna?

Testujemy tutaj hipotezę, że w rozkładzie dwupunktowym (0,1,p) parametr p wynosi 0.5, przy hipotezie alternatywnej, że p>0.5, gdzie p jest prawdopodobieństwem wyrzucenia reszki. Jako statystykę weźmiemy liczbę sukcesów k w schemacie Bernoulliego - statystyka ta ma rozkład dwumianowy, zaś zakładając hipotezę zerową znamy parametr tego rozkładu. Zdarzeniem sprzyjającym hipotezie alternatywnej jest tutaj zbiór:


{10,11,12,13,14,15}


zatem:


wartość - Parser nie mógł rozpoznać (nieznana funkcja „\begin{array}”): {\displaystyle p =\sum_{i=10}^{15}\left(\begin{array} {@{}c@{}}15\\i\end{array} \right) \frac{1}{2^{15}}}


Powyższą sumę liczymy bezpośrednio (przy użyciu komputera) lub zauważamy, że:


wartość- p=P(k10)=1P(k9)=1F(9)


gdzie F jest dystrybuantą rozkładu dwumianowego o parametrach n=15 i p=0.5, której wartości można wyznaczyć za pomocą programów komputerowych typu Maple lub Excel. Mamy więc:


wartość- p10.8491=0.1509


W tej sytuacji nie powinno się odrzucać hipotezy, że moneta jest symetryczna.

Ćwiczenie 13.5

Po wykonaniu 60 rzutów monetą okazało się, że reszka wypadła w 40 rzutach. Czy moneta jest symetryczna?

Chociaż wydaje się, że jest to prawie takie samo zadanie jak poprzednio, różniące się jedynie danymi liczbowymi, które powstały po wymnożeniu danych z ćwiczenia 13.4 przez 4, mimo to je rozwiążemy.

Zauważmy, że pożyteczną statystyką jest tutaj (k oznacza liczbę sukcesów):


Zn=knpp(1p)n


która, przy założeniu, że p=0.5, ma w przybliżeniu standardowy rozkład normalny (dlaczego?), a której wartość na naszej próbce wynosi:


z=40600.54060(14060)602.7386


Zatem:


wartość- p=P(Znz)1Φ(z)10.9969=0.0031


co oznacza, że hipotezę o symetryczności monety należy odrzucić, a ewentualny błąd z tego wynikający wynosi około 0.3%.

Ćwiczenie 13.6

Dana jest następujące próbka prosta:


3.36, 1.43, 0.151, 10.7, 3.72, 12.3, 3.54, 37.5, 3.26, 7.91, 9.89, 8.74, 0.751, 3.37, 19.3, 1.58, 9.24, 4.04, 8.89, 2.67, 6.38, 12.5, 4.25, 3.32, 12.1, 4.29, 1.69, 0.546, 8.50, 5.47, 9.50, 3.75, 13.5, 13.4, 22.7, 4.58, 5.42, 3.01, 29.7, 8.86, 6.58, 6.28, 0.245, 0.336, 3.99, 3.24, 8.73, 10.2, 1.24, 12.6, 2.84, 7.89, 16.4, 3.99, 2.90, 11.4, 12.6, 8.12, 1.24, 3.09, 3.62, 1.69, 1.49, 13.5, 5.63, 32.3, 0.303, 4.33, 0.0869, 6.83, 1.91, 23.4, 0.321, 5.70, 1.26, 6.98, 3.53, 0.681, 9.85, 1.90, 15.0, 12.4, 1.09, 2.96, 20.1, 15.0, 1.74, 32.2, 6.07, 3.76, 1.07, 7.20, 4.68, 5.84, 2.70, 6.86, 7.67, 0.247, 0.0673, 2.32, 5.49, 17.5, 10.9, 3.44, 0.459, 1.63, 43.8, 12.0, 2.41, 2.53, 11.0, 7.52, 15.8, 3.95, 2.14, 10.5, 11.2, 5.22, 13.9, 8.19, 3.95, 13.9, 5.79, 5.44, 1.36, 0.907, 4.16, 2.49, 2.70, 4.55, 1.81, 6.48, 1.29, 3.75, 10.6, 3.07, 10.3, 0.110, 1.44, 17.1, 1.56, 4.48, 16.5, 0.116, 7.76, 3.64, 10.6, 26.2, 2.16, 5.27, 4.86, 1.05, 8.91, 15.7, 3.0, 2.28, 10.7, 13.8, 19.0, 6.49, 1.60, 6.67, 6.51, 4.68, 2.71, 1.66 , 0.372, 0.377, 19.0, 2.32, 8.26, 9.15, 2.01, 5.47, 1.52, 1.27, 2.72, 7.98, 4.87, 2.72, 7.25, 13.9, 10.2, 2.46, 5.23, 5.14, 10.2, 3.16, 0.451, 12.1, 14.5, 12.0, 3.05, 18.8, 7.83, 10.2, 7.09, 6.98, 13.3, 0.407.

Pytamy się o typ rozkładu, z którego ona pochodzi.

Zaczniemy od narysowania histogramu:

<flash>file=Rp.1.131.swf|width=350|height=350</flash>

Wydaje się, że nieznany rozkład PX może mieć charakter wykładniczy. Stawiamy więc hipotezę:


H0:PX𝒫


przeciw hipotezie alternatywnej:


H0:PX𝒫


przy czym 𝒫 jest rodziną rozkładów wykładniczych. Jak wiemy z wykładu 8, jest to rodzina zależna od jednego parametru λ. Pamiętamy też (patrz przykład 12.5), że estymatorem największej wiarygodności parametru λ jest:


λ^=1x¯


zatem, wykorzystując daną próbkę, otrzymujemy:


λ^0.1393753281


Tak więc szukanym rozkładem Q jest rozkład wykładniczy o parametrze:


λ0.1393753281


Tworzymy teraz szereg rozdzielczy wybierając następujące punkty podziału:


0,5,10,20,30,100


Podkreślamy, że jest to w dużej mierze wybór arbitralny, choć istnieją pewne wskazówki praktyczne przemawiające z takim wyborem. Mamy więc tutaj k=5 klas, których liczności wynoszą odpowiednio:


98,49,44,5,4


natomiast (przybliżone) prawdopodobieństwa "teoretyczne" są następujące:


0.50186,0.25000,0.18657,0.04630,0.01528


Ponieważ wartość χ0 statystyki χ wynosi:


χ03.525189694


zaś wartość-p obliczamy korzystając z rozkładu χ2 o 3 (=511) stopniach swobody, otrzymujemy:


wartość- p0.3175097675


Tak więc nie można odrzucić hipotezy zerowej na żadnym sensownym poziomie istotności. Mówiąc krótko, jesteśmy przekonani, że nasza próbka pochodzi z rozkładu wykładniczego.


Zadania 13.1 Przypuszcza się, że mniej niż 20% mieszkańców pewnego miasta nie czyta gazet codziennych. Czy hipoteza ta jest prawdziwa, jeżeli na pytanie zadane 50 mieszkańcom, 38 osób odpowiedziało, że czyta gazety codzienne?

Zadania 13.2 Wylosuj 20 liczb z rozkładu N(29,2) i traktując te liczby jako daną próbkę przeprowadź test hipotezy, że wartość średnia rozkładu, z którego pochodzą te liczby, wynosi 30, przy różnych hipotezach alternatywnych, jeżeli: (a) wariancja rozkładu jest znana i równa 4, (b) wariancja rozkładu nie jest znana.

Zadania 13.3 Powtórz poprzednie zadanie losując próbkę z rozkładu jednostajnego na odcinku (28,30).

Zadania 13.4 Naszkicuj wykres gęstości rozkładu χ2 o k stopniach swobody, gdzie: (a) k=1, (b) k=2.

Zadania 13.5 Wylosuj 100 liczb z rozkładu N(10,3), a następnie testem χ2 sprawdź hipotezę, że pochodzą one z rozkładu: (a) N(10,3), (b) N(8,1), (c) N(8,5).

Zadania 13.6 Wylosuj 100 liczb z rozkładu jednostajnego na odcinku (0,20), a następnie testem χ2 sprawdź hipotezę, że pochodzą one z rozkładu normalnego.

Zadania 13.7 Wylosuj 200-elementową próbkę prostą z rozkładu zmiennej losowej T z ćwiczeń 8.7 i 9.5, a następnie testem χ2 sprawdź hipotezę, że pochodzi ona z rozkładu normalnego.