Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 13: Przedziały ufności i testy

Ćwiczenia i zadania

Ćwiczenie 13.1

Dwudziestu losowo wybranych pracowników pewnego dużego przedsiębiorstwa sprawdzono pod względem ilości opuszczonych w ostatnim roku dni pracy. Okazało się, że średnia liczba dni nieobecności wynosi $10.6$ , natomiast odchylenie standardowe jest równe $5.04$ . Jak można oszacować średnią liczbę dni nieobecności w pracy pracowników tego przedsiębiorstwa?

Aby odpowiedzieć na powyższe pytanie, na początku należy przyjąć pewne założenia - w tym przypadku sensownie jest założyć, że liczba dni nieobecności jest zmienną losową o rozkładzie normalnym oraz że dane dotyczące tych 20 pracowników stanowią próbkę prostą. Teraz sprecyzujmy nasz problem: mamy znaleźć dwustronny przedział ufności na zadanym poziomie ufności, powiedzmy $0.95$ .

Dalsze postępowanie jest już proste - budujemy przedział ufności dla nadziei matematycznej, używając rozkładu Studenta, czyli korzystając ze wzoru 13.4. Tak więc, pamiętając, że w naszym przypadku $α = 0.05$ , wyznaczamy (przy pomocy tablic lub komputera) kwantyl rzędu $0.975$ rozkładu Studenta o 19 stopniach swobody, który wynosi $2.0930$ , aby otrzymać następujący przybliżony przedział ufności:

(10.6 - 5.04 \frac{2.0930}{\sqrt{20}}, 10.6 + 5.04 \frac{2.0930}{\sqrt{20}}) \approx (8.2412, 12.9588)

Podkreślamy wyraźnie, iż nie jest to przedział ufności dla liczby dni opuszczonych przez pracownika, lecz dla wartości oczekiwanej liczby takich dni.

Ćwiczenie 13.2

Aby zbadać wadliwość nowej serii dysków komputerowych, wybrano losowo 30 wyprodukowanych dysków i poddano je szczegółowym testom. Okazało się, że aż 4 spośród nich uległo awarii. Jaka jest minimalna wadliwość dysków z tej serii?

Mamy tutaj wyznaczyć przedział ufności dla nieznanej wadliwości $p$ , a z treści zadania wynika, że ma to być przedział postaci $(p_{1}, 1)$ (górny koniec przedziału równy 1 jest w tej sytuacji oczywisty). Ponieważ wielkość próbki pozwala na zastosowanie odpowiedniego wzoru (jakiego?), otrzymujemy następujący $90 %$ przybliżony przedział ufności:

(0.0538, 1)

Mówiąc językiem potocznym, mamy $90 %$ pewności, że średnio ponad $5 %$ dysków będzie się psuło. Analogicznie, możemy także wyznaczyć $90 %$ przybliżony przedział ufności postaci $(0, p_{2})$ , otrzymując:

(0, 0.2129)

,

co oznacza, że nie powinno się psuć średnio więcej niż $21 %$ dysków.

Ćwiczenie 13.3

Aby sprawdzić, czy pewna cecha ma średnią wartość m = 20, wykonano 50 pomiarów tej cechy otrzymując średnią wartość próbki $\bar{x} = 20.63$ i odchylenie standardowe w próbce $s = 2.66$ . Możemy więc przypuszczać, że średnia wartość cechy jest większa od 20.

Wykonujemy tutaj test hipotezy:

H_{0} : m = 20

wobec hipotezy alternatywnej:

H_{1} : m > 20

Poniżej podajemy dwa niezależne rozwiązania tego zadania.

I. Rozwiązanie klasyczne wykorzystujące zbiór krytyczny.

Wykorzystamy statystykę $Z_{n}$ :

W_{n} = \frac{{\bar{X}}_{n} - m}{s} \sqrt{n}

która, jak wiemy, przy założeniu, że $m = 20$ posiada w przybliżeniu rozkład $N (0, 1)$ (pamiętajmy, że $n = 50$ ). Ponieważ małe wartości tej statystyki wskazują na hipotezę zerową, zaś duże -- na hipotezę alternatywną, tak więc zbiór krytyczny $K$ ma tutaj postać:

K = [b, \infty)

Ustalamy poziom istotności, na przykład $α = 0.05$ , a następnie dobieramy tak liczbę $b$ , aby:

P (W_{n} \in K) = P (W_{n} \geq b) = 1 - Φ (b) = α

Zatem:

b = Φ^{- 1} (1 - α)

czyli w naszym przypadku zbiór krytyczny to:

K = [1.64, \infty)

Obliczamy teraz wartość statystyki $W_{n}$ na podstawie danych otrzymanych z próbki:

w = \frac{20.63 - 20}{2.66} \sqrt{50} \approx 1.6747

Jak widać, powyższa wartość należy do zbioru krytycznego $K$ , a więc odrzucamy hipotezę zerową na korzyść hipotezy alternatywnej. Gdybyśmy jednak testowali naszą hipotezę na poziomie istotności $α = 0.01$ , to otrzymalibyśmy $b \approx 2.3263$ , a więc wówczas wartość $w$ nie należałaby do zbioru krytycznego $K = [2.3263, \infty)$ , czyli na tym poziomie istotności nie byłoby podstaw do odrzucenia hipotezy $H_{0}$ .

II. Rozwiązanie wykorzystujące wartość- $p$ .

Podobnie jak poprzednio rozważamy tę samą statystykę $W_{n}$ , której

wartość umiemy obliczyć, gdyż zakładamy

H_{0}

-- jest nią oczywiście:

w \approx 1.6747

Przy hipotezie $H_{1} : m > 20$ , otrzymujemy:

wartość-

p = P (Z_{50} \geq w) \approx 1 - Φ (w) \approx 1 - 0.953 = 0.047

Zatem na poziomie istotności $α = 0.05$ odrzucamy $H_{0}$ , zaś na poziomie istotności $α = 0.01$ nie mamy podstaw, aby tak uczynić.

Chociaż obie powyższe metody doprowadziły do tej samej konkluzji zauważmy, że ta druga metoda posiada przewagę nad pierwszą, gdyż wyliczona wartość- $p$ daje pewną dodatkową informację: przy założeniu hipotezy zerowej prawdopodobieństwo tego, że wylosowana próbka będzie miała średnią nie mniejszą niż $20.63$ , wynosi w przybliżeniu $0.047$ . Tak więc stosując tę drugą metodę można, w zależności od sytuacji, bardziej świadomie przyjąć lub odrzucić hipotezę $H_{0}$ .

Ćwiczenie 13.4

Po wykonaniu 15 rzutów monetą okazało się, że reszka wypadła w 10 rzutach. Czy moneta jest symetryczna?

Testujemy tutaj hipotezę, że w rozkładzie dwupunktowym $(0, 1, p)$ parametr $p$ wynosi $0.5$ , przy hipotezie alternatywnej, że $p > 0.5$ , gdzie $p$ jest prawdopodobieństwem wyrzucenia reszki. Jako statystykę weźmiemy liczbę sukcesów $k$ w schemacie Bernoulliego - statystyka ta ma rozkład dwumianowy, zaś zakładając hipotezę zerową znamy parametr tego rozkładu. Zdarzeniem sprzyjającym hipotezie alternatywnej jest tutaj zbiór:

{10, 11, 12, 13, 14, 15}

zatem:

wartość - Parser nie mógł rozpoznać (nieznana funkcja „\begin{array}”): {\displaystyle p =\sum_{i=10}^{15}\left(\begin{array} {@{}c@{}}15\\i\end{array} \right) \frac{1}{2^{15}}}

Powyższą sumę liczymy bezpośrednio (przy użyciu komputera) lub zauważamy, że:

wartość-

p = P (k \geq 10) = 1 - P (k \leq 9) = 1 - F (9)

gdzie $F$ jest dystrybuantą rozkładu dwumianowego o parametrach $n = 15$ i $p = 0.5$ , której wartości można wyznaczyć za pomocą programów komputerowych typu Maple lub Excel. Mamy więc:

wartość-

p \approx 1 - 0.8491 = 0.1509

W tej sytuacji nie powinno się odrzucać hipotezy, że moneta jest symetryczna.

Ćwiczenie 13.5

Po wykonaniu 60 rzutów monetą okazało się, że reszka wypadła w 40 rzutach. Czy moneta jest symetryczna?

Chociaż wydaje się, że jest to prawie takie samo zadanie jak poprzednio, różniące się jedynie danymi liczbowymi, które powstały po wymnożeniu danych z ćwiczenia 13.4 przez 4, mimo to je rozwiążemy.

Zauważmy, że pożyteczną statystyką jest tutaj ( $k$ oznacza liczbę sukcesów):

Z_{n} = \frac{\frac{k}{n} - p}{\sqrt{p (1 - p)}} \sqrt{n}

która, przy założeniu, że $p = 0.5$ , ma w przybliżeniu standardowy rozkład normalny (dlaczego?), a której wartość na naszej próbce wynosi:

z = \frac{\frac{40}{60} - 0.5}{\sqrt{\frac{40}{60} (1 - \frac{40}{60})}} \sqrt{60} \approx 2.7386

Zatem:

wartość-

p = P (Z_{n} \geq z) \approx 1 - Φ (z) \approx 1 - 0.9969 = 0.0031

co oznacza, że hipotezę o symetryczności monety należy odrzucić, a ewentualny błąd z tego wynikający wynosi około $0.3 %$ .

Ćwiczenie 13.6

Dana jest następujące próbka prosta:

3.36, 1.43, 0.151, 10.7, 3.72, 12.3, 3.54, 37.5, 3.26, 7.91, 9.89, 8.74, 0.751, 3.37, 19.3, 1.58, 9.24, 4.04, 8.89, 2.67, 6.38, 12.5, 4.25, 3.32, 12.1, 4.29, 1.69, 0.546, 8.50, 5.47, 9.50, 3.75, 13.5, 13.4, 22.7, 4.58, 5.42, 3.01, 29.7, 8.86, 6.58, 6.28, 0.245, 0.336, 3.99, 3.24, 8.73, 10.2, 1.24, 12.6, 2.84, 7.89, 16.4, 3.99, 2.90, 11.4, 12.6, 8.12, 1.24, 3.09, 3.62, 1.69, 1.49, 13.5, 5.63, 32.3, 0.303, 4.33, 0.0869, 6.83, 1.91, 23.4, 0.321, 5.70, 1.26, 6.98, 3.53, 0.681, 9.85, 1.90, 15.0, 12.4, 1.09, 2.96, 20.1, 15.0, 1.74, 32.2, 6.07, 3.76, 1.07, 7.20, 4.68, 5.84, 2.70, 6.86, 7.67, 0.247, 0.0673, 2.32, 5.49, 17.5, 10.9, 3.44, 0.459, 1.63, 43.8, 12.0, 2.41, 2.53, 11.0, 7.52, 15.8, 3.95, 2.14, 10.5, 11.2, 5.22, 13.9, 8.19, 3.95, 13.9, 5.79, 5.44, 1.36, 0.907, 4.16, 2.49, 2.70, 4.55, 1.81, 6.48, 1.29, 3.75, 10.6, 3.07, 10.3, 0.110, 1.44, 17.1, 1.56, 4.48, 16.5, 0.116, 7.76, 3.64, 10.6, 26.2, 2.16, 5.27, 4.86, 1.05, 8.91, 15.7, 3.0, 2.28, 10.7, 13.8, 19.0, 6.49, 1.60, 6.67, 6.51, 4.68, 2.71, 1.66 , 0.372, 0.377, 19.0, 2.32, 8.26, 9.15, 2.01, 5.47, 1.52, 1.27, 2.72, 7.98, 4.87, 2.72, 7.25, 13.9, 10.2, 2.46, 5.23, 5.14, 10.2, 3.16, 0.451, 12.1, 14.5, 12.0, 3.05, 18.8, 7.83, 10.2, 7.09, 6.98, 13.3, 0.407.

Pytamy się o typ rozkładu, z którego ona pochodzi.

Zaczniemy od narysowania histogramu:

<flash>file=Rp.1.131.swf|width=350|height=350</flash>

Wydaje się, że nieznany rozkład $P_{X}$ może mieć charakter wykładniczy. Stawiamy więc hipotezę:

H_{0} : P_{X} \in 𝒫

przeciw hipotezie alternatywnej:

H_{0} : P_{X} \notin 𝒫

przy czym $𝒫$ jest rodziną rozkładów wykładniczych. Jak wiemy z wykładu 8, jest to rodzina zależna od jednego parametru $λ$ . Pamiętamy też (patrz przykład 12.5), że estymatorem największej wiarygodności parametru $λ$ jest:

\hat{λ} = \frac{1}{\bar{x}}

zatem, wykorzystując daną próbkę, otrzymujemy:

\hat{λ} \approx 0.1393753281

Tak więc szukanym rozkładem $Q$ jest rozkład wykładniczy o parametrze:

λ \approx 0.1393753281

Tworzymy teraz szereg rozdzielczy wybierając następujące punkty podziału:

0, 5, 10, 20, 30, 100

Podkreślamy, że jest to w dużej mierze wybór arbitralny, choć istnieją pewne wskazówki praktyczne przemawiające z takim wyborem. Mamy więc tutaj $k = 5$ klas, których liczności wynoszą odpowiednio:

98, 49, 44, 5, 4

natomiast (przybliżone) prawdopodobieństwa "teoretyczne" są następujące:

0.50186, 0.25000, 0.18657, 0.04630, 0.01528

Ponieważ wartość $χ_{0}$ statystyki $χ$ wynosi:

χ_{0} \approx 3.525189694

zaś wartość- $p$ obliczamy korzystając z rozkładu $χ^{2}$ o $3$ ( $= 5 - 1 - 1$ ) stopniach swobody, otrzymujemy:

wartość-

p \approx 0.3175097675

Tak więc nie można odrzucić hipotezy zerowej na żadnym sensownym poziomie istotności. Mówiąc krótko, jesteśmy przekonani, że nasza próbka pochodzi z rozkładu wykładniczego.

Zadania 13.1 Przypuszcza się, że mniej niż $20 %$ mieszkańców pewnego miasta nie czyta gazet codziennych. Czy hipoteza ta jest prawdziwa, jeżeli na pytanie zadane 50 mieszkańcom, 38 osób odpowiedziało, że czyta gazety codzienne?

Zadania 13.2 Wylosuj 20 liczb z rozkładu $N (29, 2)$ i traktując te liczby jako daną próbkę przeprowadź test hipotezy, że wartość średnia rozkładu, z którego pochodzą te liczby, wynosi 30, przy różnych hipotezach alternatywnych, jeżeli: (a) wariancja rozkładu jest znana i równa $4$ , (b) wariancja rozkładu nie jest znana.

Zadania 13.3 Powtórz poprzednie zadanie losując próbkę z rozkładu jednostajnego na odcinku $(28, 30)$ .

Zadania 13.4 Naszkicuj wykres gęstości rozkładu $χ^{2}$ o $k$ stopniach swobody, gdzie: (a) $k = 1$ , (b) $k = 2$ .

Zadania 13.5 Wylosuj 100 liczb z rozkładu $N (10, 3)$ , a następnie testem $χ^{2}$ sprawdź hipotezę, że pochodzą one z rozkładu: (a) $N (10, 3)$ , (b) $N (8, 1)$ , (c) $N (8, 5)$ .

Zadania 13.6 Wylosuj 100 liczb z rozkładu jednostajnego na odcinku $(0, 20)$ , a następnie testem $χ^{2}$ sprawdź hipotezę, że pochodzą one z rozkładu normalnego.

Zadania 13.7 Wylosuj 200-elementową próbkę prostą z rozkładu zmiennej losowej $T$ z ćwiczeń 8.7 i 9.5, a następnie testem $χ^{2}$ sprawdź hipotezę, że pochodzi ona z rozkładu normalnego.

Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 13: Przedziały ufności i testy

Ćwiczenia i zadania

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia