Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 13: Przedziały ufności i testy

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Ćwiczenia i zadania

Ćwiczenie 13.1

Dwudziestu losowo wybranych pracowników pewnego dużego przedsiębiorstwa sprawdzono pod względem ilości opuszczonych w ostatnim roku dni pracy. Okazało się, że średnia liczba dni nieobecności wynosi , natomiast odchylenie standardowe jest równe . Jak można oszacować średnią liczbę dni nieobecności w pracy pracowników tego przedsiębiorstwa?

Aby odpowiedzieć na powyższe pytanie, na początku należy przyjąć pewne założenia - w tym przypadku sensownie jest założyć, że liczba dni nieobecności jest zmienną losową o rozkładzie normalnym oraz że dane dotyczące tych 20 pracowników stanowią próbkę prostą. Teraz sprecyzujmy nasz problem: mamy znaleźć dwustronny przedział ufności na zadanym poziomie ufności, powiedzmy .

Dalsze postępowanie jest już proste - budujemy przedział ufności dla nadziei matematycznej, używając rozkładu Studenta, czyli korzystając ze wzoru 13.4. Tak więc, pamiętając, że w naszym przypadku , wyznaczamy (przy pomocy tablic lub komputera) kwantyl rzędu rozkładu Studenta o 19 stopniach swobody, który wynosi , aby otrzymać następujący przybliżony przedział ufności:



Podkreślamy wyraźnie, iż nie jest to przedział ufności dla liczby dni opuszczonych przez pracownika, lecz dla wartości oczekiwanej liczby takich dni.

Ćwiczenie 13.2

Aby zbadać wadliwość nowej serii dysków komputerowych, wybrano losowo 30 wyprodukowanych dysków i poddano je szczegółowym testom. Okazało się, że aż 4 spośród nich uległo awarii. Jaka jest minimalna wadliwość dysków z tej serii?

Mamy tutaj wyznaczyć przedział ufności dla nieznanej wadliwości , a z treści zadania wynika, że ma to być przedział postaci (górny koniec przedziału równy 1 jest w tej sytuacji oczywisty). Ponieważ wielkość próbki pozwala na zastosowanie odpowiedniego wzoru (jakiego?), otrzymujemy następujący przybliżony przedział ufności:



Mówiąc językiem potocznym, mamy pewności, że średnio ponad dysków będzie się psuło. Analogicznie, możemy także wyznaczyć przybliżony przedział ufności postaci , otrzymując:



co oznacza, że nie powinno się psuć średnio więcej niż dysków.

Ćwiczenie 13.3

Aby sprawdzić, czy pewna cecha ma średnią wartość m = 20, wykonano 50 pomiarów tej cechy otrzymując średnią wartość próbki i odchylenie standardowe w próbce . Możemy więc przypuszczać, że średnia wartość cechy jest większa od 20.

Wykonujemy tutaj test hipotezy:



wobec hipotezy alternatywnej:



Poniżej podajemy dwa niezależne rozwiązania tego zadania.

I. Rozwiązanie klasyczne wykorzystujące zbiór krytyczny.

Wykorzystamy statystykę :



która, jak wiemy, przy założeniu, że posiada w przybliżeniu rozkład (pamiętajmy, że ). Ponieważ małe wartości tej statystyki wskazują na hipotezę zerową, zaś duże -- na hipotezę alternatywną, tak więc zbiór krytyczny ma tutaj postać:



Ustalamy poziom istotności, na przykład , a następnie dobieramy tak liczbę , aby:



Zatem:



czyli w naszym przypadku zbiór krytyczny to:



Obliczamy teraz wartość statystyki na podstawie danych otrzymanych z próbki:



Jak widać, powyższa wartość należy do zbioru krytycznego , a więc odrzucamy hipotezę zerową na korzyść hipotezy alternatywnej. Gdybyśmy jednak testowali naszą hipotezę na poziomie istotności , to otrzymalibyśmy , a więc wówczas wartość nie należałaby do zbioru krytycznego , czyli na tym poziomie istotności nie byłoby podstaw do odrzucenia hipotezy .

II. Rozwiązanie wykorzystujące wartość-.

Podobnie jak poprzednio rozważamy tę samą statystykę , której

wartość umiemy obliczyć, gdyż zakładamy -- jest nią oczywiście:

Przy hipotezie , otrzymujemy:


wartość-


Zatem na poziomie istotności odrzucamy , zaś na poziomie istotności nie mamy podstaw, aby tak uczynić.

Chociaż obie powyższe metody doprowadziły do tej samej konkluzji zauważmy, że ta druga metoda posiada przewagę nad pierwszą, gdyż wyliczona wartość- daje pewną dodatkową informację: przy założeniu hipotezy zerowej prawdopodobieństwo tego, że wylosowana próbka będzie miała średnią nie mniejszą niż , wynosi w przybliżeniu . Tak więc stosując tę drugą metodę można, w zależności od sytuacji, bardziej świadomie przyjąć lub odrzucić hipotezę .

Ćwiczenie 13.4

Po wykonaniu 15 rzutów monetą okazało się, że reszka wypadła w 10 rzutach. Czy moneta jest symetryczna?

Testujemy tutaj hipotezę, że w rozkładzie dwupunktowym parametr wynosi , przy hipotezie alternatywnej, że , gdzie jest prawdopodobieństwem wyrzucenia reszki. Jako statystykę weźmiemy liczbę sukcesów w schemacie Bernoulliego - statystyka ta ma rozkład dwumianowy, zaś zakładając hipotezę zerową znamy parametr tego rozkładu. Zdarzeniem sprzyjającym hipotezie alternatywnej jest tutaj zbiór:



zatem:


wartość - Parser nie mógł rozpoznać (nieznana funkcja „\begin{array}”): {\displaystyle \displaystyle p = \displaystyle \sum_{i=10}^{15}\left(\begin{array} {@{}c@{}}15\\i\end{array} \right) \frac{1}{2^{15}}.}


Powyższą sumę liczymy bezpośrednio (przy użyciu komputera) lub zauważamy, że:


wartość-


gdzie jest dystrybuantą rozkładu dwumianowego o parametrach i , której wartości można wyznaczyć za pomocą programów komputerowych typu Maple lub Excel. Mamy więc:


wartość-


W tej sytuacji nie powinno się odrzucać hipotezy, że moneta jest symetryczna.

Ćwiczenie 13.5

Po wykonaniu 60 rzutów monetą okazało się, że reszka wypadła w 40 rzutach. Czy moneta jest symetryczna?

Chociaż wydaje się, że jest to prawie takie samo zadanie jak poprzednio, różniące się jedynie danymi liczbowymi, które powstały po wymnożeniu danych z ćwiczenia 13.4 przez 4, mimo to je rozwiążemy.

Zauważmy, że pożyteczną statystyką jest tutaj ( oznacza liczbę sukcesów):



która, przy założeniu, że , ma w przybliżeniu standardowy rozkład normalny (dlaczego?), a której wartość na naszej próbce wynosi:



Zatem:


wartość-


co oznacza, że hipotezę o symetryczności monety należy odrzucić, a ewentualny błąd z tego wynikający wynosi około .

Ćwiczenie 13.6

Dana jest następujące próbka prosta:


3.36, 1.43, 0.151, 10.7, 3.72, 12.3, 3.54, 37.5, 3.26, 7.91, 9.89, 8.74, 0.751, 3.37, 19.3, 1.58, 9.24, 4.04, 8.89, 2.67, 6.38, 12.5, 4.25, 3.32, 12.1, 4.29, 1.69, 0.546, 8.50, 5.47, 9.50, 3.75, 13.5, 13.4, 22.7, 4.58, 5.42, 3.01, 29.7, 8.86, 6.58, 6.28, 0.245, 0.336, 3.99, 3.24, 8.73, 10.2, 1.24, 12.6, 2.84, 7.89, 16.4, 3.99, 2.90, 11.4, 12.6, 8.12, 1.24, 3.09, 3.62, 1.69, 1.49, 13.5, 5.63, 32.3, 0.303, 4.33, 0.0869, 6.83, 1.91, 23.4, 0.321, 5.70, 1.26, 6.98, 3.53, 0.681, 9.85, 1.90, 15.0, 12.4, 1.09, 2.96, 20.1, 15.0, 1.74, 32.2, 6.07, 3.76, 1.07, 7.20, 4.68, 5.84, 2.70, 6.86, 7.67, 0.247, 0.0673, 2.32, 5.49, 17.5, 10.9, 3.44, 0.459, 1.63, 43.8, 12.0, 2.41, 2.53, 11.0, 7.52, 15.8, 3.95, 2.14, 10.5, 11.2, 5.22, 13.9, 8.19, 3.95, 13.9, 5.79, 5.44, 1.36, 0.907, 4.16, 2.49, 2.70, 4.55, 1.81, 6.48, 1.29, 3.75, 10.6, 3.07, 10.3, 0.110, 1.44, 17.1, 1.56, 4.48, 16.5, 0.116, 7.76, 3.64, 10.6, 26.2, 2.16, 5.27, 4.86, 1.05, 8.91, 15.7, 3.0, 2.28, 10.7, 13.8, 19.0, 6.49, 1.60, 6.67, 6.51, 4.68, 2.71, 1.66 , 0.372, 0.377, 19.0, 2.32, 8.26, 9.15, 2.01, 5.47, 1.52, 1.27, 2.72, 7.98, 4.87, 2.72, 7.25, 13.9, 10.2, 2.46, 5.23, 5.14, 10.2, 3.16, 0.451, 12.1, 14.5, 12.0, 3.05, 18.8, 7.83, 10.2, 7.09, 6.98, 13.3, 0.407.

Pytamy się o typ rozkładu, z którego ona pochodzi.

Zaczniemy od narysowania histogramu:

<flash>file=Rp.1.131.swf|width=350|height=350</flash>

Wydaje się, że nieznany rozkład może mieć charakter wykładniczy. Stawiamy więc hipotezę:



przeciw hipotezie alternatywnej:



przy czym jest rodziną rozkładów wykładniczych. Jak wiemy z wykładu 8, jest to rodzina zależna od jednego parametru . Pamiętamy też (patrz przykład 12.5), że estymatorem największej wiarygodności parametru jest:



zatem, wykorzystując daną próbkę, otrzymujemy:



Tak więc szukanym rozkładem jest rozkład wykładniczy o parametrze:



Tworzymy teraz szereg rozdzielczy wybierając następujące punkty podziału:



Podkreślamy, że jest to w dużej mierze wybór arbitralny, choć istnieją pewne wskazówki praktyczne przemawiające z takim wyborem. Mamy więc tutaj klas, których liczności wynoszą odpowiednio:



natomiast (przybliżone) prawdopodobieństwa "teoretyczne" są następujące:



Ponieważ wartość statystyki wynosi:



zaś wartość- obliczamy korzystając z rozkładu o () stopniach swobody, otrzymujemy:


wartość-


Tak więc nie można odrzucić hipotezy zerowej na żadnym sensownym poziomie istotności. Mówiąc krótko, jesteśmy przekonani, że nasza próbka pochodzi z rozkładu wykładniczego.


Zadania 13.1 Przypuszcza się, że mniej niż mieszkańców pewnego miasta nie czyta gazet codziennych. Czy hipoteza ta jest prawdziwa, jeżeli na pytanie zadane 50 mieszkańcom, 38 osób odpowiedziało, że czyta gazety codzienne?

Zadania 13.2 Wylosuj 20 liczb z rozkładu i traktując te liczby jako daną próbkę przeprowadź test hipotezy, że wartość średnia rozkładu, z którego pochodzą te liczby, wynosi 30, przy różnych hipotezach alternatywnych, jeżeli: (a) wariancja rozkładu jest znana i równa , (b) wariancja rozkładu nie jest znana.

Zadania 13.3 Powtórz poprzednie zadanie losując próbkę z rozkładu jednostajnego na odcinku .

Zadania 13.4 Naszkicuj wykres gęstości rozkładu o stopniach swobody, gdzie: (a) , (b) .

Zadania 13.5 Wylosuj 100 liczb z rozkładu , a następnie testem sprawdź hipotezę, że pochodzą one z rozkładu: (a) , (b) , (c) .

Zadania 13.6 Wylosuj 100 liczb z rozkładu jednostajnego na odcinku , a następnie testem sprawdź hipotezę, że pochodzą one z rozkładu normalnego.

Zadania 13.7 Wylosuj 200-elementową próbkę prostą z rozkładu zmiennej losowej z ćwiczeń 8.7 i 9.5, a następnie testem sprawdź hipotezę, że pochodzi ona z rozkładu normalnego.