Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 12: Metoda największej wiarygodności

Z Studia Informatyczne
Wersja z dnia 11:06, 22 sie 2006 autorstwa Arek (dyskusja | edycje)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacjiPrzejdź do wyszukiwania

Ćwiczenia i zadania

Ćwiczenie

Rozważmy próbkę prostą x1,,xn z rozkładu N(m,σ). Znajdziemy estymatory największej wiarygodności parametrów m i σ.

Przypominamy, że gęstość rozkładu normalnego wyraża się wzorem:

f(x)=12πσe12(xmσ)2 dla x.

W związku z tym, funkcja wiarygodności ma postać:

l(m,σ)=12πσe12(x1mσ)212πσe12(xnmσ)2
=1(2πσ)ne12σ2i=1n(xim)2.

Z postaci funkcji l od razu widać, że przy każdym ustalonym σ przyjmuje ona wartość największą dla takiego m,

dla którego funkcja:

l1(m)=i=1n(xim)2

osiąga wartość najmniejszą, ta ostatnia zaś jest zwykłą funkcją kwadratową

zmiennej

m

, a więc łatwo sprawdzić, że przyjmuje ona wartość najmniejszą dla:

m^=x¯.

Rozważmy zatem funkcję:

l2(σ)=(2π)nl(x¯,σ),

a następnie jej logarytm:

L(σ)=nlnσ12σ2i=1n(xix¯)2.

Obliczamy pochodną:

L(σ)=nσ12σ3(2)i=1n(xix¯)2=nσ+1σ3i=1n(xix¯)2.

Zauważmy, jedynym rozwiązaniem równania:

L(σ)=0

jest liczba:

σ^=1ni=1n(xix¯)2.

Ostatecznie więc otrzymujemy następujące estymatory:

m^=x¯=x1++xnn,  σ^=(x1x¯n)2++(xnx¯n)2n.

Ćwiczenie

Aby stwierdzić ile jest średnio bakterii pewnego rodzaju w 1 litrze wody, pobrano n próbek wody po 100 ml (próbki typu A) oraz m próbek wody po 300 ml (próbki typu B). Metoda laboratoryjna pozwala jedynie na stwierdzenie obecności (nie ilości!) bakterii w danej próbce wody. Metodą tą stwierdzono obecność bakterii w k próbkach typu A oraz l próbkach typu B. Jaka jest średnia liczba bakterii w 1 litrze wody?

Zanim przejdziemy do właściwego rozwiązania powyższego zadania, należy najpierw zdać sobie sprawę z tego, że rozkład bakterii w ustalonej porcji wody podlega w przybliżeniu rozkładowi Poissona -- mamy tu bowiem dużo doświadczeń (znalezienie się pojedynczej bakterii w ustalonej porcji wody) z niezwykle małym prawdopodobieństwem sukcesu każde. Dla ułatwienia zapisu przyjmujemy, że podstawowa objętość ma 100 ml (gdy już będziemy mieć średnią liczbę bakterii w tej objętości, to pomnożymy ją przez 10, uzyskując w ten sposób żądany wynik).

Niech więc X oznacza liczbę bakterii w 100 ml wody. Zakładamy, że X ma rozkład Poissona z parametrem λ. W związku z tym zmienna losowa Y, oznaczająca liczbę bakterii w 300 ml wody, ma rozkład Poissona z parametrem 3λ. Teraz wyniki badania można interpretować następująco: zaobserwowano zdarzenie, polegające na jednoczesnym zajściu:

  • k zdarzeń postaci {Xi>0},
  • nk zdarzeń postaci {Xi=0},
  • l zdarzeń postaci {Yi>0},
  • ml zdarzeń postaci {Yi=0},

gdzie zmienne Xi tworzą próbkę prostą z X, zaś zmienne Yi -- próbkę prostą z Y. Prawdopodobieństwo zaobserwowanego zdarzenia jest więc iloczynem prawdopodobieństw powyższych zdarzeń. Zauważmy

jednak, że:

P(Xi=0)=P(X=0)=eλ,

a więc:

P(Xi>0)=P(X>0)=1eλ.

Podobnie:

P(Yi=0)=P(Y=0)=e3λ,

zatem:

P(Yi>0)=P(Y>0)=1e3λ.

Ostatecznie więc funkcja wiarygodności ma postać:

l(q)=qnk(1q)k(q3)ml(1q3)l,

gdzie q=eλ. Widać, że l(0)=l(1)=0 oraz że l jest ciągła na przedziale [0,1], tak więc istnieje w tym przypadku estymator największej wiarygodności, aczkolwiek wzór określający funkcję l wydaje się być zbyt skomplikowany, aby można było znaleźć analityczną postać tego estymatora.

W związku z powyższym, rozwiążemy nasze zadanie wykorzystując program Maple oraz ustalając konkretne wartości parametrów, powiedzmy:

n=30,k=8,m=5,l=3.

Wyznaczamy logarytm z funkcji wiarygodności, różniczkujemy go i przyrównujemy do 0, otrzymując następujące równanie:

28q27(1q)8(1q3)38q28(1q)7(1q3)3
9q30(1q)8(1q3)2=0.

Po podzieleniu obu stron przez wspólny czynnik dostajemy:

28+8q+8q2+45q3=0.

Równanie to można rozwiązać numerycznie w przedziale (0,1) otrzymując:

q^=0.7342,

czyli:

λ^=lnq^=0.3089.

Tak więc w jednym litrze wody są średnio nieco ponad 3 bakterie.

Ćwiczenie

Zmodyfikujemy przykład Uzupelnic 122|. Treść zadania wygląda teraz następująco. Chcąc zbadać wadliwość nowej serii komputerów przeprowadzono następujące badanie: przez 20 dni uruchamiano codziennie 10 nowych komputerów i każdy z nich poddawano wszechstronnemu testowi. Otrzymano następujące wyniki: ciągu 14 dni wszystkie komputery działały bez zarzutu, w ciągu 4 dni miała miejsce awaria jednego z komputerów, natomiast w ciągu 2 dni zaobserwowano awarie więcej niż jednego komputera. Jaka jest wadliwość losowo wybranego komputera, rozumiana jako prawdopodobieństwo awarii w czasie jednego dnia pracy?

Ta drobna zmiana oznacza istotną komplikację techniczną. Stosując oznaczenia z przykładu Uzupelnic 122| widzimy, że funkcja wiarygodności ma teraz postać:

l(p)=a014a14(1a0a1)2,

gdyż 1a0a1 oznacza prawdopodobieństwo zajścia więcej niż jednej awarii w danym dniu. Mamy dalej:

l(p)=((1p)10)14(10p(1p)9)4(1(1p)1010p(1p)9)2,

a więc sytuacja jest podobna do tej z ćwiczenia Uzupelnic cb| -- można wziąć logarytm z funkcji l, obliczyć jego pochodną i przyrównać do 0, jednak otrzymane w ten sposób równanie trzeba rozwiązywać numerycznie. Okazuje się, że w tym przypadku estymatorem największej wiarygodności parametru p jest:

p^=0.041,

a więc nieznacznie więcej niż w przykładzie Uzupelnic 122|.

Ćwiczenie

Znajdziemy estymator największej wiarygodności parametru a, w rozkładzie jednostajnym na przedziale (0,a).

Z warunków zadania wynika, że dysponujemy próbką prostą x1,,xn z rozkładu ciągłego, którego gęstość f jest następująca: f(x)=1a dla 0xa oraz f(x)=0 dla pozostałych x. Funkcją wiarygodności jest więc tutaj:

l(a)=f(x1)f(xn),

W związku z tym, jeżeli wszystkie punkty xi leżą w przedziale (0,a), to:

l(a)=1an,

zaś w przeciwnym wypadku:

l(a)=0.

Zatem:

Parser nie mógł rozpoznać (nieznana funkcja „\begin{array}”): {\displaystyle \displaystyle l(a) = \left\{ \begin{array} {rl} \frac{1}{a^n} & } dla Parser nie mógł rozpoznać (błąd składni): {\displaystyle \displaystyle a \geq \max\{ \displaystyle x_1, \dots, x_n\displaystyle \}\\ 0 & } dla Parser nie mógł rozpoznać (błąd składni): {\displaystyle \displaystyle 0 < a < \max\{ \displaystyle x_1, \dots, x_n\displaystyle \}. \end{array} \right. }

W nietrywialnym przypadku, czyli gdy max(x1,,xn)>0, funkcja ta jest dobrze określona, lecz nie jest ciągła w punkcie a=max{x1,,xn}. Jednak widać (narysuj wykres funkcji l), że akurat w tym punkcie funkcja l przyjmuje wartość największą. Tak więc estymatorem największej wiarygodności parametru a jest:

a^=max{x1,,xn},

o którym była już mowa w ćwiczeniu Uzupelnic earjm|.

. . .

Ćwiczenie

Znajdź wartość największą (o ile istnieje) funkcji f na zbiorze A:

f(x)=x3x2+8x2, A=[2.2],

f(x)=xx2+8x2, A=[0.4],

f(x)=x2ln|x| dla x0, f(0)=0, A=,

f(x)=x21x, A=[1,2],

f(x)=max{x,1x2}, A=(0,1),

f(x)=e|x|, A=,

f(x)=x2x2, A={0,1,2,}.

Ćwiczenie

Wyprowadź wzór na estymator największej wiarygodności parametru p, gdy próbka prosta pochodzi z rozkładu geometrycznego.

Ćwiczenie

Wyprowadź wzór na estymator największej wiarygodności parametru λ, gdy próbka prosta pochodzi z rozkładu Poissona.

Ćwiczenie

Testowano czas działania T nowej serii baterii do telefonów komórkowych. Otrzymano następujące wyniki (w godzinach):

239,209,208,235,226,204,203,204,217,232,

natomiast pięć innych baterii działało dłużej niż 240 godzin. Znajdź estymator parametru p zakładając, że rozkładu czasu działania baterii

jest postaci:
P(T=k)=(1p)k201p dla k=201,202,203,.

Korzystając z otrzymanego wyniku, określ średni czas działania baterii oraz oblicz prawdopodobieństwo tego, bateria z tej serii działa dłużej niż 220 godzin.

Ćwiczenie

Metodą największej wiarygodności znajdź estymator parametru a, gdy próbka x1,,xn pochodzi z rozkładu jednostajnego na odcinku (a,0).

Ćwiczenie

W pewnej liczbie rzutów monetą symetryczną uzyskano 5 orłów. Ile było rzutów?

Ćwiczenie

Mamy próbkę prostą x1,,xn z rozkładu wykładniczego oraz wiemy, że k dalszych niezależnych obserwacji xi z tego rozkładu ma wartość większą niż dana liczba T. Jaka jest nadzieja matematyczna tego rozkładu?