Rachunek prawdopodobieństwa i statystyka/Wykład 12: Metoda największej wiarygodności: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Arek (dyskusja | edycje)
Nie podano opisu zmian
 
(Nie pokazano 33 wersji utworzonych przez 5 użytkowników)
Linia 1: Linia 1:
==Streszczenie==
==Metoda największej wiarygodności==


Omówimy metodę estymacji punktowej, zwaną metodą największej
Omówimy metodę estymacji punktowej, zwaną metodą największej
Linia 6: Linia 6:
stosując tę metodę. Najpierw jednak przypomnimy pewne fakty
stosując tę metodę. Najpierw jednak przypomnimy pewne fakty
dotyczące optymalizacji funkcji.   
dotyczące optymalizacji funkcji.   
'''Słowa kluczowe: ''' funkcja największej wiarygodności, wartość największa
funkcji, estymator największej wiarygodności.


==Wartość największa funkcji==
==Wartość największa funkcji==


Poznamy teraz chyba najpopularniejszą metodę estymacji punktowej -- metodę największej
Poznamy teraz chyba najpopularniejszą metodę estymacji punktowej - metodę największej
wiarygodności. Jednak aby ją poprawnie stosować, musimy przypomnieć sobie pewne wiadomości z analizy matematycznej[[AM]].
wiarygodności. Jednak aby ją poprawnie stosować, musimy przypomnieć sobie pewne wiadomości z analizy matematycznej (patrz wykład z [[Analiza matematyczna|Analizy matematycznej]]).


Przypuśćmy, że mamy daną funkcję <math>\displaystyle f\colon K \longrightarrow {\Bbb R} </math>, gdzie <math>\displaystyle K\subset {\Bbb R}</math> jest ustalonym zbiorem.
Przypuśćmy, że mamy daną funkcję <math>f\colon K \longrightarrow {\Bbb R}</math>, gdzie <math>K\subset {\Bbb R}</math> jest ustalonym zbiorem.
Mówimy, że funkcja ta przyjmuje wartość
Mówimy, że funkcja ta przyjmuje wartość
największą w punkcie <math>\displaystyle \hat{x} \in K</math>, jeżeli:
największą w punkcie <math>\hat{x} \in K</math>, jeżeli:
<center><math>\displaystyle f(x) \le f(\hat{x})\;\; </math> dla każdego <math>\displaystyle  \; x \in K.</math></center>
 
 
<center><math>
f(x) \le f(\hat{x})\;\;</math> dla każdego <math> \; x \in K</math></center>
 
 
Oczywiście, nie dla wszystkich funkcji
Oczywiście, nie dla wszystkich funkcji
daje się określić wartość największą, jednak przy pewnych dodatkowych założeniach można stwierdzić, że wartość taka istnieje.
daje się określić wartość największą, jednak przy pewnych dodatkowych założeniach można stwierdzić, że wartość taka istnieje.
Mówi o tym poniższe twierdzenie, które przytaczamy bez dowodu.
Mówi o tym poniższe twierdzenie, które przytaczamy bez dowodu.


{{twierdzenie|||
{{twierdzenie|12.1|tw 12.1|
Załóżmy, że funkcja <math>f</math> jest ciągła na zbiorze <math>A</math> oraz  że zachodzi jeden z następujących warunków:
 
1. <math>A=[a,b]</math> jest przedziałem domkniętym i ograniczonym,


Załóżmy, że funkcja <math>\displaystyle f</math> jest ciągła na zbiorze <math>\displaystyle A</math> oraz  że zachodzi jeden z następujących warunków:
2. <math>A</math> jest dowolnym przedziałem (ograniczonym lub
# <math>\displaystyle A=[a,b]</math> jest przedziałem domkniętym i ograniczonym,
nieograniczonym) oraz istnieją granice funkcji <math>f</math> na końcach tego przedziału i są one skończone lub równe <math>-\infty</math>.
# <math>\displaystyle A</math> jest dowolnym przedziałem (ograniczonym lub
nieograniczonym) oraz istnieją granice funkcji <math>\displaystyle f</math> na końcach tego przedziału i są one skończone lub równe <math>\displaystyle -\infty</math>.


Wtedy funkcja <math>\displaystyle f</math> przyjmuje wartość największą w pewnym punkcie przedziału <math>\displaystyle A</math>.
Wtedy funkcja <math>f</math> przyjmuje wartość największą w pewnym punkcie przedziału <math>A</math>.
}}
}}


Z praktycznego punktu widzenia, zainteresowani jesteśmy wyznaczeniem punktu <math>\displaystyle \hat{x}</math>,
Z praktycznego punktu widzenia, zainteresowani jesteśmy wyznaczeniem punktu <math>\hat{x}</math>,
w którym dana funkcja przyjmuje wartość największą. Bardzo ważnym narzędziem okazuje się być tutaj pochodna [[AM]] --
w którym dana funkcja przyjmuje wartość największą. Bardzo ważnym narzędziem okazuje się być tutaj pochodna (patrz wykład z [[Analiza matematyczna|Analizy matematycznej]]) -
oto, bardzo pomocne w tym przypadku, klasyczne twierdzenie z analizy matematycznej:
oto, bardzo pomocne w tym przypadku, klasyczne twierdzenie z analizy matematycznej:


{{twierdzenie|||
{{twierdzenie|12.2|tw 12.2|
 
Jeżeli funkcja <math>f\colon (a,b) \longrightarrow {\Bbb R}</math> jest różniczkowalna i przyjmuje wartość największą w punkcie
Jeżeli funkcja <math>\displaystyle f\colon (a,b) \longrightarrow {\Bbb R}</math> jest różniczkowalna i przyjmuje wartość największą w punkcie
<math>\hat{x} \in (a,b)</math>, to <math>f'(\hat{x}) = 0</math>.
<math>\displaystyle \hat{x} \in (a,b)</math>, to <math>\displaystyle f'(\hat{x}) = 0</math>.
}}
}}


Podkreślamy, że w obu powyższych twierdzeniach wszystkie założenia są istotne. Jeżeli w konkretnej sytuacji
Podkreślamy, że w obu powyższych twierdzeniach wszystkie założenia są istotne. Jeżeli w konkretnej sytuacji
potrafimy stwierdzić, że są one spełnione, to nasz problem sprowadza się do obliczenia pochodnej i rozwiązania równania:
potrafimy stwierdzić, że są one spełnione, to nasz problem sprowadza się do obliczenia pochodnej i rozwiązania równania:
<center><math>\displaystyle f'(x) = 0.
 
</math></center>
 
Wówczas funkcja <math>\displaystyle f</math> może osiągać wartość największą jedynie w punktach będących rozwiązaniami powyższego równania
<center><math>
lub końcami przedziału określoności, o ile należą one do tego przedziału.
f'(x) = 0</math></center>
 
 
Wówczas funkcja <math>f</math> może osiągać wartość największą jedynie w punktach będących rozwiązaniami powyższego równania lub końcami przedziału określoności, o ile należą one do tego przedziału.
Bardzo często zdarza się, że nasze równanie ma dokładnie jeden pierwiastek oraz że
Bardzo często zdarza się, że nasze równanie ma dokładnie jeden pierwiastek oraz że
łatwo sprawdzić, iż wartość największa nie może być przyjęta na końcach przedziału określoności --
łatwo sprawdzić, iż wartość największa nie może być przyjęta na końcach przedziału określoności -
w tym przypadku to właśnie owo rozwiązanie jest jedynym punktem, w którym funkcja przyjmuje wartość
w tym przypadku to właśnie owo rozwiązanie jest jedynym punktem, w którym funkcja przyjmuje wartość
największą.
największą.


W niektórych przypadkach funkcja <math>\displaystyle f</math> jest na tyle skomplikowana, że nie potrafimy stwierdzić, czy zachodzą
W niektórych przypadkach funkcja <math>f</math> jest na tyle skomplikowana, że nie potrafimy stwierdzić, czy zachodzą założenia [[#tw_12.1|twierdzenia 12.1]] i [[#tw_12.2|twierdzenia 12.2]]. Praktyczną metodą jest wtedy narysowanie wykresu (na przykład za pomocą komputera) i na zauważenie na jego
założenia twierdzeń [[##twn|Uzupelnic twn|]] i [[##twke|Uzupelnic twke|]]. Praktyczną metodą jest wtedy narysowanie wykresu (na przykład
za pomocą komputera) i na zauważenie na jego
podstawie, że taka wartość rzeczywiście istnieje. Innym problemem może być brak różniczkowalności
podstawie, że taka wartość rzeczywiście istnieje. Innym problemem może być brak różniczkowalności
lub skomplikowana postać pochodnej <math>\displaystyle f'(x)</math>, uniemożliwiająca  analityczne rozwiązanie powyższego równania --
lub skomplikowana postać pochodnej <math>f'(x)</math>, uniemożliwiająca  analityczne rozwiązanie powyższego równania - należy wtedy zastosować odpowiednią metodę numeryczną.
należy wtedy zastosować odpowiednią metodę numeryczną.


Podkreślamy, iż metoda największej wiarygodności, którą za chwilę przedstawimy, jest
Podkreślamy, iż metoda największej wiarygodności, którą za chwilę przedstawimy, jest
zaimplementowana w większości komputerowych programów matematycznych i statystycznych.
zaimplementowana w większości komputerowych programów matematycznych i statystycznych.
Na przykład, program Maple (w wersji 10) udostępnia ją w pakiecie:
Na przykład, program Maple (w wersji 10) udostępnia ją w pakiecie:
<tt>Statistics[MaximumLikelihoodEstimate]</tt>,
<tt>Statistics[MaximumLikelihoodEstimate]</tt>,


Linia 71: Linia 74:


Omówimy tutaj jedną z najczęściej stosowanych metod
Omówimy tutaj jedną z najczęściej stosowanych metod
estymacji punktowej -- metodę największej
estymacji punktowej - metodę największejwiarygodności. Zaczniemy od (fikcyjnego) przykładu.
wiarygodności. Zaczniemy od (fikcyjnego) przykładu.


{{przyklad|12.3|przy 12.3|
Spośród studentów informatyki pewnego elitarnego wydziału wybrano losowo i niezależnie od
Spośród studentów informatyki pewnego elitarnego wydziału wybrano losowo i niezależnie od
siebie 50 osób, a następnie każdą z nich spytano, czy kiedykolwiek w
siebie 50 osób, a następnie każdą z nich spytano, czy kiedykolwiek w
Linia 80: Linia 83:
teraz: jaki procent studentów informatyki otrzymał w trakcie
teraz: jaki procent studentów informatyki otrzymał w trakcie
swoich studiów ocenę niedostateczną.
swoich studiów ocenę niedostateczną.
}}


Mamy tutaj zaobserwowaną próbkę prostą <math>\displaystyle x_1, \dots, x_n</math>, <math>\displaystyle n = 50</math>, z
Mamy tutaj zaobserwowaną próbkę prostą <math>x_1, \dots, x_n</math>, <math>n = 50</math>, z
rozkładu dwupunktowego <math>\displaystyle (0,1,p)</math>: <math>\displaystyle 0</math> interpretujemy
rozkładu dwupunktowego <math>(0,1,p)</math>: <math>0</math> interpretujemy
jako "NIE", zaś <math>\displaystyle 1</math> -- jako "TAK".  Naszym zadaniem jest wskazanie parametru <math>\displaystyle p</math>.
jako "NIE", zaś <math>1</math> - jako "TAK".  Naszym zadaniem jest wskazanie parametru <math>p</math>.
Oczywiście, nie potrafimy tego zrobić dokładnie na podstawie
Oczywiście, nie potrafimy tego zrobić dokładnie na podstawie
samej tylko próbki, natomiast możemy możliwie najlepiej
samej tylko próbki, natomiast możemy możliwie najlepiej
przybliżyć jego nieznaną wartość w następujący sposób:
przybliżyć jego nieznaną wartość w następujący sposób:
obliczamy prawdopodobieństwo wylosowania naszej próbki w
obliczamy prawdopodobieństwo wylosowania naszej próbki w
zależności od <math>\displaystyle p</math>, a następnie uznajemy, że najlepszym
zależności od <math>p</math>, a następnie uznajemy, że najlepszym
przybliżeniem nieznanego parametru będzie taka wartość <math>\displaystyle p</math>,
przybliżeniem nieznanego parametru będzie taka wartość <math>p</math>,
dla której obliczone właśnie prawdopodobieństwo
dla której obliczone właśnie prawdopodobieństwo
jest największe.
jest największe.


Przystąpmy zatem do realizacji opisanej powyżej procedury. Korzystając z niezależności
Przystąpmy zatem do realizacji opisanej powyżej procedury. Korzystając z niezależności
zmiennych losowych <math>\displaystyle  \displaystyle X_1, \dots, X_n\displaystyle  </math> otrzymujemy:
zmiennych losowych <math>X_1, \dots, X_n</math> otrzymujemy:
<center><math>\displaystyle
 
 
<center><math>
P(X_1=x_1, \dots, X_n = x_n) = P(X_1=x_1)\cdot \dots \cdot
P(X_1=x_1, \dots, X_n = x_n) = P(X_1=x_1)\cdot \dots \cdot
P(X_n = x_n).
P(X_n = x_n)
</math></center>
</math></center>
Zauważmy, że:
Zauważmy, że:
<center><math>\displaystyle P(X_i=x_i) =
 
 
<center><math>
P(X_i=x_i) =
\left\{ \begin{array} {rl}
\left\{ \begin{array} {rl}
p, &  \textrm{gdy} \displaystyle  x_i=1\\
p, &  \text{gdy} x_i=1\\
1 -  p, &  \textrm{gdy} \displaystyle    x_i = 0.
1 -  p, &  \text{gdy}   x_i = 0
\end{array}  \right.
\end{array}  \right.</math></center>
 
 
Z treści zadania wiemy, że <math>x_i = 1</math> dla dokładnie 14 wartości <math>i</math> . Tak więc:
 
 
<center><math>
P(X_1=x_1, \dots, X_n = x_n) =p^{\sum x_i}(1- p)^{n - \sum
x_i} = p^{14}(1-p)^{36}
</math></center>
 
 
Pozostaje nam wyznaczyć największą wartość funkcji  <math>l\colon [0,1]\longrightarrow {\Bbb R}</math>, zadanej wzorem:
 
 
<center><math>
l(p) = p^{14}(1-p)^{36}
</math></center>
 
 
oraz zwanej funkcją (największej) wiarygodności. Łatwo stwierdzić, że funkcja ta ma wartość
największą, gdyż jest ciągła na przedziale domkniętym i ograniczonym <math>[0,1]</math>. Co więcej,
wartość ta musi być przyjęta w jakimś punkcie (lub punktach) <math>\hat{p}\in (0,1)</math>, gdyż
dla <math>p = 0</math> oraz dla <math>p= 1</math> wartości funkcji <math>l</math> są równe <math>0</math>, i właśnie to <math>\hat{p}</math> przybliża
nieznaną wartość parametru <math>p</math>.
 
W celu wyznaczenia  <math>\hat{p}</math>  wykorzystamy powszechnie używaną metodę upraszczającą
obliczenia - rozważymy mianowicie funkcję:
 
 
<center><math>
L(p) = \ln
l(p)
</math></center>
 
 
która przyjmuje wartość największą
dokładnie w tych samych punktach, co funkcja <math>l</math>.
Tak więc:
 
 
<center><math>
L(p) = 14 \ln p + 36 \ln (1-p)
</math></center>
 
 
Obliczamy:
 
 
<center><math>
L'(p) = \frac{14}{p} - \frac{36}{1-p}
</math></center>
 
 
a następnie rozwiązujemy
równanie <math>L'(p) = 0</math>, czyli:
 
 
<center><math>
\frac{14}{p} - \frac{36}{1-p}= 0
</math></center>
</math></center>
Z treści
 
zadania wiemy, że <math>\displaystyle x_i = 1</math> dla dokładnie 14 wartości <math>\displaystyle i</math> . Tak więc:
 
<center><math>\displaystyle
otrzymując następujące rozwiązanie:  
P(X_1=x_1, \dots, X_n = x_n) = p^{\sum x_i}(1- p)^{n - \sum
 
x_i} = p^{14}(1-p)^{36}.
 
<center><math>
\hat{p} = \frac{14}{50} = 0.28
</math></center>
</math></center>


Pozostaje nam wyznaczyć największą wartość funkcji  <math>\displaystyle l\colon [0,1]\longrightarrow {\Bbb R}</math>, zadanej wzorem:
<center><math>\displaystyle l(p) = p^{14}(1-p)^{36}</math></center>
oraz zwanej funkcją (największej)
wiarygodności. Łatwo stwierdzić, że funkcja ta ma wartość
największą, gdyż jest ciągła na przedziale domkniętym i ograniczonym <math>\displaystyle [0,1]</math>. Co więcej,
wartość ta musi być przyjęta w jakimś punkcie (lub punktach) <math>\displaystyle \hat{p}\in (0,1)</math>, gdyż
dla <math>\displaystyle p = 0</math> oraz dla <math>\displaystyle p= 1</math> wartości funkcji <math>\displaystyle l</math> są równe <math>\displaystyle 0</math>, i właśnie to <math>\displaystyle \hat{p}</math> przybliża
nieznaną wartość parametru <math>\displaystyle p</math>.


W celu wyznaczenia  <math>\displaystyle \hat{p}</math>  wykorzystamy
Otrzymany w ten sposób estymator nazywa się estymatorem
powszechnie używaną metodę upraszczającą
największej wiarygodności parametru <math>p</math>.  
obliczenia -- rozważymy mianowicie funkcję: <center><math>\displaystyle L(p) = \ln
l(p),</math></center> która przyjmuje wartość największą
dokładnie w tych samych punktach, co funkcja <math>\displaystyle l</math>.
Tak więc: <center><math>\displaystyle L(p) = 14 \ln p + 36 \ln (1-p).</math></center> Obliczamy:
<center><math>\displaystyle L'(p) = \frac{14}{p} - \frac{36}{1-p},</math></center> a następnie rozwiązujemy
równanie <math>\displaystyle L'(p) = 0</math>, czyli: <center><math>\displaystyle  \frac{14}{p} - \frac{36}{1-p}
= 0,</math></center> otrzymując następujące rozwiązanie: <center><math>\displaystyle \hat{p} = \frac{14}{50}  =
0.28.</math></center> Otrzymany w ten sposób estymator nazywa się estymatorem
największej wiarygodności parametru <math>\displaystyle p</math>.  


Metoda największej wiarygodności polega więc na
Metoda największej wiarygodności polega więc na
Linia 141: Linia 196:
ta osiąga największą wartość. Podkreślamy jednak, że
ta osiąga największą wartość. Podkreślamy jednak, że
wartość funkcji największej wiarygodności nie musi być dokładnie
wartość funkcji największej wiarygodności nie musi być dokładnie
równa prawdopodobieństwu zaobserwowanego zdarzenia --
równa prawdopodobieństwu zaobserwowanego zdarzenia -
wystarczy, że będzie do niego proporcjonalna (patrz przykład [[##122|Uzupelnic 122|]]).
wystarczy, że będzie do niego proporcjonalna (patrz [[#przy_12.4|przykład 12.4]]).


{{przyklad|12.4|przy 12.4|
Chcąc zbadać wadliwość nowej serii
Chcąc zbadać wadliwość nowej serii
komputerów, przeprowadzono następujące badanie: przez 20
komputerów, przeprowadzono następujące badanie: przez 20
Linia 152: Linia 208:
jednego z komputerów, natomiast w ciągu 2 dni zaobserwowano
jednego z komputerów, natomiast w ciągu 2 dni zaobserwowano
awarie 2 komputerów. Jaka jest wadliwość losowo wybranego
awarie 2 komputerów. Jaka jest wadliwość losowo wybranego
komputera, rozumiana jako prawdopodobieństwo awarii w
komputera, rozumiana jako prawdopodobieństwo awarii w czasie jednego dnia pracy? }}
czasie jednego dnia pracy?


Oznaczmy szukaną wadliwość komputera przez <math>\displaystyle p</math> i policzmy
Oznaczmy szukaną wadliwość komputera przez <math>p</math> i policzmy
prawdopodobieństwo zaobserwowanego zdarzenia w zależności
prawdopodobieństwo zaobserwowanego zdarzenia w zależności
od <math>\displaystyle p</math>. W tym celu zauważmy najpierw, że
od <math>p</math>. W tym celu zauważmy najpierw, że
prawdopodobieństwo zajścia dokładnie <math>\displaystyle k</math> awarii w ciągu jednego dnia wynosi: <center><math>\displaystyle a_k =
prawdopodobieństwo zajścia dokładnie <math>k</math> awarii w ciągu jednego dnia wynosi:  
\left(\begin{array} {@{}c@{}}10\\k\end{array} \right)p^k(1-p)^{10-k}.</math></center> Ponieważ awarie zachodzą
 
 
<center><math>
a_k =
\dbinom{10}{k}p^k(1-p)^{10-k}
</math></center>  
 
 
Ponieważ awarie zachodzą
niezależnie od siebie, więc prawdopodobieństwo opisanego powyżej zdarzenia
niezależnie od siebie, więc prawdopodobieństwo opisanego powyżej zdarzenia
wyraża się wzorem:
wyraża się wzorem:
<center><math>\displaystyle
 
a_0^{14}a_1^4a_2^2 = \left((1-p)^{10}\right)^{14}
 
\left(\left(\begin{array} {@{}c@{}}10\\1\end{array} \right)p(1-p)^{9}\right)^{4}
<center><math>
\left(\left(\begin{array} {@{}c@{}}10\\2\end{array} \right)p^2(1-p)^{8}\right)^{2}</math></center>
a_0^{14}a_1^4a_2^2 = \left((1-p)^{10}\right)^{14}\left(\dbinom{10}{1}p(1-p)^{9}\right)^{4}\left(\dbinom{10}{2}p^2(1-p)^{8}\right)^{2}
<center><math>\displaystyle  =
</math></center>
20250000(1-p)^{192}p^8.
 
 
<center><math>=
20250000(1-p)^{192}p^8
</math></center>
</math></center>
Jako funkcję wiarygodności warto więc przyjąć:
Jako funkcję wiarygodności warto więc przyjąć:
<center><math>\displaystyle
 
l(p) = (1-p)^{192}p^8.
 
<center><math>
l(p) = (1-p)^{192}p^8
</math></center>
 
 
Naszym zadaniem jest znalezienie takiego punktu <math>\hat{p}</math>, w którym
funkcja <math>l</math> osiąga wartość największą na przedziale <math>[0,1]</math>. Zauważmy, że
taka wartość <math>\hat{p}</math> istnieje i jest liczbą z przedziału <math>(0,1)</math>.
Aby ją wyliczyć postępujemy dokładnie tak samo, jak poprzednio - definiujemy:
 
 
<center><math>
L(p) = \ln l(p) = 192 \ln (1-p) + 8 \ln p
</math></center>
 
 
obliczamy pochodną:
 
 
<center><math>
L'(p) = - \frac{192}{1-p} + \frac{8}{p}
</math></center>
 
 
a następnie rozwiązujemy równanie <math>L'(p)=0</math>, otrzymując:
 
 
<center><math>
\hat{p} = 0.04
</math></center>
</math></center>


Naszym zadaniem jest znalezienie takiego punktu <math>\displaystyle \hat{p}</math>, w którym
funkcja <math>\displaystyle l</math> osiąga wartość największą na przedziale <math>\displaystyle [0,1]</math>. Zauważmy, że
taka wartość <math>\displaystyle \hat{p}</math> istnieje i jest liczbą z przedziału <math>\displaystyle (0,1)</math>.
Aby ją wyliczyć postępujemy dokładnie tak samo, jak poprzednio -- definiujemy:
<center><math>\displaystyle  L(p) = \ln l(p) = 192 \ln (1-p) + 8 \ln p,</math></center>
obliczamy pochodną: <center><math>\displaystyle L'(p) = - \frac{192}{1-p} + \frac{8}{p},</math></center>
a następnie rozwiązujemy równanie <math>\displaystyle L'(p)=0</math>, otrzymując: <center><math>\displaystyle \hat{p} = 0.04.</math></center>


Do tej pory rozważaliśmy jedynie przykładowe sytuacje, w których miała zastosowanie
Do tej pory rozważaliśmy jedynie przykładowe sytuacje, w których miała zastosowanie
metoda największej wiarygodności. Zajmijmy się więc teraz przypadkiem ogólnym.
metoda największej wiarygodności. Zajmijmy się więc teraz przypadkiem ogólnym.


Jeżeli obserwujemy próbkę prostą <math>\displaystyle x_1, \dots, x_n</math>z rozkładu
Jeżeli obserwujemy próbkę prostą <math>x_1, \dots, x_n</math>z rozkładu
dyskretnego o parametrze <math>\displaystyle \theta</math>, to określamy funkcję
dyskretnego o parametrze <math>\theta</math>, to określamy funkcję
wiarygodności jako:
wiarygodności jako:
<center><math>\displaystyle
 
l(\theta) = c P_\theta(x_1) \cdot \dots \cdot P_\theta(x_n),
 
<center><math>
l(\theta) = c P_\theta(x_1) \cdot \dots \cdot P_\theta(x_n)
</math></center>
</math></center>
gdzie <math>\displaystyle c</math> jest stałą dodatnią, zaś estymatorem największej
 
wiarygodności parametru <math>\displaystyle \theta</math> nazywamy taką wartość
 
<math>\displaystyle \hat{\theta} \in \Theta</math>, że dla każdego <math>\displaystyle \theta \in \Theta</math> zachodzi warunek:
gdzie <math>c</math> jest stałą dodatnią, zaś estymatorem największej
<center><math>\displaystyle l(\hat{\theta}) \le l(\theta).</math></center>
wiarygodności parametru <math>\theta</math> nazywamy taką wartość
<math>\hat{\theta} \in \Theta</math>, że dla każdego <math>\theta \in \Theta</math> zachodzi warunek:
 
 
<center><math>
l(\hat{\theta}) \le l(\theta)
</math></center>
 


W przypadku rozkładów ciągłych prawdopodobieństwo
W przypadku rozkładów ciągłych prawdopodobieństwo
zaobserwowania pojedynczej próbki prostej <math>\displaystyle  \displaystyle x_1, \dots, x_n\displaystyle  </math> jest równe <math>\displaystyle 0</math>, jednak i
zaobserwowania pojedynczej próbki prostej <math>x_1, \dots, x_n</math> jest równe <math>0</math>, jednak i w tym przypadku można stosować metodę największej
w tym przypadku można stosować metodę największej
wiarygodności - tym celu definiuje się funkcję wiarygodności:
wiarygodności -- tym celu definiuje się funkcję
 
wiarygodności:
 
<center><math>\displaystyle
<center><math>
l(\theta) = c f_\theta(x_1) \cdot \dots \cdot f_\theta(x_n),
l(\theta) = c f_\theta(x_1) \cdot \dots \cdot f_\theta(x_n)
</math></center>
</math></center>
gdzie <math>\displaystyle f_\theta</math> jest gęstością rozkładu <math>\displaystyle P_\theta</math>, zaś <math>\displaystyle c > 0</math> jest stałą.


gdzie <math>f_\theta</math> jest gęstością rozkładu <math>P_\theta</math>, zaś <math>c > 0</math> jest stałą.
{{przyklad|12.5|przy 12.5|
Rozważmy próbkę prostą z rozkładu
Rozważmy próbkę prostą z rozkładu
wykładniczego o parametrze <math>\displaystyle \lambda > 0</math>. Znajdziemy
wykładniczego o parametrze <math>\lambda > 0</math>. Znajdziemy
estymator największej wiarygodności dla tego parametru.  
estymator największej wiarygodności dla tego parametru. }}
 
Pamiętamy z wykładu [[Rachunek prawdopodobieństwa i statystyka/Wykład 8: Przegląd ważniejszych rozkładów|8]] że gęstością rozkładu wykładniczego jest funkcja:
 
 
<center><math>
f(x) = \left\{ \begin{array} {rl}
0 &  \text{dla}  x<0\\
\lambda e^{-\lambda x} &  \text{dla}  x \ge 0
\end{array}  \right.</math></center>
 
 
Ponieważ próbka <math>x_1, \dots, x_n</math> pochodzi z tego rozkładu, więc można założyć, że:
 


Pamiętamy z wykładu [[##wy8|Uzupelnic wy8|]], że gęstością rozkładu wykładniczego jest funkcja:
<center><math>
x_i > 0\;\;</math>  dla każdego  <math> i
</math></center>


<center><math>\displaystyle f(x) = \left\{ \begin{array} {rl}
0 &  </math>  dla  <math>\displaystyle  x<0\\
\lambda e^{-\lambda x} &  </math>  dla  <math>\displaystyle    x \ge 0.
\end{array}  \right. </math></center>


Ponieważ próbka <math>\displaystyle  \displaystyle x_1, \dots, x_n\displaystyle  </math> pochodzi z tego rozkładu, więc można założyć, że:
<center><math>\displaystyle x_i > 0\;\;  </math>  dla każdego  <math>\displaystyle  i.</math></center>
Zatem funkcja wiarygodności ma w tym przypadku postać:
Zatem funkcja wiarygodności ma w tym przypadku postać:
<center><math>\displaystyle
 
l(\lambda) = \lambda e^{-\lambda x_1} \cdot \dots \cdot \lambda e^{-\lambda x_n} = \lambda^n e^{-\lambda \sum_{i=1}^nx_i} = \lambda^n e^{-\lambda n\bar{x}}
 
<center><math>
l(\lambda) =\lambda e^{-\lambda x_1} \cdot \dots \cdot \lambda e^{-\lambda x_n} = \lambda^n e^{-\lambda \sum_{i=1}^nx_i} = \lambda^n e^{-\lambda n\bar{x}}
</math></center>
</math></center>
(tutaj <math>\displaystyle n\bar{x} > 0</math> jest znaną liczbą). Jak widać, funkcja <math>\displaystyle l</math> ma w punkcie <math>\displaystyle 0</math> wartość równą <math>\displaystyle 0</math>,
 
a także można łatwo stwierdzić, że <center><math>\displaystyle \lim_{\lambda \longrightarrow \infty} l(\lambda) = 0.</math></center>
 
Jest oczywiste, że <math>\displaystyle l</math> jest funkcją ciągłą, przyjmującą wartości dodatnie dla wszystkich <math>\displaystyle \lambda > 0</math>.
(tutaj <math>n\bar{x} > 0</math> jest znaną liczbą). Jak widać, funkcja <math>l</math> ma w punkcie <math>0</math> wartość równą <math>0</math>,
Tak więc istnieje punkt <math>\displaystyle \hat{\lambda} > 0</math>, w którym funkcja <math>\displaystyle l</math> przyjmuje wartość największą.
a także można łatwo stwierdzić, że:
 
<center><math>\lim_{\lambda \longrightarrow \infty} l(\lambda) = 0</math></center>
 
 
Jest oczywiste, że <math>l</math> jest funkcją ciągłą, przyjmującą wartości dodatnie dla wszystkich <math>\lambda >0</math>.
Tak więc istnieje punkt <math>\hat{\lambda} > 0</math>, w którym funkcja <math>l</math> przyjmuje wartość największą.
Aby go wyznaczyć, wygodnie jest rozważyć funkcję:
Aby go wyznaczyć, wygodnie jest rozważyć funkcję:
<center><math>\displaystyle
 
L(\lambda) = \ln{l(\lambda)} =n \ln \lambda - \lambda n\bar{x}.
 
<center><math>
L(\lambda) = \ln{l(\lambda)} =n \ln \lambda - \lambda n\bar{x}
</math></center>
</math></center>
Teraz różniczkujemy:
Teraz różniczkujemy:
<center><math>\displaystyle
 
 
<center><math>
L'(\lambda) = \frac{n}{\lambda}  - n\bar{x}
L'(\lambda) = \frac{n}{\lambda}  - n\bar{x}
</math></center>
</math></center>
i widzimy, że pochodna <math>\displaystyle L'</math> przyjmuje wartość zero w punkcie:
 
<center><math>\displaystyle \hat{\lambda} = \frac{1}{\bar{x}},
 
i widzimy, że pochodna <math>L'</math> przyjmuje wartość zero w punkcie:
 
 
<center><math>
\hat{\lambda} = \frac{1}{\bar{x}}
</math></center>
</math></center>
który jest właśnie szukanym estymatorem parametru <math>\displaystyle \lambda</math>.


==Estymatory największej wiarygodności -- własności==
 
który jest właśnie szukanym estymatorem parametru <math>\lambda</math>.
 
==Estymatory największej wiarygodności - własności==


Poznaliśmy ogólne zasady konstrukcji estymatorów metodą największej wiarygodności.
Poznaliśmy ogólne zasady konstrukcji estymatorów metodą największej wiarygodności.
Jednak uważny student zwrócił z pewnością uwagę, że w niektórych przypadkach można było z góry przewidzieć wynik.
Jednak uważny student zwrócił z pewnością uwagę, że w niektórych przypadkach można było z góry przewidzieć wynik.
Czy musieliśmy więc używać wówczas metody? Oczywiście nie -- metodę największej
Czy musieliśmy więc używać wówczas metody? Oczywiście nie - metodę największej
wiarygodności stosuje się, przede wszystkim, w sytuacjach, w których nie widać od razu rozsądnego estymatora (w trakcie ćwiczeń omówimy
wiarygodności stosuje się, przede wszystkim, w sytuacjach, w których nie widać od razu rozsądnego estymatora (w trakcie ćwiczeń omówimy
takie sytuacje). Jednakże warto zwrócić uwagę na to,
takie sytuacje). Jednakże warto zwrócić uwagę na to,
Linia 251: Linia 384:
iż, aby one zachodziły, należy przyjąć pewne dość techniczne założenia, które na ogół są spełnione.
iż, aby one zachodziły, należy przyjąć pewne dość techniczne założenia, które na ogół są spełnione.


; (1)
(1) Estymator największej wiarygodności jest zgodny.
:[:]Estymator największej wiarygodności jest zgodny.
 
; (2)
(2) Estymator największej wiarygodności jest asymptotycznie nieobciążony.
:[:]Estymator największej wiarygodności jest asymptotycznie nieobciążony.
 
; (3)
(3) W przypadku dużych próbek, estymator największej wiarygodności parametru <math>\theta</math> ma w przybliżeniu rozkład <math>N(\theta,\frac{1}{\sqrt{I_n}})</math>, gdzie <math>I_n</math> jest tak zwaną informacją Fishera, którą można określić dla niemal każdego rozkładu dyskretnego lub ciągłego (nie robimy tego jednak tutaj).
:[:]W przypadku dużych próbek, estymator największej wiarygodności parametru <math>\displaystyle \theta</math> ma w przybliżeniu rozkład
 
<math>\displaystyle N(\theta,\frac{1}{\sqrt{I_n}})</math>, gdzie <math>\displaystyle I_n</math> jest tak zwaną informacją Fishera, którą można określić dla
(4) Jeżeli <math>\hat{\theta}</math> jest estymatorem największej wiarygodności parametru <math>\theta</math>, zaś <math>g \colon \Theta \longrightarrow {\Bbb R}</math> - funkcją ciągłą, to <math>g(\hat{\theta})</math> jest estymatorem największej wiarygodności parametru <math>g(\theta)</math>.
niemal każdego rozkładu dyskretnego lub ciągłego (nie robimy tego jednak tutaj).
; (4)
:[:]Jeżeli <math>\displaystyle \hat{\theta}</math> jest estymatorem największej wiarygodności parametru <math>\displaystyle \theta</math>, zaś <math>\displaystyle g \colon \Theta \longrightarrow {\Bbb R}</math> --
funkcją ciągłą, to <math>\displaystyle g(\hat{\theta})</math> jest estymatorem największej wiarygodności parametru <math>\displaystyle g(\theta)</math>.


Metodę największej wiarygodności stosuje się także w sytuacji, gdy szukany parametr jest wektorem, na przykład
Metodę największej wiarygodności stosuje się także w sytuacji, gdy szukany parametr jest wektorem, na przykład
<math>\displaystyle \theta=(m,\sigma)</math> w rozkładzie <math>\displaystyle N(m,\sigma)</math>. Należy wówczas wyznaczyć wartość największą funkcji wielu zmiennych[[AM]],
<math>\theta=(m,\sigma)</math> w rozkładzie <math>N(m,\sigma)</math>. Należy wówczas wyznaczyć wartość największą funkcji wielu zmiennych (patrz wykład z [[Analiza matematyczna 2|Analizy matematycznej 2]]),
co jednak często okazuje się być zadaniem niezbyt łatwym.
co jednak często okazuje się być zadaniem niezbyt łatwym.

Aktualna wersja na dzień 23:33, 11 wrz 2023

Metoda największej wiarygodności

Omówimy metodę estymacji punktowej, zwaną metodą największej wiarygodności oraz pokażemy konkretne problemy, w których może być ona stosowana. Zwrócimy także uwagę na trudności, jakie można często spotkać stosując tę metodę. Najpierw jednak przypomnimy pewne fakty dotyczące optymalizacji funkcji.

Wartość największa funkcji

Poznamy teraz chyba najpopularniejszą metodę estymacji punktowej - metodę największej wiarygodności. Jednak aby ją poprawnie stosować, musimy przypomnieć sobie pewne wiadomości z analizy matematycznej (patrz wykład z Analizy matematycznej).

Przypuśćmy, że mamy daną funkcję f:K, gdzie K jest ustalonym zbiorem. Mówimy, że funkcja ta przyjmuje wartość największą w punkcie x^K, jeżeli:


f(x)f(x^) dla każdego xK


Oczywiście, nie dla wszystkich funkcji daje się określić wartość największą, jednak przy pewnych dodatkowych założeniach można stwierdzić, że wartość taka istnieje. Mówi o tym poniższe twierdzenie, które przytaczamy bez dowodu.

Twierdzenie 12.1

Załóżmy, że funkcja f jest ciągła na zbiorze A oraz że zachodzi jeden z następujących warunków:

1. A=[a,b] jest przedziałem domkniętym i ograniczonym,

2. A jest dowolnym przedziałem (ograniczonym lub nieograniczonym) oraz istnieją granice funkcji f na końcach tego przedziału i są one skończone lub równe .

Wtedy funkcja f przyjmuje wartość największą w pewnym punkcie przedziału A.

Z praktycznego punktu widzenia, zainteresowani jesteśmy wyznaczeniem punktu x^, w którym dana funkcja przyjmuje wartość największą. Bardzo ważnym narzędziem okazuje się być tutaj pochodna (patrz wykład z Analizy matematycznej) - oto, bardzo pomocne w tym przypadku, klasyczne twierdzenie z analizy matematycznej:

Twierdzenie 12.2

Jeżeli funkcja f:(a,b) jest różniczkowalna i przyjmuje wartość największą w punkcie x^(a,b), to f(x^)=0.

Podkreślamy, że w obu powyższych twierdzeniach wszystkie założenia są istotne. Jeżeli w konkretnej sytuacji potrafimy stwierdzić, że są one spełnione, to nasz problem sprowadza się do obliczenia pochodnej i rozwiązania równania:


f(x)=0


Wówczas funkcja f może osiągać wartość największą jedynie w punktach będących rozwiązaniami powyższego równania lub końcami przedziału określoności, o ile należą one do tego przedziału. Bardzo często zdarza się, że nasze równanie ma dokładnie jeden pierwiastek oraz że łatwo sprawdzić, iż wartość największa nie może być przyjęta na końcach przedziału określoności - w tym przypadku to właśnie owo rozwiązanie jest jedynym punktem, w którym funkcja przyjmuje wartość największą.

W niektórych przypadkach funkcja f jest na tyle skomplikowana, że nie potrafimy stwierdzić, czy zachodzą założenia twierdzenia 12.1 i twierdzenia 12.2. Praktyczną metodą jest wtedy narysowanie wykresu (na przykład za pomocą komputera) i na zauważenie na jego podstawie, że taka wartość rzeczywiście istnieje. Innym problemem może być brak różniczkowalności lub skomplikowana postać pochodnej f(x), uniemożliwiająca analityczne rozwiązanie powyższego równania - należy wtedy zastosować odpowiednią metodę numeryczną.

Podkreślamy, iż metoda największej wiarygodności, którą za chwilę przedstawimy, jest zaimplementowana w większości komputerowych programów matematycznych i statystycznych. Na przykład, program Maple (w wersji 10) udostępnia ją w pakiecie:

Statistics[MaximumLikelihoodEstimate],

zaś w programie Excel istnieje dodatek Solver, który można, między innymi, zastosować do optymalizacji funkcji.

Estymacja metodą największej wiarygodności

Omówimy tutaj jedną z najczęściej stosowanych metod estymacji punktowej - metodę największejwiarygodności. Zaczniemy od (fikcyjnego) przykładu.

Przykład 12.3

Spośród studentów informatyki pewnego elitarnego wydziału wybrano losowo i niezależnie od siebie 50 osób, a następnie każdą z nich spytano, czy kiedykolwiek w trakcie studiów otrzymała ocenę niedostateczną. Okazało się, iż 14 osób odpowiedziało "TAK", natomiast pozostałe odpowiedziały "NIE". Pytamy teraz: jaki procent studentów informatyki otrzymał w trakcie swoich studiów ocenę niedostateczną.

Mamy tutaj zaobserwowaną próbkę prostą x1,,xn, n=50, z rozkładu dwupunktowego (0,1,p): 0 interpretujemy jako "NIE", zaś 1 - jako "TAK". Naszym zadaniem jest wskazanie parametru p. Oczywiście, nie potrafimy tego zrobić dokładnie na podstawie samej tylko próbki, natomiast możemy możliwie najlepiej przybliżyć jego nieznaną wartość w następujący sposób: obliczamy prawdopodobieństwo wylosowania naszej próbki w zależności od p, a następnie uznajemy, że najlepszym przybliżeniem nieznanego parametru będzie taka wartość p, dla której obliczone właśnie prawdopodobieństwo jest największe.

Przystąpmy zatem do realizacji opisanej powyżej procedury. Korzystając z niezależności zmiennych losowych X1,,Xn otrzymujemy:


P(X1=x1,,Xn=xn)=P(X1=x1)P(Xn=xn)


Zauważmy, że:


P(Xi=xi)={p,gdyxi=11p,gdyxi=0


Z treści zadania wiemy, że xi=1 dla dokładnie 14 wartości i . Tak więc:


P(X1=x1,,Xn=xn)=pxi(1p)nxi=p14(1p)36


Pozostaje nam wyznaczyć największą wartość funkcji l:[0,1], zadanej wzorem:


l(p)=p14(1p)36


oraz zwanej funkcją (największej) wiarygodności. Łatwo stwierdzić, że funkcja ta ma wartość największą, gdyż jest ciągła na przedziale domkniętym i ograniczonym [0,1]. Co więcej, wartość ta musi być przyjęta w jakimś punkcie (lub punktach) p^(0,1), gdyż dla p=0 oraz dla p=1 wartości funkcji l są równe 0, i właśnie to p^ przybliża nieznaną wartość parametru p.

W celu wyznaczenia p^ wykorzystamy powszechnie używaną metodę upraszczającą obliczenia - rozważymy mianowicie funkcję:


L(p)=lnl(p)


która przyjmuje wartość największą dokładnie w tych samych punktach, co funkcja l. Tak więc:


L(p)=14lnp+36ln(1p)


Obliczamy:


L(p)=14p361p


a następnie rozwiązujemy równanie L(p)=0, czyli:


14p361p=0


otrzymując następujące rozwiązanie:


p^=1450=0.28


Otrzymany w ten sposób estymator nazywa się estymatorem największej wiarygodności parametru p.

Metoda największej wiarygodności polega więc na skonstruowaniu funkcji wiarygodności odpowiadającej zaobserwowanemu zdarzeniu, zależnej od szukanych (estymowanych) parametrów, a następnie na znalezieniu takich wartości tych parametrów, dla których funkcja ta osiąga największą wartość. Podkreślamy jednak, że wartość funkcji największej wiarygodności nie musi być dokładnie równa prawdopodobieństwu zaobserwowanego zdarzenia - wystarczy, że będzie do niego proporcjonalna (patrz przykład 12.4).

Przykład 12.4

Chcąc zbadać wadliwość nowej serii komputerów, przeprowadzono następujące badanie: przez 20 dni uruchamiano codziennie 10 nowych komputerów i każdy z nich poddawano wszechstronnemu testowi. Otrzymano następujące wyniki: w ciągu 14 dni wszystkie komputery działały bez zarzutu, w ciągu 4 dni miała miejsce awaria jednego z komputerów, natomiast w ciągu 2 dni zaobserwowano awarie 2 komputerów. Jaka jest wadliwość losowo wybranego

komputera, rozumiana jako prawdopodobieństwo awarii w czasie jednego dnia pracy?

Oznaczmy szukaną wadliwość komputera przez p i policzmy prawdopodobieństwo zaobserwowanego zdarzenia w zależności od p. W tym celu zauważmy najpierw, że prawdopodobieństwo zajścia dokładnie k awarii w ciągu jednego dnia wynosi:


ak=(10k)pk(1p)10k


Ponieważ awarie zachodzą niezależnie od siebie, więc prawdopodobieństwo opisanego powyżej zdarzenia wyraża się wzorem:


a014a14a22=((1p)10)14((101)p(1p)9)4((102)p2(1p)8)2


=20250000(1p)192p8


Jako funkcję wiarygodności warto więc przyjąć:


l(p)=(1p)192p8


Naszym zadaniem jest znalezienie takiego punktu p^, w którym funkcja l osiąga wartość największą na przedziale [0,1]. Zauważmy, że taka wartość p^ istnieje i jest liczbą z przedziału (0,1). Aby ją wyliczyć postępujemy dokładnie tak samo, jak poprzednio - definiujemy:


L(p)=lnl(p)=192ln(1p)+8lnp


obliczamy pochodną:


L(p)=1921p+8p


a następnie rozwiązujemy równanie L(p)=0, otrzymując:


p^=0.04


Do tej pory rozważaliśmy jedynie przykładowe sytuacje, w których miała zastosowanie metoda największej wiarygodności. Zajmijmy się więc teraz przypadkiem ogólnym.

Jeżeli obserwujemy próbkę prostą x1,,xnz rozkładu dyskretnego o parametrze θ, to określamy funkcję wiarygodności jako:


l(θ)=cPθ(x1)Pθ(xn)


gdzie c jest stałą dodatnią, zaś estymatorem największej wiarygodności parametru θ nazywamy taką wartość θ^Θ, że dla każdego θΘ zachodzi warunek:


l(θ^)l(θ)


W przypadku rozkładów ciągłych prawdopodobieństwo zaobserwowania pojedynczej próbki prostej x1,,xn jest równe 0, jednak i w tym przypadku można stosować metodę największej wiarygodności - tym celu definiuje się funkcję wiarygodności:


l(θ)=cfθ(x1)fθ(xn)


gdzie fθ jest gęstością rozkładu Pθ, zaś c>0 jest stałą.

Przykład 12.5

Rozważmy próbkę prostą z rozkładu wykładniczego o parametrze λ>0. Znajdziemy

estymator największej wiarygodności dla tego parametru.

Pamiętamy z wykładu 8 że gęstością rozkładu wykładniczego jest funkcja:


f(x)={0dlax<0λeλxdlax0


Ponieważ próbka x1,,xn pochodzi z tego rozkładu, więc można założyć, że:


xi>0 dla każdego i


Zatem funkcja wiarygodności ma w tym przypadku postać:


l(λ)=λeλx1λeλxn=λneλi=1nxi=λneλnx¯


(tutaj nx¯>0 jest znaną liczbą). Jak widać, funkcja l ma w punkcie 0 wartość równą 0, a także można łatwo stwierdzić, że:


limλl(λ)=0


Jest oczywiste, że l jest funkcją ciągłą, przyjmującą wartości dodatnie dla wszystkich λ>0. Tak więc istnieje punkt λ^>0, w którym funkcja l przyjmuje wartość największą. Aby go wyznaczyć, wygodnie jest rozważyć funkcję:


L(λ)=lnl(λ)=nlnλλnx¯


Teraz różniczkujemy:


L(λ)=nλnx¯


i widzimy, że pochodna L przyjmuje wartość zero w punkcie:


λ^=1x¯


który jest właśnie szukanym estymatorem parametru λ.

Estymatory największej wiarygodności - własności

Poznaliśmy ogólne zasady konstrukcji estymatorów metodą największej wiarygodności. Jednak uważny student zwrócił z pewnością uwagę, że w niektórych przypadkach można było z góry przewidzieć wynik. Czy musieliśmy więc używać wówczas metody? Oczywiście nie - metodę największej wiarygodności stosuje się, przede wszystkim, w sytuacjach, w których nie widać od razu rozsądnego estymatora (w trakcie ćwiczeń omówimy takie sytuacje). Jednakże warto zwrócić uwagę na to, że estymatory największej wiarygodności posiadają pewne uniwersalne własności, co sprawia, że są one na ogół "dobrymi" estymatorami. Poniżej przytaczamy niektóre z tych własności. Pamiętajmy jednak, iż, aby one zachodziły, należy przyjąć pewne dość techniczne założenia, które na ogół są spełnione.

(1) Estymator największej wiarygodności jest zgodny.

(2) Estymator największej wiarygodności jest asymptotycznie nieobciążony.

(3) W przypadku dużych próbek, estymator największej wiarygodności parametru θ ma w przybliżeniu rozkład N(θ,1In), gdzie In jest tak zwaną informacją Fishera, którą można określić dla niemal każdego rozkładu dyskretnego lub ciągłego (nie robimy tego jednak tutaj).

(4) Jeżeli θ^ jest estymatorem największej wiarygodności parametru θ, zaś g:Θ - funkcją ciągłą, to g(θ^) jest estymatorem największej wiarygodności parametru g(θ).

Metodę największej wiarygodności stosuje się także w sytuacji, gdy szukany parametr jest wektorem, na przykład θ=(m,σ) w rozkładzie N(m,σ). Należy wówczas wyznaczyć wartość największą funkcji wielu zmiennych (patrz wykład z Analizy matematycznej 2), co jednak często okazuje się być zadaniem niezbyt łatwym.