Rachunek prawdopodobieństwa i statystyka/Wykład 5: Prawdopodobieństwo warunkowe i niezależność

From Studia Informatyczne

Wprowadzimy pojęcie prawdopodobieństwa warunkowego i omówimy możliwości jego wykorzystanie do obliczenia prawdopodobieństwa zdarzenia w wielu istotnych sytuacjach. Podamy definicję zdarzeń niezależnych i pokażemy jej działanie w tak zwanym schemacie Bernoulliego.

Spis treści

Prawdopodobieństwo warunkowe

Pojęcie prawdopodobieństwa warunkowego jest znane z kursu szkolnego, tak więc nie wymaga komentarza następująca definicja:

Definicja 5.1

Dana jest przestrzeń probabilistyczna (\Omega,\Sigma ,P) oraz zdarzenie A \in \Sigma , przy czym P(A) > 0. Dla

dowolnego zdarzenia B \in \Sigma określamy jego prawdopodobieństwo warunkowe P(B|A) wzorem:


P(B|A) = \frac{P(B\cap A)}{P(A)}.      (5.1)


Jak łatwo się przekonać, funkcja P(\cdot|A) jest miarą probabilistyczną na \Sigma posiadającą tę właściwość, że dwa zbiory mające jednakowe przecięcia ze zbiorem A, mają także taką samą miarę.

Prawdopodobieństwo całkowite

Z prawdopodobieństwami warunkowymi spotykamy się najczęściej przy obliczaniu tak zwanego prawdopodobieństwa całkowitego. Mówi o tym następujące proste, lecz bardzo ważne twierdzenie:

Twierdzenie 5.2 [Prawdopodobieństwo całkowite]

Dana jest przestrzeń probabilistyczna (\Omega,\Sigma ,P) oraz zdarzenia A_1 ,\dots , A_n \in \Sigma spełniające warunki:

  1. P(A_i) > 0 dla każdego i = 1,\dots , n,
  2. A_i\cap A_j = \O, dla wszystkich i \neq j,
  3. A_1 \cup \dots \cup A_n = \Omega.

Wtedy dla każdego zdarzenia B \in \Sigma zachodzi wzór:


P(B) = \sum_{i=1}^n P(B|A_i) P(A_i).


Dowód .

Ponieważ


B   =   B\cap   \Omega  = B\cap (\bigcup_{i=1}^n A_i) = \bigcup_{i=1}^n(B\cap A_i),


mamy


P(B) = \sum_{i=1}^n P(B\cap A_i) = \sum_{i=1}^n P(B|A_i)  P(A_i).
image:End_of_proof.gif


Uwaga 5.3
Powyższe twierdzenie można wypowiedzieć tak: mając zespół istotnych warunków, które się wzajemnie wykluczają, ale których alternatywa jest zdarzeniem pewnym, możemy obliczyć prawdopodobieństwo każdego zdarzenia, o ile tylko znamy odpowiednie prawdopodobieństwa warunkowe oraz prawdopodobieństwa samych warunków.

Z praktycznego punktu widzenia, wzór na prawdopodobieństwo całkowite jest wygodny także i z tego powodu, że stosując go nie musimy na ogół wyznaczać przestrzeni probabilistycznej. Rozumiemy raczej, że taka przestrzeń istnieje i to nam w zupełności wystarcza.



Przykład 5.4

Przed konkursem ogłoszono listę 200 pytań z dziedziny D_1, 100 pytań z dziedziny D_2 oraz 100 pytań z dziedziny D_3. Umiemy odpowiedzieć na 150 pytań z dziedziny D_1, na wszystkie pytania z dziedziny D_2 oraz na 80 pytań z dziedziny D_3. Jakie jest prawdopodobieństwo, że podczas konkursu odpowiemy na losowo zadane pytanie?

Mamy tutaj alternatywę trzech wykluczających się warunków D_1, D_2 i D_3 polegających na tym, że zadane pytanie pochodzić będzie z odpowiedniej dziedziny. Jest to alternatywa pewna, to znaczy nie istnieją inne możliwości oprócz tych trzech. Chcemy obliczyć prawdopodobieństwo zdarzenia B, polegającego na udzieleniu poprawnej odpowiedzi na otrzymane pytanie. Z treści zadania wynika jednak, że znamy prawdopodobieństwa warunków oraz prawdopodobieństwa warunkowe:


\begin{array} {lll} \displaystyle P(D_1) = \frac{200}{400} = \frac{1}{2}, & P(D_2) = \displaystyle \frac{100}{400} = \frac{1}{4}, & \displaystyle P(D_3) = \frac{100}{400} = \frac{1}{4}, \\ & \\ \displaystyle P(B|D_1) = \frac{150}{200} = \frac{3}{4}, & \displaystyle P(B|D_2) = \frac{100}{100} = 1, & \displaystyle P(B|D_3) = \frac{80}{100} = \frac{4}{5}. \end{array}


Z twierdzenia o prawdopodobieństwie całkowitym otrzymujemy więc:


P(B)    =    \frac{3}{4}\cdot\frac{1}{2}     +     1\cdot \frac{1}{4}     + \frac{4}{5}\cdot \frac{1}{4}    = \frac{33}{40}  = 0.825.


Mamy zatem 82.5-procentową szansę udzielenia poprawnej odpowiedzi na zadane pytanie.

Uwaga 5.5
Twierdzenie o prawdopodobieństwie całkowitym można w oczywisty sposób sformułować (i udowodnić) dla przeliczalnego ciągu zdarzeń A_1, A_2, A_3, \dots (ćwiczenie).

Wzór Bayesa

Możemy teraz podać tak zwany wzór Bayesa.


Twierdzenie 5.6 [Wzór Bayes'a]

Przy założeniach twierdzenia 5.2, zachodzi następująca równość:


\displaystyle P(A_k|B) = \frac{P(B|A_k) P(A_k)} {\sum_{i=1}^n P(B|A_i) P(A_i)}


dla każdego k = 1,\dots,n.

Dowód .


\ \ \ \ \ \ \ \ \ \ \ \ P \displaystyle (A_k|B) =  \frac{P(B\cap A_k)}{P(B)} = \frac{P(B|A_k) P(A_k)}{ \sum_{i=1}^n P(B|A_i) P(A_i)}.
image:End_of_proof.gif


Twierdzenie to budziło z początku pewne kontrowersje. Mianowicie, zdarzenia A_i są często w zastosowaniach traktowane jako przyczyny, zaś zdarzenie B jako skutek. W tej terminologii wzór na prawdopodobieństwo warunkowe (patrz definicja 5.1) można rozumieć w sposób następujący: znając prawdopodobieństwo przyczyny można, o ile ona zaistnieje, obliczyć prawdopodobieństwo skutku - jest to intuicyjnie jasne. Tymczasem twierdzenie Bayesa pozwala wyliczyć prawdopodobieństwo przyczyny, o ile już znamy jej skutek. To powodowało pewne wątpliwości, niemniej na gruncie naszej teorii twierdzenie Bayesa jest oczywiście jak najbardziej poprawne.



Przykład 5.7 [kontynuacja przykładu 5.4]

Na drugi dzień po egzaminie pamiętamy tylko to, że dostaliśmy jedno pytanie oraz to, że zdaliśmy egzamin.

Jakie jest prawdopodobieństwo tego, że odpowiadaliśmy na pytanie z dziedziny D_1?

Pamiętając o poprzednich oznaczeniach możemy nasze zadanie sformułować następująco: oblicz prawdopodobieństwo warunkowe P(D_1|B). Z Twierdzenia Bayesa otrzymujemy natychmiastową odpowiedź:


P(D_1|B) = \frac{P(B\cap D_1)}{P(B)} = \frac{P(B|D_1)P(D_1)}{P(B)} = \frac{\frac{3}{4}\cdot \frac{1}{2}}{\frac{33}{40}} = \frac{5}{11}\approx 0.45.

Zdarzenia niezależne

Pojęcie niezależności jest podstawowym pojęciem w rachunku prawdopodobieństwa - można powiedzieć, że pojęcie to wyodrębnia rachunek prawdopodobieństwa z teorii miary. Najprostszą postać pojęcie to posiada w przypadku dwóch zdarzeń: zdarzenia A i B powinny być, jak podpowiada intuicja, uważane za niezależne, jeśli dla każdego z nich prawdopodobieństwo warunkowe względem tego drugiego nie zależy od warunku, czyli P(A|B) = P(A) oraz P(B|A) = P(B). Każda z tych równości oznacza, że:


P(A\cap B) = P(A)\cdot  P(B).


Właśnie ta równość służy za definicję niezależności dwóch zdarzeń; obejmuje ona jednak również przypadki, gdy P(A)= 0 lub P(B) = 0.

Podamy teraz formalną definicję niezależności dla dowolnej, skończonej liczby zdarzeń.

Definicja 5.8

Zdarzenia A_1,\dots,A_n są niezależne, jeżeli dla każdego podciągu A_{k_1},\dots,A_{k_r} zachodzi:


P(A_{k_1}\cap \dots \cap A_{k_r}) = P(A_{k_1})\cdot  \dots  \cdot P(A_{k_r}).


Przykład 5.9

Podamy teraz przykłady zdarzeń niezależnych oraz zdarzeń zależnych. Przypuśćmy, że rzucamy dwiema kostkami. Niech A oznacza wypadnięcie "szóstki" na pierwszej kostce, B - wypadnięcie liczby nieparzystej na drugiej kostce, zaś S - wypadnięcie w sumie 10 oczek na obu kostkach. Intuicja podpowiada nam, że:

  1. A i B są niezależne - wynik na pierwszej kostce nie ma nic wspólnego z wynikiem na drugiej kostce,
  2. A i S są zależne - "szóstka" na pierwszej kostce oznacza, że suma oczek na obu kostkach musi być większa niż 6, a więc wiadomość o wypadnięciu liczby 6 zwiększa szansę zajścia zdarzenia S,
  3. B i S są zależne - wiadomość o wypadnięciu liczby nieparzystej 1, 3 lub 5 na drugiej kostce zmniejsza trochę szansę tego, że w sumie wypadnie 10.

Aby formalnie uzasadnić te intuicje, zbudujemy przestrzeń probabilistyczną opisującą nasz eksperyment. Mamy oczywiście do czynienia ze schematem klasycznym, przy czym zbiorem \Omega jest tutaj zbiór złożony z 36 par liczb (\omega_1,\omega_2), gdzie \omega_1,  \omega_2  =  1, \dots ,6. Łatwo teraz policzyć, ile elementów wchodzi w skład zdarzeń A, B i S oraz ich iloczynów A\cap B, A \cap  S i B \cap S. Dzieląc te liczby przez 36, mamy:

ad.(1). P(A \cap B) = \frac{3}{36} = \frac{1}{12}, P(A)P(B) = \frac{1}{6}\cdot\frac{1}{2} = \frac{1}{12}.

ad.(2). P(A \cap S) = \frac{1}{36}, P(A)P(S) = \frac{1}{6}\cdot\frac{3}{36} = \frac{1}{72}.

ad.(3). P(B \cap S) = \frac{1}{36}, P(B)P(S) = \frac{1}{2}\cdot\frac{3}{36} = \frac{1}{24}.

Jak widać, powyższe obliczenia potwierdzają nasze intuicje.

Definicję niezależności można rozszerzyć na przypadek nieskończonego ciągu zdarzeń, co w dalszej części rozważań będzie miało istotne znaczenie.

Definicja 5.10

Zdarzenia A_1,A_2,A_3,\dots są niezależne, jeżeli dla każdego n\ge 2 zdarzenia A_1,\dots,A_n są niezależne.

Należy zauważyć, że w na ogół spotykamy się z takimi sytuacjami, w których wiemy (a dokładniej zakładamy), że pewne zdarzenia są niezależne. Możemy wtedy stosować wzory występujące w definicji niezależności lub inne twierdzenia bazujące na tej definicji.

Iloczyn kartezjański

Niezależność zdarzeń łączy się z pojęciem iloczynu kartezjańskiego przestrzeni probabilistycznych. My rozważymy tutaj jedynie najprostszą sytuację.

Niech będą dane dwie przestrzenie probabilistyczne (\Omega_1,\Sigma _1,P_1) oraz (\Omega_2,\Sigma _2,P_2). Niech \Omega = \Omega_1 \times \Omega_2 oznacza iloczyn kartezjański zbiorów (patrz wykład z Logiki i teorii mnogości) \Omega_1 i \Omega_2, czyli:


\Omega = \{(\omega_1,\omega_2): \omega_1 \in \Omega_1, \omega_2 \in \Omega_2\}.


Można teraz zbudować \sigma-algebrę \Sigma na zbiorze \Omega oraz miarę probabilistyczną P\colon \Omega \longrightarrow \mathbb R (jest to dość skomplikowana procedura (jako \Sigma bierze się najmniejszą \sigma-algebrę zawierającą wszystkie iloczyny kartezjańskie A_1 \times A_2, gdzie A_1 \in \Sigma _1 i A_2 \in \Sigma_2, a następnie dowodzi się w żmudny sposób, że istnieje dokładnie jedna miara P spełniająca żądane warunki) taką, że dla każdych dwóch zdarzeń A_1 \in \Sigma _1 i A_2 \in \Sigma _2 mamy pewność, że A_1\times A_2 \in \Sigma oraz że:


P(A_1 \times A_2) = P_1(A_1) P_2(A_2).


Stosujemy często następujące oznaczenie: P = P_1 \times P_2.

Dla wyrobienia intuicji proponujemy wyobrazić sobie iloczyn kartezjański dwóch odcinków \Omega_1 = \Omega_2 =  [0,1], którym jest oczywiście kwadrat o boku równym jeden. Jeżeli A_1 \subset \Omega_1 oraz A_2 \subset \Omega_2 są odcinkami, to ich iloczyn kartezjański jest prostokątem o polu równym iloczynowi długości tych odcinków. Odpowiada to właśnie powyższemu wzorowi, o ile P(A_1) i P(A_2) są długościami, zaś P(A_1 \times A_2) - polem. Rzeczywiście, w ogólnej sytuacji konstrukcja miary P, na bazie miar P_1 i P_2, odpowiada sposobowi określania pola figury płaskiej przy użyciu pojęcia długości odcinka. Zaznaczmy jeszcze, że wielu podzbiorów kwadratu (na przykład koła) nie da się przedstawić jako iloczynów kartezjańskich, a mimo to mają one dobrze określone pola, co odpowiada temu, że miara P jest określona dla dużo szerszej klasy zdarzeń niż iloczyny kartezjańskie A_1 \times A_2.

Innym przykładem iloczynu kartezjańskiego jest przestrzeń probabilistyczna opisująca, omawiany już, eksperyment rzutu dwiema kostkami.

Pojęcie iloczynu kartezjańskiego przestrzeni probabilistycznych można w prosty sposób zdefiniować także w przypadku skończenie wielu przestrzeni, a nawet (tutaj jest trudniej) w przypadku nieskończenie wielu przestrzeni probabilistycznych.

Związek iloczynów kartezjańskich z pojęciem niezależności wyjaśnia następujący:

Przykład 5.11

Rozważmy dwie przestrzenie probabilistyczne (\Omega_1,\Sigma _1,P_1) i (\Omega_2,\Sigma _2,P_2) oraz niech A_1 \in \Sigma _1 i A_2  \in  \Sigma  _2 będą dowolnymi zdarzeniami. Wtedy zdarzenia A = A_1\times \Omega_2 oraz B   = \Omega_1\times A_2 są niezależne w iloczynie kartezjańskim (\Omega,\Sigma ,P) tych przestrzeni, gdyż z definicji miary P = P_1\times P_2 mamy:


P(A\cap  B)  = P(A_1\times A_2) = P_1(A_1) P_2(A_2) = P(A) P(B).


Uogólnienie tego przykładu dla skończonego oraz przeliczalnego iloczynu kartezjańskiego przestrzeni probabilistycznych nie jest trudne.

Iloczyn kartezjański dwóch przestrzeni probabilistycznych stanowi więc naturalny model do opisu 2-etapowego eksperymentu, w którym etapy są od siebie niezależne.

Warto zaznaczyć, że rozważa się także przestrzenie probabilistyczne, w których zbiór zdarzeń jest iloczynem kartezjańskim dwóch lub więcej zbiorów zdarzeń, natomiast miara probabilistyczna nie jest iloczynem kartezjańskim odpowiednich miar. Taka sytuacja występuje najczęściej wtedy, gdy opisujemy dwuetapowy lub wieloetapowy eksperyment, przy czym poszczególne etapy są od siebie zależne.

Schemat Bernoulliego

Jakob Bernoulli (1654-1705)Zobacz biografię
Enlarge
Jakob Bernoulli (1654-1705)
Zobacz biografię
Pojęcie niezależności odgrywa podstawową rolę w konstrukcji tak zwanego schematu Bernoulliego.

Wyobraźmy sobie, że wielokrotnie powtarzamy pewien eksperyment, przy czym spełnione są następujące warunki:

  1. każdy eksperyment może dać dokładnie dwa różne wyniki - mówi się odpowiednio o sukcesie oznaczanym przez "1" oraz o porażce oznaczanej przez "0",
  2. prawdopodobieństwo sukcesu w każdym eksperymencie jest zawsze takie samo - oznaczamy to prawdopodobieństwo przez p (w takim razie prawdopodobieństwo porażki w każdym eksperymencie wynosi q = 1- p),
  3. eksperymenty są niezależne od siebie.

Powyższe warunki są spełnione na przykład w przypadku, gdy rzucamy wielokrotnie kostką do gry i określimy, co rozumiemy przez porażkę, a co przez sukces (mają być dokładnie dwa wyniki eksperymentu). Jeżeli za sukces uważamy wypadnięcie "szóstki", a za porażkę wypadnięcie każdej innej liczby, mamy p = \frac{1}{6}. Bardziej ogólnym przykładem może być losowanie ze zwracaniem omówione w poprzednim module - trzeba wtedy oczywiście znowu określić, co uważamy za sukces, a co za porażkę.

Możemy skonstruować przestrzeń probabilistyczną stanowiącą matematyczny model opisanej sytuacji.

Załóżmy, że wykonujemy n eksperymentów. Każdemu z nich odpowiada bardzo prosta przestrzeń probabilistyczna (\Omega_i,\Sigma _i,P_i), gdzie \Omega_i  =  \{0,1\}, \Sigma _i jest \sigma-algebrą wszystkich podzbiorów \Omega_i (są jedynie cztery takie podzbiory), natomiast P_i jest jednoznacznie określone równościami:


P_i(\{1\}) = p\;\;\textrm{oraz}\;\; P_i(\{0\}) = 1 - p \;\;\textrm{dla}\;\; i = 1  \dots n.


Niezależność poszczególnych eksperymentów oraz omówiony już poprzednio związek iloczynu kartezjańskiego z niezależnością sugerują, że nasz model może być właśnie iloczynem kartezjańskim. Oznaczmy więc przez (\Omega,\mathcal P(\Omega),P)n-krotny iloczyn kartezjański powyższych przestrzeni, czyli:


\Omega = \{\omega= (\omega_1, \dots, \omega_n): \omega_i \in \Omega_i \},


P(\omega_1,\dots \omega_n) = P_1(\omega_1) \cdot \dots \cdot P(\omega_n)


(aby zapis był czytelniejszy, opuszczamy kilka par nawiasów, które formalnie powinny się pojawić).


oraz dla dowolnego A \subset \Omega (przypominamy, że \mathcal P(\Omega) oznacza \sigma-algebrę wszystkich podzbiorów \Omega):


P(A) = \sum_{\omega: \omega\in A}P(\omega).


Tak skonstruowaną przestrzeń nazywamy schematem Bernoulliego.

Podamy teraz rozwiązanie standardowego problemu, polegającego na obliczeniu prawdopodobieństwa uzyskania dokładnie k sukcesów podczas n eksperymentów, przeprowadzanych zgodnie ze sformułowanymi powyżej warunkami.

Niech A będzie interesującym nas zdarzeniem. Elementami A są więc ciągi \omega = \{\omega_1, \dots, \omega_m \}, w których dokładnie k elementów stanowią "1", a pozostałe n - k elementów stanowią "0". Dla każdego takiego \omega mamy więc:


P(\omega)  =p^k(1-p)^{n-k}.


Tak więc:


P(A) = \sum_{\omega:  \omega \in A}P(\omega)  = \sum_{\omega: \omega \in A}p^k(1-p)^{n-k}.


Wystarczy teraz tylko znać liczbę wszystkich elementów zbioru A. Liczba ta jest jednak równa liczbie wszystkich podzbiorów k-elementowych wybranych ze zbioru n-elementowego - każdy taki zbiór określa k (spośród n) pozycji, przeznaczonych "sukcesów". Mamy więc ostatecznie:


P(A) = \left(\begin{array} {@{}c@{}}n\\k\end{array} \right) p^k(1 -p)^{n-k}.      (5.2)