Rachunek prawdopodobieństwa i statystyka/Wykład 10: Łańcuchy Markowa: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
 
(Nie pokazano 40 wersji utworzonych przez 5 użytkowników)
Linia 1: Linia 1:
==Łańcuchy Mrkowa==
==Łańcuchy Markowa==


Założenie o niezależności zmiennych losowych nie zawsze jest
Założenie o niezależności zmiennych losowych nie zawsze jest
Linia 13: Linia 13:
==Definicje i przykłady==
==Definicje i przykłady==


Niech <math>\displaystyle E\subset {\Bbb R}^d</math> będzie zbiorem skończonym lub
Niech <math>E\subset {\Bbb R}^d</math> będzie zbiorem skończonym lub przeliczalnym oraz niech  
przeliczalnym oraz&nbsp;niech <center><math>\displaystyle {\mathbf{P}}\colon E \times E \longrightarrow {\Bbb R}\;\;\textrm{i}\;\;{\mathbf{p}}\colon E \longrightarrow
{\Bbb R}</math></center> będą ustalonymi funkcjami.
Będziemy myśleć o <math>\displaystyle {\mathbf{P}}</math> i <math>\displaystyle {\mathbf{p}}</math> jako o skończonej lub
przeliczalnej macierzy [[AG]] <math>\displaystyle {\mathbf{P}}(i,j)</math> oraz wektorze [[AG]] o współrzędnych
<math>\displaystyle {\mathbf{p}}(i)</math>, gdzie <math>\displaystyle i,j \in E</math>.


{{definicja|łańcuch Markowa||


<center>
<math>
{\mathbf{P}}\colon E \times E \longrightarrow {\Bbb R}\;\;\text{i}\;\;{\mathbf{p}}\colon E \longrightarrow
{\Bbb R}
</math>
</center>
będą ustalonymi funkcjami.
Będziemy myśleć o <math>{\mathbf{P}}</math> i <math>{\mathbf{p}}</math> jako o skończonej lub
przeliczalnej macierzy (patrz wykład z [[Algebra liniowa z geometrią analityczną|Algebry liniowej z geometrią analityczną]]) <math>{\mathbf{P}}(i,j)</math> oraz wektorze (patrz wykład z [[Algebra liniowa z geometrią analityczną|Algebry liniowej z geometrią analityczną]]) o współrzędnych
<math>{\mathbf{p}}(i)</math>, gdzie <math>i,j \in E</math>.
{{definicja|10.1.[łańcuch Markowa]|def 10.1|
Niech będzie dany ciąg
Niech będzie dany ciąg
wektorów losowych <math>\displaystyle X_n</math>, <math>\displaystyle n = 0,1,2, \dots</math>,
wektorów losowych <math>X_n</math>, <math>n = 0,1,2, \dots</math>,
zdefiniowanych na przestrzeni probabilistycznej <math>\displaystyle (\Omega,
zdefiniowanych na przestrzeni probabilistycznej <math>(\Omega,
\Sigma,P)</math> i przyjmujących wartości w <math>\displaystyle {\Bbb R}^d</math>. Mówimy, że
\Sigma,P)</math> i przyjmujących wartości w <math>{\Bbb R}^d</math>. Mówimy, że
<math>\displaystyle \{X_n\}</math> jest łańcuchem Markowa, jeżeli spełnione są
<math>\{X_n\}</math> jest łańcuchem Markowa, jeżeli spełnione są
następujące warunki:
następujące warunki:


<math>\displaystyle P(X_0 = i) = {\mathbf{p}}(i)</math>  dla każdego <math>\displaystyle i \in E</math>,
1. <math>P(X_0 = i) = {\mathbf{p}}(i)</math>  dla każdego <math>i \in E</math>,


dla każdego <math>\displaystyle n \ge 0</math> zachodzi równość:
2. dla każdego <math>n \ge 0</math> zachodzi równość:
<center><math>\displaystyle
 
 
<center><math>
P(X_{n+1} = i_{n+1}|(X_0 = i_0, \dots, X_n = i_n))
P(X_{n+1} = i_{n+1}|(X_0 = i_0, \dots, X_n = i_n))
</math></center>
</math></center>
<center><math>\displaystyle
=  P(X_{n+1} = i_{n+1}|X_n = i_n)  = {\mathbf{P}}(i_n,i_{n+1}),
</math></center>
dla wszystkich <math>\displaystyle i_0,\dots,i_{n+1} \in E</math>,


<math>\displaystyle \displaystyle \sum_{i \in E}{\mathbf{p}}(i) = 1</math>,


<math>\displaystyle \displaystyle \sum_{ j \in E}{\mathbf{P}}(i,j) = 1</math>  dla każdego <math>\displaystyle i \in
<center><math>
=  P(X_{n+1} = i_{n+1}|X_n = i_n)  = {\mathbf{P}}(i_n,i_{n+1})</math>,</center>
 
 
dla wszystkich <math>i_0,\dots,i_{n+1} \in E</math>,
 
 
3. <math>\sum_{i \in E}{\mathbf{p}}(i) = 1</math>,
 
4. <math>\sum_{ j \in E}{\mathbf{P}}(i,j) = 1</math>  dla każdego <math>i \in
E</math>.
E</math>.
}}
}}


Powyższe warunki mają prostą interpretację. Mianowicie, utożsamiamy
Powyższe warunki mają prostą interpretację. Mianowicie, utożsamiamy
zbiór <math>\displaystyle E</math> ze zbiorem wszystkich możliwych stanów
zbiór <math>E</math> ze zbiorem wszystkich możliwych stanów
pewnego systemu. Wówczas <math>\displaystyle X_n</math> oznacza stan, w którym znajduje się nasz system w chwili
pewnego systemu. Wówczas <math>X_n</math> oznacza stan, w którym znajduje się nasz system w chwili
czasowej <math>\displaystyle n</math>. Warunek, że <math>\displaystyle X_n</math> jest wektorem losowym
czasowej <math>n</math>. Warunek, że <math>X_n</math> jest wektorem losowym
oznacza, że faktycznie nie znamy dokładnie tego
oznacza, że faktycznie nie znamy dokładnie tego
położenia, natomiast pozostałe warunki dają nam o nim
położenia, natomiast pozostałe warunki dają nam o nim
pewne informacje. Po pierwsze, znamy rozkład
pewne informacje. Po pierwsze, znamy rozkład
prawdopodobieństwa położenia systemu w chwili zerowej
prawdopodobieństwa położenia systemu w chwili zerowej
(warunki 1 i 3). Po drugie,
(warunki 1 i 3). Po drugie, prawdopodobieństwo
prawdopodobieństwo
przejścia układu z jednego stanu do innego stanu, w
przejścia układu z jednego stanu do innego stanu, w
jednostkowym odcinku czasu, zależy jedynie od samych
jednostkowym odcinku czasu, zależy jedynie od samych
Linia 61: Linia 74:
konkretnej chwili, w której to przejście następuje
konkretnej chwili, w której to przejście następuje
(warunek 2). Wreszcie, układ nigdy nie opuści swojej
(warunek 2). Wreszcie, układ nigdy nie opuści swojej
przestrzeni stanów <math>\displaystyle E</math>, gdyż:
przestrzeni stanów <math>E</math>, gdyż:
<center><math>\displaystyle
 
P(X_0 \in E) = \sum_{i \in E}{\mathbf{p}}_i = 1,
 
</math></center>
<center><math>
zaś warunek 4 implikuje następującą równość dla wszystkich  <math>\displaystyle i \in E</math>:
P(X_0 \in E) = \sum_{i \in E}{\mathbf{p}}_i = 1</math>,</center>
<center><math>\displaystyle
 
 
zaś warunek 4 implikuje następującą równość dla wszystkich  <math>i \in E</math>:
 
 
<center><math>
P(X_{n+1} \in E|X_{n} = i) = \sum_{j \in E}P(X_{n+1} =
P(X_{n+1} \in E|X_{n} = i) = \sum_{j \in E}P(X_{n+1} =
j|X_n = i) = \sum_{ j \in E}{\mathbf{P}}(i,j) = 1.
j|X_n = i) = \sum_{ j \in E}{\mathbf{P}}(i,j) = 1</math></center>
</math></center>
 


W związku z powyższą interpretacją, <math>\displaystyle E</math> będziemy nazywać
W związku z powyższą interpretacją, <math>E</math> będziemy nazywać
zbiorem stanów lub
zbiorem stanów lub przestrzenią stanów,
przestrzenią stanów,
<math>\mathbf{p}</math> - rozkładem początkowym, zaś <math>\mathbf{P}</math> -  macierzą
<math>\displaystyle \mathbf{p}</math> -- rozkładem początkowym, zaś <math>\displaystyle \mathbf{P}</math> --  macierzą
przejścia łańcucha Markowa.
przejścia łańcucha Markowa.


W dalszej części zaprezentujemy kilka typowych przykładów łańcuchów
W dalszej części zaprezentujemy kilka typowych przykładów łańcuchów Markowa.
Markowa.


===Spacer losowy===
===Spacer losowy===


Chyba najbardziej klasycznym przykładem łańcucha Markowa jest spacer
Chyba najbardziej klasycznym przykładem łańcucha Markowa jest spacer losowy po prostej.
losowy po prostej.


{{przyklad|10.2|przy 10.2|
Wyobraźmy sobie cząsteczkę, która
Wyobraźmy sobie cząsteczkę, która
może się poruszać wzdłuż linii prostej według
może się poruszać wzdłuż linii prostej według
następujących reguł: w chwili zero cząsteczka znajduje
następujących reguł: w chwili zero cząsteczka znajduje
się w punkcie o współrzędnej zero, natomiast w
się w punkcie o współrzędnej zero, natomiast w
następnych momentach czasu (<math>\displaystyle 1</math>, <math>\displaystyle 2</math>, <math>\displaystyle 3</math> i tak dalej) może się
następnych momentach czasu (<math>1</math>, <math>2</math>, <math>3</math> i tak dalej) może się przesuwać o jeden w lewo lub o jeden w prawo,
przesuwać o jeden w lewo lub o jeden w prawo,
z&nbsp;prawdopodobieństwami odpowiednio <math>q</math> oraz <math>p</math>, przy
z&nbsp;prawdopodobieństwami odpowiednio <math>\displaystyle q</math> oraz <math>\displaystyle p</math>, przy
czym <math>p + q = 1</math>. Jeżeli <math>p = q = \frac{1}{2}</math> to
czym <math>\displaystyle p + q = 1</math>. Jeżeli <math>\displaystyle p = q = \frac{1}{2}</math> to
mówimy, że spacer losowy  jest standardowy. }}
mówimy, że spacer losowy  jest
 
standardowy.  


Oto przykładowa animacja, prezentująca standardowy spacer losowy o 300 krokach:
Oto przykładowa animacja, prezentująca standardowy spacer losowy o 300 krokach:
<div class="thumb" align="center"><flash>file=Rp101.swf|width=500|height=500</flash></div>


Okazuje się, że spacer losowy po prostej jest łańcuchem Markowa.
Okazuje się, że spacer losowy po prostej jest łańcuchem Markowa.
Rzeczywiście, stanami są wszystkie możliwe liczby
Rzeczywiście, stanami są wszystkie możliwe liczby
całkowite, czyli <math>\displaystyle E = {\Bbb Z} \subset {\Bbb R}</math>, natomiast <math>\displaystyle X_n</math> oznacza
całkowite, czyli <math>E = {\Bbb Z} \subset {\Bbb R}</math>, natomiast <math>X_n</math> oznacza
pozycję cząsteczki w chwili <math>\displaystyle n</math>. Zdefiniujmy:
pozycję cząsteczki w chwili <math>n</math>. Zdefiniujmy:


<center><math>\displaystyle \begin{array} {llc}
 
<center><math>\begin{array} {llc}
{\mathbf{p}}(i) = 1 & \mbox{ dla } & i = 0, \\
{\mathbf{p}}(i) = 1 & \mbox{ dla } & i = 0, \\
{\mathbf{p}}(i) = 0 & \mbox{ dla } & i \neq 0
{\mathbf{p}}(i) = 0 & \mbox{ dla } & i \neq 0
\end{array}  
\end{array}  
</math></center>
</math></center>


oraz
oraz


<center><math>\displaystyle \begin{array} {lll}
 
<center><math>\begin{array} {lll}
{\mathbf{P}}(i,j) = q & \mbox{ dla } & j = i-1, \\
{\mathbf{P}}(i,j) = q & \mbox{ dla } & j = i-1, \\
{\mathbf{P}}(i,j) = p & \mbox{ dla } & j = i+1, \\
{\mathbf{P}}(i,j) = p & \mbox{ dla } & j = i+1, \\
{\mathbf{P}}(i,j) = 0 & \mbox{ dla } & j\notin\{i-1,i+1\}.
{\mathbf{P}}(i,j) = 0 & \mbox{ dla } & j\notin\{i-1,i+1\}
\end{array}  
\end{array}  
</math></center>
</math></center>


Zauważmy, że określony powyżej spacer losowy może być
Zauważmy, że określony powyżej spacer losowy może być
modyfikowany na różne sposoby. Załóżmy, na przykład, że
modyfikowany na różne sposoby. Załóżmy, na przykład, że
cząsteczka może nie zmieniać swojego położenia z
cząsteczka może nie zmieniać swojego położenia z
prawdopodobieństwem <math>\displaystyle r</math> (wtedy oczywiście zakładamy, że
prawdopodobieństwem <math>r</math> (wtedy oczywiście zakładamy, że
<math>\displaystyle p + q + r = 1</math>). Inną modyfikacją jest założenie o
<math>p + q + r = 1</math>). Inną modyfikacją jest założenie o
istnieniu jednej lub dwóch barier (ekranów), które
istnieniu jednej lub dwóch barier (ekranów), które
ograniczają możliwość ruchu cząsteczki. Przykładowo, jeżeli są one usytuowane w
ograniczają możliwość ruchu cząsteczki. Przykładowo, jeżeli są one usytuowane w
punktach <math>\displaystyle A</math> i <math>\displaystyle B</math>, gdzie <math>\displaystyle A < 0 < B</math>, to zbiór <math>\displaystyle E</math>
punktach <math>A</math> i <math>B</math>, gdzie <math>A < 0 < B</math>, to zbiór <math>E</math>
składa się <math>\displaystyle A+B+1</math> stanów, zaś <math>\displaystyle (A+B+1)</math>-wymiarowa
składa się <math>A+B+1</math> stanów, zaś <math>(A+B+1)</math>-wymiarowa
macierz <math>\displaystyle {\mathbf{P}}</math> może być zdefiniowana w następujący sposób:
macierz <math>{\mathbf{P}}</math> może być zdefiniowana w następujący sposób:
 


<center><math>\displaystyle {\mathbf{P}} = \left[ \begin{array} {cccccc}
<center><math>{\mathbf{P}} = \left[ \begin{array} {cccccc}
sa & 1 - sa & 0 & 0 & \cdots & 0 \\
sa & 1 - sa & 0 & 0 & \cdots & 0 \\
q  & r      & p & 0      & \ddots    & \vdots \\
q  & r      & p & 0      & \ddots    & \vdots \\
Linia 137: Linia 159:
0 & \cdots & 0 & 0 & 1 - sb & sb
0 & \cdots & 0 & 0 & 1 - sb & sb
\end{array}  
\end{array}  
\right].
\right]
</math></center>
</math></center>


Liczby  <math>\displaystyle sa</math> oraz <math>\displaystyle sb</math> oznaczają prawdopodobieństwa
 
tego, że cząsteczka jest pochłaniana przez barierę <math>\displaystyle A</math>
Liczby  <math>sa</math> oraz <math>sb</math> oznaczają prawdopodobieństwa
lub <math>\displaystyle B</math>.  Dwa interesujące przypadki skrajne są wtedy,
tego, że cząsteczka jest pochłaniana przez barierę <math>A</math>
lub <math>B</math>.  Dwa interesujące przypadki skrajne są wtedy,
gdy liczby te są albo zerami, co oznacza pełną
gdy liczby te są albo zerami, co oznacza pełną
elastyczność barier, albo jedynkami, co oznacza
elastyczność barier, albo jedynkami, co oznacza
Linia 154: Linia 177:
</center>
</center>


Tutaj ekrany ustawiono w punktach <math>\displaystyle -3</math> i <math>\displaystyle 3</math>,
Tutaj ekrany ustawiono w punktach <math>-3</math> i <math>3</math>,
parametry wynoszą: <center><math>\displaystyle p = q = 0.5,\; r = 0, \;sa = sb = 0.8,</math></center> zaś wykonanych jest 30 kroków.
parametry wynoszą:  


W poniższej animacji także ustawiono bariery w punktach <math>\displaystyle -3</math> oraz <math>\displaystyle 3</math>, ale tym razem:
 
<center><math>\displaystyle p = 0.1, \;q = 0.15,\;r = 0.75,\;sa = sb = 0.4.</math></center>
<center><math>
p = q = 0.5,\; r = 0, \;sa = sb = 0.8
</math></center>
 
 
zaś wykonanych jest 30 kroków.
 
W poniższej animacji także ustawiono bariery w punktach <math>-3</math> oraz <math>3</math>, ale tym razem:
 
 
<center><math>p = 0.1, \;q = 0.15,\;r = 0.75,\;sa = sb = 0.4</math></center>
 
 
<div class="thumb" align="center"><flash>file=Rp102.swf|width=500|height=500</flash></div>


Kolejny przykład pokazuje, iż można też opisać spacer losowy w trochę inny sposób.
Kolejny przykład pokazuje, iż można też opisać spacer losowy w trochę inny sposób.


{{przyklad|10.3|przy 10.3|
Załóżmy, nieco ogólniej niż
Załóżmy, nieco ogólniej niż
poprzednio, że cząsteczka startuje w chwili 0 z
poprzednio, że cząsteczka startuje w chwili 0 z
punktu  <math>\displaystyle i</math>. Gdy nie uwzględniamy barier, mamy:
punktu  <math>i</math>. Gdy nie uwzględniamy barier, mamy:
<center><math>\displaystyle
 
 
<center><math>
X_0 = i \ \mbox{ oraz } \ \ X_{n+1} = X_n + \xi_{n+1}
X_0 = i \ \mbox{ oraz } \ \ X_{n+1} = X_n + \xi_{n+1}
\mbox{ dla } n = 0,1,2, \dots,
\mbox{ dla } n = 0,1,2, \dots
</math></center>
</math></center>
gdzie <math>\displaystyle \xi_1, \xi_2, \xi_3, \ldots</math>  są niezależnymi
 
zmiennymi losowymi, przyjmującymi wartości <math>\displaystyle -1</math>, <math>\displaystyle 0</math>,
 
<math>\displaystyle 1</math> z prawdopodobieństwami, odpowiednio, <math>\displaystyle q</math>, <math>\displaystyle r</math> i <math>\displaystyle p</math>.
gdzie <math>\xi_1, \xi_2, \xi_3, \ldots</math>  są niezależnymi
zmiennymi losowymi, przyjmującymi wartości <math>-1</math>, <math>0</math>,
<math>1</math> z prawdopodobieństwami, odpowiednio, <math>q</math>, <math>r</math> i <math>p</math>.}}


Można także rozpatrywać spacery losowe na płaszczyźnie, a także (ogólnie)
Można także rozpatrywać spacery losowe na płaszczyźnie, a także (ogólnie)
w&nbsp;przestrzeni wielowymiarowej.
w przestrzeni wielowymiarowej.


{{przyklad|10.4|przy 10.4|
Dla uproszczenia załóżmy, że
Dla uproszczenia załóżmy, że
<math>\displaystyle p
<math>p = q = \frac{1}{2}</math>, czyli także, że  <math>r = 0</math>. Dla <math>i = (i_1,\dots, i_d)\in
= q = \frac{1}{2}</math>, czyli także, że  <math>\displaystyle r = 0</math>. Dla <math>\displaystyle i = (i_1,\dots, i_d)\in
{\Bbb Z}^d</math> mamy:
{\Bbb Z}^d</math> mamy:
<center><math>\displaystyle
 
 
<center><math>
X_0 = i \ \mbox{ oraz } \ \ X_{n+1} = X_n + \xi_{n+1}
X_0 = i \ \mbox{ oraz } \ \ X_{n+1} = X_n + \xi_{n+1}
\mbox{ dla } n = 0,1,2, \dots
\mbox{ dla } n = 0,1,2, \dots
</math></center>
</math></center>
Tym razem <math>\displaystyle \xi_1, \xi_2, \xi_3, \ldots</math> są
 
 
Tym razem <math>\xi_1, \xi_2, \xi_3, \ldots</math> są
niezależnymi wektorami losowymi, przyjmującymi
niezależnymi wektorami losowymi, przyjmującymi
<math>\displaystyle 2^d</math> wartości  <math>\displaystyle (\varepsilon_1, \dots, \varepsilon_d)</math>,
<math>2^d</math> wartości  <math>(\varepsilon_1, \dots, \varepsilon_d)</math>,
gdzie <math>\displaystyle \varepsilon_j = \pm 1</math>, z jednakowym prawdopodobieństwem <math>\displaystyle \displaystyle
gdzie <math>\varepsilon_j = \pm 1</math>, z jednakowym prawdopodobieństwem <math>
\frac{1}{2^d}</math>.
\frac{1}{2^d}</math>.}}


Zauważmy, że współrzędnymi  zdefiniowanego w powyższym przykładzie <math>\displaystyle d</math>-wymiarowego spaceru losowego
Zauważmy, że współrzędnymi  zdefiniowanego w powyższym przykładzie <math>d</math>-wymiarowego spaceru losowego
są niezależne jednowymiarowe standardowe spacery losowe.  
są niezależne jednowymiarowe standardowe spacery losowe.  


Poniżej przedstawiamy dalsze przykłady łańcuchów Markowa.
Poniżej przedstawiamy dalsze przykłady łańcuchów Markowa.


{{przyklad|10.5|przy 10.5|
Załóżmy, że  dwaj gracze, powiedzmy
Załóżmy, że  dwaj gracze, powiedzmy
Antoni i Bolesław, mają kapitał, odpowiednio, <math>\displaystyle A</math> i <math>\displaystyle B</math>
Antoni i Bolesław, mają kapitał, odpowiednio, <math>A</math> i <math>B</math>
złotych. Powtarzają oni tę samą grę (może, na przykład, grają
złotych. Powtarzają oni tę samą grę (może, na przykład, grają
w&nbsp;szachy), przy czym przegrywający płaci wygrywającemu
w&nbsp;szachy), przy czym przegrywający płaci wygrywającemu
złotówkę. Gra kończy się wtedy, gdy jednemu z graczy
złotówkę. Gra kończy się wtedy, gdy jednemu z graczy
skończą się pieniądze. Załóżmy, że w każdej grze
skończą się pieniądze. Załóżmy, że w każdej grze
prawdopodobieństwo wygrania przez Antoniego wynosi <math>\displaystyle p</math>,
prawdopodobieństwo wygrania przez Antoniego wynosi <math>p</math>,
zaś prawdopodobieństwo wygrania przez Bolesława wynosi <math>\displaystyle q</math>.
zaś prawdopodobieństwo wygrania przez Bolesława wynosi <math>q</math>.
Zakładamy, że <math>\displaystyle p+q \le 1</math> i oznaczamy przez <math>\displaystyle r</math>
Zakładamy, że <math>p+q \le 1</math> i oznaczamy przez <math>r</math>
prawdopodobieństwo remisu, czyli <math>\displaystyle r = 1 - p - q</math>. Oznaczmy
prawdopodobieństwo remisu, czyli <math>r = 1 - p - q</math>. Oznaczmy
kapitał Antoniego po zakończeniu <math>\displaystyle n</math>-tej gry przez
kapitał Antoniego po zakończeniu <math>n</math>-tej gry przez
<math>\displaystyle X_n</math>. Zauważmy, że opisana sytuacja jest faktycznie
<math>X_n</math>. Zauważmy, że opisana sytuacja jest faktycznie
spacerem losowym, startującym w&nbsp;punkcie
spacerem losowym, startującym w punkcie
<math>\displaystyle A</math> i mającym bariery pochłaniające w&nbsp;punktach  <math>\displaystyle 0</math> oraz <math>\displaystyle A+B</math>.  
<math>A</math> i mającym bariery pochłaniające w punktach  <math>0</math> oraz <math>A+B</math>. }}


W każdej z dwóch urn umieszczono po <math>\displaystyle k</math>
{{przyklad|10.6|przy 10.6|
kul, przy czym <math>\displaystyle k</math> z nich ma kolor zielony, a pozostałe <math>\displaystyle k</math> --
W każdej z dwóch urn umieszczono po <math>k</math>
kul, przy czym <math>k</math> z nich ma kolor zielony, a pozostałe <math>k</math> -
kolor czerwony. Następnie w kolejnych momentach czasu
kolor czerwony. Następnie w kolejnych momentach czasu
zamieniamy miejscami jednocześnie wylosowane 2 kule (po jednej z obu urn). Niech <math>\displaystyle X_n</math> oznacza
zamieniamy miejscami jednocześnie wylosowane 2 kule (po jednej z obu urn). Niech <math>X_n</math> oznacza
liczbę zielonych  kul w pierwszej urnie (więc tym samym
liczbę zielonych  kul w pierwszej urnie (więc tym samym
liczbę czerwonych kul w drugiej urnie) w chwili <math>\displaystyle n</math>.
liczbę czerwonych kul w drugiej urnie) w chwili <math>n</math>.
Widzimy, że zmienne  <math>\displaystyle X_n</math> tworzą łańcuch Markowa z
Widzimy, że zmienne  <math>X_n</math> tworzą łańcuch Markowa z
macierzą przejścia  <math>\displaystyle {\mathbf{P}}</math> mającą zerowe wyrazy
macierzą przejścia  <math>{\mathbf{P}}</math> mającą zerowe wyrazy
oprócz:
oprócz:
<center><math>\displaystyle
 
{\mathbf{P}}(i,i-1)= \left(\frac{i}{k}\right)^2, \ \  \ \
 
{\mathbf{P}}(i,i+1) = \left(\frac{k - i}{k}\right)^2, \ \ \ \
<center><math>
{\mathbf{P}}(i,i) = \frac{2(k-i)i}{k^2}.
{\mathbf{P}}(i,i-1)= \left(\frac{i}{k}\right)^2, \ \  \  
</math></center>
{\mathbf{P}}(i,i+1) = \left(\frac{k - i}{k}\right)^2, \ \ \  
{\mathbf{P}}(i,i) = \frac{2(k-i)i}{k^2}
</math></center> }}
 


Badanie własności łańcuchów Markowa zaczniemy od
Badanie własności łańcuchów Markowa zaczniemy od
wyznaczenia rozkładów wektorów losowych <math>\displaystyle X_n</math>, co sprowadza się do wyznaczenia,
wyznaczenia rozkładów wektorów losowych <math>X_n</math>, co sprowadza się do wyznaczenia,
dla wszystkich <math>\displaystyle n \ge 1</math>, funkcji (wektorów)
dla wszystkich <math>n \ge 1</math>, funkcji (wektorów)
<math>\displaystyle {\mathbf{p}}_n\colon E\longrightarrow {\Bbb R}</math> takich, że:
<math>{\mathbf{p}}_n\colon E\longrightarrow {\Bbb R}</math> takich, że:
<center><math>\displaystyle
 
{\mathbf{p}}_n(j) = P(X_n = j) \;\;\textrm{ dla } j \in E.
 
<center><math>
{\mathbf{p}}_n(j) = P(X_n = j) \;\;\text{ dla } j \in E
</math></center>
</math></center>
Stosując wzór
 
na prawdopodobieństwo całkowite, mamy:
 
<center><math>\displaystyle
Stosując wzór na prawdopodobieństwo całkowite, mamy:
 
 
<center><math>
{\mathbf{p}}_n(j) = P(X_n = j) = \sum_{i \in E}P(X_n = j|X_{n-1}
{\mathbf{p}}_n(j) = P(X_n = j) = \sum_{i \in E}P(X_n = j|X_{n-1}
= i)P(X_{n-1} = i)</math></center>
= i)P(X_{n-1} = i)</math></center>
<center><math>\displaystyle
 
= \sum_{i \in E}{\mathbf{P}}(i,j){\mathbf{p}_{n-1}}(i),
 
<center><math>
= \sum_{i \in E}{\mathbf{P}}(i,j){\mathbf{p}_{n-1}}(i)
</math></center>
</math></center>
czyli:
czyli:


<center><math>\displaystyle
 
{\mathbf{p}}_n = {\mathbf{P}}^T{\mathbf{p}}_{n-1},
{{wzor|10.1|10.1|
<math>
{\mathbf{p}}_n = {\mathbf{P}}^T{\mathbf{p}}_{n-1}
</math>}}
 
 
gdzie <math>{\mathbf{P}}^T</math> oznacza macierz transponowaną (patrz wykład z [[Algebra liniowa z geometrią analityczną|Algebry liniowej z geometrią analityczną]]) do macierzy <math>{\mathbf{P}}</math>.
Oznaczając <math>n</math>-tą potęgę macierzy <math>{\mathbf{P}}</math> przez
<math>{\mathbf{P}}^n</math>, otrzymujemy wreszcie poszukiwany rozkład:
 
 
<center><math>
{\mathbf{p}}_n = \left({\mathbf{P}}^T\right)^n{\mathbf{p}}_0
</math></center>
</math></center>


gdzie <math>\displaystyle {\mathbf{P}}^T</math> oznacza macierz transponowaną [[AG]] do macierzy <math>\displaystyle {\mathbf{P}}</math>.
 
Oznaczając <math>\displaystyle n</math>-tą potęgę macierzy <math>\displaystyle {\mathbf{P}}</math> przez
W szczególności, jeżeli wiemy, że <math>X_0 = i</math>, czyli że
<math>\displaystyle {\mathbf{P}}^n</math>, otrzymujemy wreszcie poszukiwany rozkład:
łańcuch w chwili 0 znajduje się w stanie <math>i</math> z prawdopodobieństwem 1, powyższy wzór implikuje następującą własność:
<center><math>\displaystyle
 
{\mathbf{p}}_n = \left({\mathbf{P}}^T\right)^n{\mathbf{p}}_0.
 
<center><math>
{\mathbf{p}}_n(j) = {\mathbf{P}}^n(i,j) \mbox{ dla wszystkich } n
</math></center>
</math></center>
W szczególności, jeżeli wiemy, że <math>\displaystyle X_0 = i</math>, czyli że
 
łańcuch w chwili 0 znajduje się w stanie <math>\displaystyle i</math> z prawdopodobieństwem
 
1, powyższy wzór implikuje następującą własność:
co nieco wyjaśnia znaczenie wyrazów <math>{\mathbf{P}}^n(i,j)</math> macierzy <math>\mathbf{P}^n</math>.
<center><math>\displaystyle
 
{\mathbf{p}}_n(j) = {\mathbf{P}}^n(i,j) \mbox{ dla wszystkich } n,
Niech teraz <math>A</math> oznacza zbiór opisany przez wektory losowe
<math>X_0, \dots X_{n-1}</math>, co oznacza, że <math>A</math> ma postać:
 
 
<center><math>
A = \bigcup \{X_0 = i_0, \dots,X_{n-1} = i_{n-1} \}
</math></center>
</math></center>
co nieco wyjaśnia znaczenie wyrazów <math>\displaystyle {\mathbf{P}}^n(i,j)</math> macierzy <math>\displaystyle \mathbf{P}^n</math>.


Niech teraz <math>\displaystyle A</math> oznacza zbiór opisany przez wektory losowe
 
<math>\displaystyle X_0, \dots X_{n-1}</math>, co oznacza, że <math>\displaystyle A</math> ma postać:
<center><math>\displaystyle
A = \bigcup \{X_0 = i_0, \dots,X_{n-1} = i_{n-1} \},
</math></center>
gdzie suma jest brana po pewnym zbiorze
gdzie suma jest brana po pewnym zbiorze
indeksów <math>\displaystyle i_0, \dots, i_{n-1}</math> -- zbiór tych indeksów oznaczmy przez <math>\displaystyle B</math>. Wówczas:
indeksów <math>i_0, \dots, i_{n-1}</math> - zbiór tych indeksów oznaczmy przez <math>B</math>. Wówczas:
 
 
{{wzor|10.2|10.2|
<math>
P(X_{n+1} = j|(X_{n} = i \mbox{ oraz } A)) = {\mathbf{P}}(i,j)
</math>}}


<center><math>\displaystyle
P(X_{n+1} = j|(X_{n} = i \mbox{ oraz } A)) = {\mathbf{P}}(i,j).
</math></center>


Aby udowodnić powyższą równość zauważmy, że:
Aby udowodnić powyższą równość zauważmy, że:
<center><math>\displaystyle
 
 
<center><math>
P(X_{n+1} = j|(X_{n} = i \mbox{ oraz } A)) =
P(X_{n+1} = j|(X_{n} = i \mbox{ oraz } A)) =
\frac{P(X_{n+1} = j,X_{n} = i, A)}{P(X_{n} = i, A)}
\frac{P(X_{n+1} = j,X_{n} = i, A)}{P(X_{n} = i, A)}
</math></center>
</math></center>
<center><math>\displaystyle  =
 
 
<center><math>=
\frac{\sum P(X_{n+1} = j,X_{n} = i, X_{n-1} = i_{n-1},
\frac{\sum P(X_{n+1} = j,X_{n} = i, X_{n-1} = i_{n-1},
\dots, X_0 = i_0) }{\sum P(X_{n} = i, X_{n-1} = i_{n-1},
\dots, X_0 = i_0) }{\sum P(X_{n} = i, X_{n-1} = i_{n-1}
\dots, X_0 = i_0)},
\dots, X_0 = i_0)}</math>,</center>
</math></center>
 
gdzie obie sumy brane są po zbiorze <math>\displaystyle B</math>. Z własności 2
 
w definicji łańcucha Markowa (definicja [[##dlm|Uzupelnic dlm|]]) otrzymujemy:
gdzie obie sumy brane są po zbiorze <math>B</math>. Z własności 2
<center><math>\displaystyle P(X_{n+1} = j,X_{n} = i, X_{n-1}=i_{n-1},
w definicji łańcucha Markowa ([[#def_10.1|definicja 10.1]]) otrzymujemy:
 
 
<center><math>
P(X_{n+1} = j,X_{n} = i, X_{n-1}=i_{n-1},
\dots, X_0 = i_0)
\dots, X_0 = i_0)
</math></center>
</math></center>
<center><math>\displaystyle
 
 
<center><math>
=P(X_{n+1} = j|(X_{n} = i, X_{n-1} = i_{n-1},
=P(X_{n+1} = j|(X_{n} = i, X_{n-1} = i_{n-1},
\dots, X_0 = i_0))
\dots, X_0 = i_0))
</math></center>
</math></center>
<center><math>\displaystyle
 
 
<center><math>
\cdot
\cdot
P(X_{n} = i, X_{n-1} = i_{n-1},
P(X_{n} = i, X_{n-1} = i_{n-1},
\dots, X_0 = i_0)
\dots, X_0 = i_0)
</math></center>
</math></center>
<center><math>\displaystyle
 
 
<center><math>
= P(X_{n+1} = j|X_{n} = i) P(X_{n} = i, X_{n-1} =
= P(X_{n+1} = j|X_{n} = i) P(X_{n} = i, X_{n-1} =
i_{n-1}, \dots, X_0 = i_0)
i_{n-1}, \dots, X_0 = i_0)
</math></center>
</math></center>
<center><math>\displaystyle
 
 
<center><math>
= {\mathbf{P}}(i,j)P(X_{n} = i, X_{n-1} = i_{n-1}, \dots, X_0 =
= {\mathbf{P}}(i,j)P(X_{n} = i, X_{n-1} = i_{n-1}, \dots, X_0 =
i_0),
i_0)
</math></center>
</math></center>
co daje wzór ([[##eq:markov1|Uzupelnic eq:markov1|]]).
 
 
co daje wzór [[#10.2|10.2]].


Kolejne twierdzenie prezentuje inną (bardziej ogólną)
Kolejne twierdzenie prezentuje inną (bardziej ogólną)
interpretację wyrazów <math>\displaystyle {\mathbf{P}}^n(i,j)</math> macierzy
interpretację wyrazów <math>{\mathbf{P}}^n(i,j)</math> macierzy
<math>\displaystyle {\mathbf{P}}^n</math>, jako prawdopodobieństw przejścia w  <math>\displaystyle n</math>
<math>{\mathbf{P}}^n</math>, jako prawdopodobieństw przejścia w  <math>n</math>
krokach ze stanu <math>\displaystyle i</math> do stanu <math>\displaystyle j</math>.
krokach ze stanu <math>i</math> do stanu <math>j</math>.


{{twierdzenie|||
{{twierdzenie|10.7.|tw 10.7|
Dla każdego <math>n \ge 1</math> oraz <math>i, j \in E</math> mamy:}}


Dla każdego <math>\displaystyle n \ge 1</math> oraz <math>\displaystyle i, j \in E</math> mamy:


<center><math>\displaystyle
{{wzor|10.3|10.3|
P(X_{k+n} = j|X_k = i) = {\mathbf{P}}^n(i,j).
<math>
</math></center>
P(X_{k+n} = j|X_k = i) = {\mathbf{P}}^n(i,j)
</math>}}


}}


'''Dowód. '''Dla <math>\displaystyle n = 1</math> formuła ([[##eq:markov2|Uzupelnic eq:markov2|]])
{{dowod|.||
jest konsekwencją własności 2 w&nbsp;definicji [[##dlm|Uzupelnic dlm|]].
Dla <math>n = 1</math> ([[#10.3|formuła 10.3]])
jest konsekwencją własności 2 w&nbsp;definicji [[#def_10.1|definicji 10.1]].
Dla przeprowadzenia kroku
Dla przeprowadzenia kroku
indukcyjnego załóżmy, że wzór ([[##eq:markov2|Uzupelnic eq:markov2|]]) zachodzi dla
indukcyjnego załóżmy, że wzór [[#10.3|10.3]] zachodzi dla
pewnego  <math>\displaystyle n</math>.  Mamy wówczas:
pewnego  <math>n</math>.  Mamy wówczas:
<center><math>\displaystyle
 
 
<center><math>
P(X_{k+(n+1)} = j|X_k = i) = \frac{P(X_{k+n+1} = j,X_k =
P(X_{k+(n+1)} = j|X_k = i) = \frac{P(X_{k+n+1} = j,X_k =
i)}{P(X_k = i)}
i)}{P(X_k = i)}
</math></center>
</math></center>
<center><math>\displaystyle
 
 
<center><math>
= \frac{\sum_{l \in E}P(X_{k+n+1} = j,X_{k+n} = l,X_k =
= \frac{\sum_{l \in E}P(X_{k+n+1} = j,X_{k+n} = l,X_k =
i)}{P(X_k = i)}
i)}{P(X_k = i)}
</math></center>
</math></center>
<center><math>\displaystyle
 
 
<center><math>
= \frac{\sum_{l \in E}P(X_{k+n+1} = j|X_{k+n} = l,X_k =
= \frac{\sum_{l \in E}P(X_{k+n+1} = j|X_{k+n} = l,X_k =
i) P(X_{k+n} = l,X_k = i)}{P(X_k = i)}.
i) P(X_{k+n} = l,X_k = i)}{P(X_k = i)}
</math></center>
</math></center>
Korzystając ze wzoru ([[##eq:markov1|Uzupelnic eq:markov1|]]) oraz z założenia indukcyjnego dostajemy:
 
<center><math>\displaystyle
 
Korzystając ze wzoru [[#10.2|10.2]] oraz z założenia indukcyjnego dostajemy:
 
 
<center><math>
P(X_{k+(n+1)} = j|X_k = i)
P(X_{k+(n+1)} = j|X_k = i)
</math></center>
</math></center>
<center><math>\displaystyle
 
 
<center><math>
= \frac{\sum_{l \in
= \frac{\sum_{l \in
E}{\mathbf{P}}(l,j) P(X_{k+n} = l|X_k =
E}{\mathbf{P}}(l,j) P(X_{k+n} = l|X_k =
i)P(X_k = i)}{P(X_k = i)}
i)P(X_k = i)}{P(X_k = i)}
</math></center>
</math></center>
<center><math>\displaystyle
 
=\sum_{l \in E}{\mathbf{P}}^n(i,l){\mathbf{P}}(l,j) = {\mathbf{P}}^{n+1}(i,j),
 
<center><math>
=\sum_{l \in E}{\mathbf{P}}^n(i,l){\mathbf{P}}(l,j) = {\mathbf{P}}^{n+1}(i,j)
</math></center>
</math></center>
a więc dowiedliśmy wzór ([[##eq:markov2|Uzupelnic eq:markov2|]]) dla <math>\displaystyle n+1</math>, co kończy dowód. {<math>\displaystyle \Box</math>}
 
 
a więc dowiedliśmy wzór [[#10.3|10.3]] dla <math>n+1</math>, co kończy dowód.
}}


==Nieredukowalne łańcuchy Markowa==
==Nieredukowalne łańcuchy Markowa==
Linia 357: Linia 468:
łańcuchami Markowa, których każde dwa stany mogą się
łańcuchami Markowa, których każde dwa stany mogą się
komunikować. Mówiąc dokładniej, będziemy zakładać, że dla
komunikować. Mówiąc dokładniej, będziemy zakładać, że dla
każdych dwóch stanów <math>\displaystyle i</math> oraz <math>\displaystyle j</math> prawdopodobieństwo
każdych dwóch stanów <math>i</math> oraz <math>j</math> prawdopodobieństwo
przejścia <math>\displaystyle P^k(i,j)</math> jest dodatnie dla pewnego  <math>\displaystyle k =
przejścia <math>P^k(i,j)</math> jest dodatnie dla pewnego  <math>k =
k(i,j)</math>. Łańcuch Markowa o tej własności nazywa się
k(i,j)</math>. Łańcuch Markowa o tej własności nazywa się
łańcuchem nieredukowalnym. Większość spotykanych w zastosowaniach
łańcuchem nieredukowalnym. Większość spotykanych w zastosowaniach
łańcuchów Markowa jest nieredukowalna,
łańcuchów Markowa jest nieredukowalna,
jakkolwiek łatwo pokazać przykłady łańcuchów, które nie
jakkolwiek łatwo pokazać przykłady łańcuchów, które nie
spełniają tego warunku -- na przykład spacer losowy z ekranami
spełniają tego warunku - na przykład spacer losowy z ekranami
pochłaniającymi nie jest nieredukowalny, gdyż
pochłaniającymi nie jest nieredukowalny, gdyż
prawdopodobieństwo przejścia z jednego do drugiego
prawdopodobieństwo przejścia z jednego do drugiego
Linia 370: Linia 481:
===Powracanie i okresowość===
===Powracanie i okresowość===


Dla nieredukowalnego łańcucha Markowa,  przez <math>\displaystyle f_n(i)</math> oznaczmy
Dla nieredukowalnego łańcucha Markowa,  przez <math>f_n(i)</math> oznaczmy
prawdopodobieństwo pierwszego powrotu do stanu <math>\displaystyle i</math> w dokładnie  <math>\displaystyle n</math>
prawdopodobieństwo pierwszego powrotu do stanu <math>i</math> w dokładnie  <math>n</math>
krokach, czyli:
krokach, czyli:
<center><math>\displaystyle
 
 
<center><math>
f_n(i) = P(X_n = i,X_{n-1} \neq i, \dots, X_1 \neq i|X_0
f_n(i) = P(X_n = i,X_{n-1} \neq i, \dots, X_1 \neq i|X_0
= i).
= i)</math></center>
</math></center>
 
Określmy <math>\displaystyle F(i)</math> jako:
 
<center><math>\displaystyle
Określmy <math>F(i)</math> jako:
 
 
<center><math>
F(i) = \sum_{n=1}^\infty f_n(i)
F(i) = \sum_{n=1}^\infty f_n(i)
</math></center>
</math></center>
-- jest to prawdopodobieństwo pierwszego powrotu do
stanu <math>\displaystyle i</math> w czasie skończonym.


Oczywiście, <math>\displaystyle F(i)\leq 1</math>. Będziemy mówić, że stan <math>\displaystyle i</math> jest powracający,
 
jeżeli <math>\displaystyle F(i) = 1</math>, zaś niepowracający -- jeżeli <math>\displaystyle F(i) < 1</math>.
- jest to prawdopodobieństwo pierwszego powrotu do
stanu <math>i</math> w czasie skończonym.
 
Oczywiście, <math>F(i)\leq 1</math>. Będziemy mówić, że stan <math>i</math> jest powracający,
jeżeli <math>F(i) = 1</math>, zaś niepowracający - jeżeli <math>F(i) < 1</math>.
Można udowodnić, że albo wszystkie stany są
Można udowodnić, że albo wszystkie stany są
powracające, albo wszystkie stany są niepowracające. W
powracające, albo wszystkie stany są niepowracające. W
związku z tym mówimy, że (nieredukowalny) łańcuch Markowa
związku z tym mówimy, że (nieredukowalny) łańcuch Markowa
jest, odpowiednio,
jest, odpowiednio,powracający  albo niepowracający.
powracający  albo
niepowracający.


Następujące twierdzenie, które podajemy bez dowodu,
Następujące twierdzenie, które podajemy bez dowodu,
pozwala w wielu przypadkach stwierdzić, czy łańcuch
pozwala w wielu przypadkach stwierdzić, czy łańcuch
Markowa jest powracający, czy niepowracający. Oznaczmy:
Markowa jest powracający, czy niepowracający. Oznaczmy:
<center><math>\displaystyle
\mathbf{P}(i) = \sum_{n = 1}^\infty{\mathbf{P}}^n(i,i).
</math></center>


{{twierdzenie|||


Niech <math>\displaystyle i \in E</math> będzie ustalonym stanem
<center><math>
\mathbf{P}(i) = \sum_{n = 1}^\infty{\mathbf{P}}^n(i,i)</math></center>
 
 
{{twierdzenie|10.8|tw 10.8|
Niech <math>i \in E</math> będzie ustalonym stanem
nieredukowalnego łańcucha Markowa. Wtedy:
nieredukowalnego łańcucha Markowa. Wtedy:
[#]
stan <math>\displaystyle i</math> jest powracający wtedy i tylko wtedy,
gdy: <center><math>\displaystyle \mathbf{P}(i) = \infty,</math></center>


jeżeli <math>\displaystyle i</math> jest stanem niepowracającym, to:  <center><math>\displaystyle F(i) =
1. stan <math>i</math> jest powracający wtedy i tylko wtedy,gdy:
\frac{\mathbf{P}(i)}{1+\mathbf{P}(i)}.</math></center>
 
 
<center><math>
\mathbf{P}(i) = \infty</math>,</center>
 
 
2. jeżeli <math>i</math> jest stanem niepowracającym, to:   
 
 
<center><math>
F(i) = \frac{\mathbf{P}(i)}{1+\mathbf{P}(i)}</math></center>
 
 
}}
}}


Liczby <math>\displaystyle \mathbf{P}(i)</math> mają także nieco inną interpretację, którą prezentuje
Liczby <math>\mathbf{P}(i)</math> mają także nieco inną interpretację, którą prezentuje
poniższe twierdzenie.
poniższe twierdzenie.
Oznaczmy przez  <math>\displaystyle r_i</math> liczbę wszystkich powrotów do
Oznaczmy przez  <math>r_i</math> liczbę wszystkich powrotów do
stanu <math>\displaystyle i</math>.
stanu <math>i</math>.


{{twierdzenie|||
{{twierdzenie|10.9|tw 10.9|
Dla każdego <math>i \in E</math>:
 
 
<center><math>
{\Bbb E}\left(r_i\right) = \mathbf{P}(i)</math></center>
 
 
}}
 
{{dowod|.||
Załóżmy, że w chwili <math>0</math> system znajdował
się w stanie <math>i</math>. W takim razie:
 
 
<center><math>
{\mathbf{p}}(i) = 1 \text{ oraz }
{\mathbf{p}}(j) = 0\;\;\text{dla } j \neq i</math></center>
 
 
Mamy więc:
 
 
<center><math>
P(X_n = i) = P(X_n = i|X_0 = i) = {\mathbf{P}}^n(i,i)</math></center>
 
 
Wiemy, że (patrz [[Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 7: Parametry rozkładów zmiennych losowych#cw_7_15|zadanie 7.15]]):
 
 
<center><math>
{\Bbb E}(I_{\{X_n = i\}})=P(X_n = i)</math>,</center>


Dla każdego <math>\displaystyle i \in E</math>: <center><math>\displaystyle {\Bbb E}\left(r_i\right) =
\mathbf{P}(i).</math></center> }}


'''Dowód.''' Załóżmy, że w chwili <math>\displaystyle 0</math> system znajdował
się w stanie <math>\displaystyle i</math>. W&nbsp;takim razie: <center><math>\displaystyle {\mathbf{p}}(i) = 1 \textrm{ oraz }
{\mathbf{p}}(j) = 0\;\;\textrm{dla } j \neq i.</math></center> Mamy więc:
<center><math>\displaystyle
P(X_n = i) = P(X_n = i|X_0 = i) = {\mathbf{P}}^n(i,i).
</math></center>
Wiemy, że (patrz zadanie [[##zfch|Uzupelnic zfch|]]):
<center><math>\displaystyle {\Bbb E}(I_{\{X_n = i\}})=P(X_n = i),</math></center>
zatem:
zatem:
<center><math>\displaystyle
 
 
<center><math>
{\Bbb E}(r_i) = {\Bbb E}(\sum_{n=1}^\infty I_{\{X_n = i\}})
{\Bbb E}(r_i) = {\Bbb E}(\sum_{n=1}^\infty I_{\{X_n = i\}})
=\sum_{n=1}^\infty P(X_n=i)=\sum_{n=1}^\infty {\mathbf{P}}^n(i,i)={\mathbf{P}}(i).</math></center>
=\sum_{n=1}^\infty P(X_n=i)=\sum_{n=1}^\infty {\mathbf{P}}^n(i,i)={\mathbf{P}}(i)</math></center>}}
{<math>\displaystyle \Box</math>}
 
 
{{przyklad|10.10|przy_10.10|
Rozważmy jednowymiarowy spacer losowy bez barier z prawdopodobieństwami <math>p = q =
\frac{1}{2}</math> (patrz [[#przy_10.2|przykład 10.2]]).
Wyraźnie widać, że jest to nieredukowalny łańcuch Markowa oraz że:
 
 
<center><math>
\mathbf{P}^n(i,i) =
{\mathbf{P}}^n(0,0) \;\; \text{dla każdego } i \in {\Bbb Z}</math></center>
 


Rozważmy jednowymiarowy spacer losowy bez barier z prawdopodobieństwami <math>\displaystyle p = q =
\frac{1}{2}</math> (patrz przykład [[##markov1|Uzupelnic markov1|]]).
Wyraźnie widać, że jest to nieredukowalny łańcuch
Markowa oraz że:
<center><math>\displaystyle \mathbf{P}^n(i,i) =
{\mathbf{P}}^n(0,0) \;\; \textrm{dla każdego } i \in {\Bbb Z}.</math></center>
Można też łatwo się przekonać (ćwiczenie), że:
Można też łatwo się przekonać (ćwiczenie), że:
<center><math>\displaystyle
 
{\mathbf{P}}^n(0,0) = \left\{\begin{array} {rl} 0, & \mbox{ gdy
 
}
<center><math>
n = 2k - 1\\[2mm]
{\mathbf{P}}^n(0,0) = \left\{\begin{array} {rl} 0, & \mbox{ gdy }n = 2k - 1\\
\frac{\left(\begin{array} {@{}c@{}}2k\\k\end{array} \right)}{\displaystyle 2^{2k}}, & \mbox{ gdy }  n = 2k.
[2mm]\frac{\dbinom{2k}{k}}{2^{2k}}, & \mbox{ gdy }  n = 2k.
\end{array}  \right.
\end{array}  \right.</math></center>
</math></center>
 


Teraz:
Teraz:
<center><math>\displaystyle
 
{\mathbf{P}}(i) = \sum_{n=1}^\infty{\mathbf{P}}^n(i,i)=\sum_{n=1}^\infty{\mathbf{P}}^n(0,0) = \sum_{k=1}^\infty \frac{\left(\begin{array} {@{}c@{}}2k\\k\end{array} \right)}{\displaystyle 2^{2k}}.
 
</math></center>
<center><math>
{\mathbf{P}}(i) = \sum_{n=1}^\infty{\mathbf{P}}^n(i,i)=\sum_{n=1}^\infty{\mathbf{P}}^n(0,0) = \sum_{k=1}^\infty \frac{\dbinom{2k}{k}}{2^{2k}}</math></center>
 
 
Tę ostatnią sumę można obliczyć analitycznie, co jest zadaniem dość trudnym. Jednakże, korzystając z programu Maple
Tę ostatnią sumę można obliczyć analitycznie, co jest zadaniem dość trudnym. Jednakże, korzystając z programu Maple
wynik uzyskujemy bardzo szybko:
wynik uzyskujemy bardzo szybko:


{active}{1d}{sum(binomial(2*k,k)/4^k,k<nowiki>=</nowiki>1..infinity);}{}
  ''> sum(binomial(2*k,k)/4^k,k<nowiki>=</nowiki>1..infinity);''
 


<center><math>\displaystyle \infty
<center><math>\infty
</math></center>
</math></center>


Tak więc okazało się, iż jednowymiarowy standardowy spacer losowy jest
powracający.


Można też pokazać, że
Tak więc okazało się, iż jednowymiarowy standardowy spacer losowy jest powracający.}}
dwuwymiarowy standardowy spacer
 
losowy (patrz przykład [[##markov3|Uzupelnic markov3|]]) jest powracający, natomiast
Można też pokazać, że dwuwymiarowy standardowy spacer
spacer losowy w przestrzeni o wymiarze co najmniej trzy nie jest powracający -- wrócimy do tego problemu w ćwiczeniu
losowy (patrz [[#przy_10.4|przykład 10.4]]) jest powracający, natomiast
[[##cwsl|Uzupelnic cwsl|]].
spacer losowy w przestrzeni o wymiarze co najmniej trzy nie jest powracający - wrócimy do tego problemu w ćwiczeniu
[[#cw_10.2|ćwiczeniu 10.2]].


Rozważmy nieredukowalny łańcuch Markowa i ustalmy
Rozważmy nieredukowalny łańcuch Markowa i ustalmy
pewien jego stan <math>\displaystyle i \in E</math>. Ponieważ <math>\displaystyle i</math> komunikuje się
pewien jego stan <math>i \in E</math>. Ponieważ <math>i</math> komunikuje się
z samym sobą, zatem istnieje liczba <math>\displaystyle n \ge 1</math> taka, że <math>\displaystyle {\mathbf{P}}^n(i,i)
z samym sobą, zatem istnieje liczba <math>n \ge 1</math> taka, że <math>{\mathbf{P}}^n(i,i)
> 0</math> -- niech <math>\displaystyle N_i</math> oznacza zbiór wszystkich takich liczb <math>\displaystyle n</math>.
> 0</math> - niech <math>N_i</math> oznacza zbiór wszystkich takich liczb <math>n</math>.
Zauważmy, że:
Zauważmy, że:
<center><math>\displaystyle m,n \in N_i\Longrightarrow m + n \in N_i.</math></center> Wynika to z następującej
 
(ogólniejszej) obserwacji: dla wszystkich stanów <math>\displaystyle i</math>, <math>\displaystyle j</math>
 
oraz <math>\displaystyle k</math>:
<center><math>
<center><math>\displaystyle
m,n \in N_i\Longrightarrow m + n \in N_i</math></center>  
 
 
Wynika to z następującej (ogólniejszej) obserwacji: dla wszystkich stanów <math>i</math>, <math>j</math> oraz <math>k</math>:
 
 
<center><math>
{\mathbf{P}}^{m+n}(i,j) = \sum_{l\in E}{\mathbf{P}}^m(i,l){\mathbf{P}}^n(l,j) \ge
{\mathbf{P}}^{m+n}(i,j) = \sum_{l\in E}{\mathbf{P}}^m(i,l){\mathbf{P}}^n(l,j) \ge
{\mathbf{P}}^m(i,k){\mathbf{P}}^n(k,j),
{\mathbf{P}}^m(i,k){\mathbf{P}}^n(k,j)</math>,</center>
</math></center>
 
a więc, w szczególności: <center><math>\displaystyle {\mathbf{P}}^{m+n}(i,i)  \ge {\mathbf{P}}^m(i,i){\mathbf{P}}^n(i,i)
 
>0.</math></center>
a więc, w szczególności:  
 
 
<center><math>
{\mathbf{P}}^{m+n}(i,i)  \ge {\mathbf{P}}^m(i,i){\mathbf{P}}^n(i,i)>0</math></center>
 


Mówimy, że stan <math>\displaystyle i</math> jest okresowy o okresie <math>\displaystyle \nu > 1</math>, jeżeli <math>\displaystyle \nu</math> jest największym wspólnym
Mówimy, że stan <math>i</math> jest okresowy o okresie <math>\nu > 1</math>, jeżeli <math>\nu</math> jest największym wspólnym
podzielnikiem liczb ze zbioru <math>\displaystyle N_i</math>. Można udowodnić,
podzielnikiem liczb ze zbioru <math>N_i</math>. Można udowodnić,
że w nieredukowalnym łańcuchu Markowa zachodzi dokładnie jeden z następujących warunków:
że w nieredukowalnym łańcuchu Markowa zachodzi dokładnie jeden z następujących warunków:
[#]
wszystkie stany są okresowe i mają wspólny okres,


żaden ze stanów nie jest okresowy.
1. wszystkie stany są okresowe i mają wspólny okres,
 
2. żaden ze stanów nie jest okresowy.
 
W pierwszym z powyższych przypadków
W pierwszym z powyższych przypadków
mówimy, że łańcuch Markowa jest okresowy, a jego okresem jest (wspólny) okres każdego z jego
mówimy, że łańcuch Markowa jest okresowy, a jego okresem jest (wspólny) okres każdego z jego
stanów.
stanów.


Spacer losowy opisany w przykładzie [[##markov1|Uzupelnic markov1|]] jest
Spacer losowy opisany w [[#przy_10.2|przykładzie 10.2]] jest
okresowy o okresie 2, natomiast jego nie posiadająca ekranów modyfikacja,
okresowy o okresie 2, natomiast jego nie posiadająca ekranów modyfikacja,
dla której <math>\displaystyle p + q < 1</math>, nie
dla której <math>p + q < 1</math>, nie
jest okresowa. Pamiętajmy jednak, iż sam warunek <math>\displaystyle p + q = 1</math>
jest okresowa. Pamiętajmy jednak, iż sam warunek <math>p + q = 1</math>
nie gwarantuje jeszcze okresowości (jeżeli istnieją ekrany pochłaniające, to łańcuch nie jest nieredukowalny).
nie gwarantuje jeszcze okresowości (jeżeli istnieją ekrany pochłaniające, to łańcuch nie jest nieredukowalny).


Linia 509: Linia 678:
zachowuje się łańcuch Markowa po upływie długiego
zachowuje się łańcuch Markowa po upływie długiego
czasu. W szczególności, warto się pytać o asymptotyczny
czasu. W szczególności, warto się pytać o asymptotyczny
rozkład prawdopodobieństwa wektorów <math>\displaystyle X_n</math>, o ile
rozkład prawdopodobieństwa wektorów <math>X_n</math>, o ile
oczywiście taki rozkład istnieje. Poniżej
oczywiście taki rozkład istnieje. Poniżej
prezentujemy tak zwane twierdzenie ergodyczne, które opisuje właśnie taką
prezentujemy tak zwane twierdzenie ergodyczne, które opisuje właśnie taką
sytuację.
sytuację.


{{twierdzenie|||
{{twierdzenie|10.11|tw_10.11|
 
Rozważamy nieredukowalny łańcuch Markowa o
Rozważamy nieredukowalny łańcuch Markowa o
skończonej liczbie stanów <math>\displaystyle k</math> (to znaczy <math>\displaystyle \#E=k</math>) i macierzy
skończonej liczbie stanów <math>k</math> (to znaczy <math>\#E=k</math>) i macierzy
przejścia <math>\displaystyle {\mathbf{P}}</math>.  Wówczas zachodzi dokładnie jeden
przejścia <math>{\mathbf{P}}</math>.  Wówczas zachodzi dokładnie jeden
z następujących warunków:
z następujących warunków:


łańcuch jest okresowy,
1. łańcuch jest okresowy,
 
2. istnieje wektor <math>\pi</math> o współrzędnych  <math>\pi_1</math>, ,
<math>\pi_k</math> taki, że:
 
a) <math>\pi_i > 0</math> dla wszystkich <math>i \in E</math>,
 
b) dla wszystkich <math>i, j \in E</math>:
 
 
<center><math>
\lim_{n \rightarrow \infty}{\mathbf{P}}^n(i,j) = \pi_j</math>,</center>
 
 
c) wektor <math>\pi</math> jest jedynym rozwiązaniem równania:
 
 
<center><math>
{\mathbf{P}}^T x = x</math>,</center>
 
 
spełniającym warunek:


istnieje wektor <math>\displaystyle \pi</math> o współrzędnych  <math>\displaystyle \pi_1</math>, ,
<math>\displaystyle \pi_k</math> taki, że:


<math>\displaystyle \pi_i > 0</math> dla wszystkich <math>\displaystyle i \in E</math>,
<center><math>\sum_{i\in E}x_i = 1</math>.</center>


dla wszystkich <math>\displaystyle i, j \in E</math>:
<center><math>\displaystyle
\lim_{n \rightarrow \infty}{\mathbf{P}}^n(i,j) = \pi_j,
</math></center>


wektor <math>\displaystyle \pi</math> jest jedynym rozwiązaniem równania:
<center><math>\displaystyle
{\mathbf{P}}^T x = x,
</math></center>
spełniającym warunek: <center><math>\displaystyle \sum_{i\in E}x_i = 1.</math></center>
}}
}}


Jeżeli spełniony jest warunek 2 z powyższego twierdzenia, to
Jeżeli spełniony jest warunek 2 z powyższego twierdzenia, to
łańcuch Markowa nazywamy ergodycznym, zaś
łańcuch Markowa nazywamy ergodycznym, zaś
wektor <math>\displaystyle \pi</math> -- jego rozkładem
wektor <math>\pi</math> - jego rozkładem
stacjonarnym. Mówiąc niezbyt precyzyjnie, ergodyczność oznacza, że dla dużych <math>\displaystyle n</math>
stacjonarnym. Mówiąc niezbyt precyzyjnie, ergodyczność oznacza, że dla dużych <math>n</math>
prawdopodobieństwo przejścia ze stanu <math>\displaystyle i</math> do stanu <math>\displaystyle j</math>
prawdopodobieństwo przejścia ze stanu <math>i</math> do stanu <math>j</math>
w <math>\displaystyle n</math> krokach jest dodatnie i  zależy faktycznie od
w <math>n</math> krokach jest dodatnie i  zależy faktycznie od
stanu końcowego <math>\displaystyle j</math>, zaś nie zależy od stanu
stanu końcowego <math>j</math>, zaś nie zależy od stanu
początkowego <math>\displaystyle i</math> -- prawdopodobieństwa te można otrzymać,
początkowego <math>i</math> - prawdopodobieństwa te można otrzymać,
rozwiązując odpowiedni układ równań liniowych.
rozwiązując odpowiedni układ równań liniowych.


Nie podajemy dość długiego i trudnego dowodu
Nie podajemy dość długiego i trudnego dowodu
twierdzenia ergodycznego. Zamiast tego, w ćwiczeniu [[##cetw|Uzupelnic cetw|]]
twierdzenia ergodycznego. Zamiast tego, w [[#cw_10.4|ćwiczeniu 10.4]]
"sprawdzimy" to twierdzenie eksperymentalnie.
"sprawdzimy" to twierdzenie eksperymentalnie.

Aktualna wersja na dzień 23:31, 11 wrz 2023

Łańcuchy Markowa

Założenie o niezależności zmiennych losowych nie zawsze jest spełnione. Poznamy teraz sytuację, w której zmienne losowe są zależne, ale znamy dobrze charakter tej zależności - sytuację tę opisują tak zwane łańcuchy Markowa. Podamy podstawowe definicje i twierdzenia oraz standardowe przykłady łańcuchów Markowa.


Andriej Markow (1856-1922)
Zobacz biografię

W tym wykładzie przedstawimy jedną z najprostszych sytuacji, gdy rozważne zmienne losowe są zależne. Warto podkreślić, że łańcuchy Markowa, które będziemy za chwilę omawiać, stanowią bardzo interesujący przykład procesów stochastycznych. Ich teoria ma z kolei podstawowe znaczenie przy budowie probabilistycznych modeli wielu zjawisk przyrodniczych, technicznych, a także ekonomicznych. W szczególności, teoria procesów stochastycznych znajduje w ostatnich latach coraz większe zastosowanie przy wycenie instrumentów finansowych.

Definicje i przykłady

Niech Ed będzie zbiorem skończonym lub przeliczalnym oraz niech


𝐏:E×Ei𝐩:E


będą ustalonymi funkcjami. Będziemy myśleć o 𝐏 i 𝐩 jako o skończonej lub przeliczalnej macierzy (patrz wykład z Algebry liniowej z geometrią analityczną) 𝐏(i,j) oraz wektorze (patrz wykład z Algebry liniowej z geometrią analityczną) o współrzędnych 𝐩(i), gdzie i,jE.

Definicja 10.1.[łańcuch Markowa]

Niech będzie dany ciąg wektorów losowych Xn, n=0,1,2,, zdefiniowanych na przestrzeni probabilistycznej (Ω,Σ,P) i przyjmujących wartości w d. Mówimy, że {Xn} jest łańcuchem Markowa, jeżeli spełnione są następujące warunki:

1. P(X0=i)=𝐩(i) dla każdego iE,

2. dla każdego n0 zachodzi równość:


P(Xn+1=in+1|(X0=i0,,Xn=in))


=P(Xn+1=in+1|Xn=in)=𝐏(in,in+1),


dla wszystkich i0,,in+1E,


3. iE𝐩(i)=1,

4. jE𝐏(i,j)=1 dla każdego iE.

Powyższe warunki mają prostą interpretację. Mianowicie, utożsamiamy zbiór E ze zbiorem wszystkich możliwych stanów pewnego systemu. Wówczas Xn oznacza stan, w którym znajduje się nasz system w chwili czasowej n. Warunek, że Xn jest wektorem losowym oznacza, że faktycznie nie znamy dokładnie tego położenia, natomiast pozostałe warunki dają nam o nim pewne informacje. Po pierwsze, znamy rozkład prawdopodobieństwa położenia systemu w chwili zerowej (warunki 1 i 3). Po drugie, prawdopodobieństwo przejścia układu z jednego stanu do innego stanu, w jednostkowym odcinku czasu, zależy jedynie od samych stanów, a nie zależy od historii układu ani od konkretnej chwili, w której to przejście następuje (warunek 2). Wreszcie, układ nigdy nie opuści swojej przestrzeni stanów E, gdyż:


P(X0E)=iE𝐩i=1,


zaś warunek 4 implikuje następującą równość dla wszystkich iE:


P(Xn+1E|Xn=i)=jEP(Xn+1=j|Xn=i)=jE𝐏(i,j)=1


W związku z powyższą interpretacją, E będziemy nazywać zbiorem stanów lub przestrzenią stanów, 𝐩 - rozkładem początkowym, zaś 𝐏 - macierzą przejścia łańcucha Markowa.

W dalszej części zaprezentujemy kilka typowych przykładów łańcuchów Markowa.

Spacer losowy

Chyba najbardziej klasycznym przykładem łańcucha Markowa jest spacer losowy po prostej.

Przykład 10.2

Wyobraźmy sobie cząsteczkę, która może się poruszać wzdłuż linii prostej według następujących reguł: w chwili zero cząsteczka znajduje się w punkcie o współrzędnej zero, natomiast w następnych momentach czasu (1, 2, 3 i tak dalej) może się przesuwać o jeden w lewo lub o jeden w prawo, z prawdopodobieństwami odpowiednio q oraz p, przy czym p+q=1. Jeżeli p=q=12 to

mówimy, że spacer losowy jest standardowy.


Oto przykładowa animacja, prezentująca standardowy spacer losowy o 300 krokach:

<flash>file=Rp101.swf|width=500|height=500</flash>

Okazuje się, że spacer losowy po prostej jest łańcuchem Markowa. Rzeczywiście, stanami są wszystkie możliwe liczby całkowite, czyli E=, natomiast Xn oznacza pozycję cząsteczki w chwili n. Zdefiniujmy:


𝐩(i)=1 dla i=0,𝐩(i)=0 dla i0


oraz


𝐏(i,j)=q dla j=i1,𝐏(i,j)=p dla j=i+1,𝐏(i,j)=0 dla j{i1,i+1}


Zauważmy, że określony powyżej spacer losowy może być modyfikowany na różne sposoby. Załóżmy, na przykład, że cząsteczka może nie zmieniać swojego położenia z prawdopodobieństwem r (wtedy oczywiście zakładamy, że p+q+r=1). Inną modyfikacją jest założenie o istnieniu jednej lub dwóch barier (ekranów), które ograniczają możliwość ruchu cząsteczki. Przykładowo, jeżeli są one usytuowane w punktach A i B, gdzie A<0<B, to zbiór E składa się A+B+1 stanów, zaś (A+B+1)-wymiarowa macierz 𝐏 może być zdefiniowana w następujący sposób:


𝐏=[sa1sa000qrp000000qrp0001sbsb]


Liczby sa oraz sb oznaczają prawdopodobieństwa tego, że cząsteczka jest pochłaniana przez barierę A lub B. Dwa interesujące przypadki skrajne są wtedy, gdy liczby te są albo zerami, co oznacza pełną elastyczność barier, albo jedynkami, co oznacza pełną absorbcję cząsteczki z chwilą jej dojścia do bariery.

Przykładowy spacer losowy może wyglądać tak:

<flash>file=Rp.1.101.swf|width=350|height=350</flash>

Tutaj ekrany ustawiono w punktach 3 i 3, parametry wynoszą:


p=q=0.5,r=0,sa=sb=0.8


zaś wykonanych jest 30 kroków.

W poniższej animacji także ustawiono bariery w punktach 3 oraz 3, ale tym razem:


p=0.1,q=0.15,r=0.75,sa=sb=0.4


<flash>file=Rp102.swf|width=500|height=500</flash>

Kolejny przykład pokazuje, iż można też opisać spacer losowy w trochę inny sposób.

Przykład 10.3

Załóżmy, nieco ogólniej niż poprzednio, że cząsteczka startuje w chwili 0 z punktu i. Gdy nie uwzględniamy barier, mamy:


X0=i  oraz   Xn+1=Xn+ξn+1 dla n=0,1,2,


gdzie ξ1,ξ2,ξ3, są niezależnymi zmiennymi losowymi, przyjmującymi wartości 1, 0,

1 z prawdopodobieństwami, odpowiednio, q, r i p.

Można także rozpatrywać spacery losowe na płaszczyźnie, a także (ogólnie) w przestrzeni wielowymiarowej.

Przykład 10.4

Dla uproszczenia załóżmy, że p=q=12, czyli także, że r=0. Dla i=(i1,,id)d mamy:


X0=i  oraz   Xn+1=Xn+ξn+1 dla n=0,1,2,


Tym razem ξ1,ξ2,ξ3, są niezależnymi wektorami losowymi, przyjmującymi 2d wartości (ε1,,εd),

gdzie εj=±1, z jednakowym prawdopodobieństwem 12d.

Zauważmy, że współrzędnymi zdefiniowanego w powyższym przykładzie d-wymiarowego spaceru losowego są niezależne jednowymiarowe standardowe spacery losowe.

Poniżej przedstawiamy dalsze przykłady łańcuchów Markowa.

Przykład 10.5

Załóżmy, że dwaj gracze, powiedzmy Antoni i Bolesław, mają kapitał, odpowiednio, A i B złotych. Powtarzają oni tę samą grę (może, na przykład, grają w szachy), przy czym przegrywający płaci wygrywającemu złotówkę. Gra kończy się wtedy, gdy jednemu z graczy skończą się pieniądze. Załóżmy, że w każdej grze prawdopodobieństwo wygrania przez Antoniego wynosi p, zaś prawdopodobieństwo wygrania przez Bolesława wynosi q. Zakładamy, że p+q1 i oznaczamy przez r prawdopodobieństwo remisu, czyli r=1pq. Oznaczmy kapitał Antoniego po zakończeniu n-tej gry przez Xn. Zauważmy, że opisana sytuacja jest faktycznie spacerem losowym, startującym w punkcie

A i mającym bariery pochłaniające w punktach 0 oraz A+B.

Przykład 10.6

W każdej z dwóch urn umieszczono po k kul, przy czym k z nich ma kolor zielony, a pozostałe k - kolor czerwony. Następnie w kolejnych momentach czasu zamieniamy miejscami jednocześnie wylosowane 2 kule (po jednej z obu urn). Niech Xn oznacza liczbę zielonych kul w pierwszej urnie (więc tym samym liczbę czerwonych kul w drugiej urnie) w chwili n. Widzimy, że zmienne Xn tworzą łańcuch Markowa z macierzą przejścia 𝐏 mającą zerowe wyrazy oprócz:


𝐏(i,i1)=(ik)2,   𝐏(i,i+1)=(kik)2,   𝐏(i,i)=2(ki)ik2


Badanie własności łańcuchów Markowa zaczniemy od wyznaczenia rozkładów wektorów losowych Xn, co sprowadza się do wyznaczenia, dla wszystkich n1, funkcji (wektorów) 𝐩n:E takich, że:


𝐩n(j)=P(Xn=j) dla jE


Stosując wzór na prawdopodobieństwo całkowite, mamy:


𝐩n(j)=P(Xn=j)=iEP(Xn=j|Xn1=i)P(Xn1=i)


=iE𝐏(i,j)𝐩n1(i)

czyli:


𝐩n=𝐏T𝐩n1      (10.1)


gdzie 𝐏T oznacza macierz transponowaną (patrz wykład z Algebry liniowej z geometrią analityczną) do macierzy 𝐏. Oznaczając n-tą potęgę macierzy 𝐏 przez 𝐏n, otrzymujemy wreszcie poszukiwany rozkład:


𝐩n=(𝐏T)n𝐩0


W szczególności, jeżeli wiemy, że X0=i, czyli że łańcuch w chwili 0 znajduje się w stanie i z prawdopodobieństwem 1, powyższy wzór implikuje następującą własność:


𝐩n(j)=𝐏n(i,j) dla wszystkich n


co nieco wyjaśnia znaczenie wyrazów 𝐏n(i,j) macierzy 𝐏n.

Niech teraz A oznacza zbiór opisany przez wektory losowe X0,Xn1, co oznacza, że A ma postać:


A={X0=i0,,Xn1=in1}


gdzie suma jest brana po pewnym zbiorze indeksów i0,,in1 - zbiór tych indeksów oznaczmy przez B. Wówczas:


P(Xn+1=j|(Xn=i oraz A))=𝐏(i,j)      (10.2)


Aby udowodnić powyższą równość zauważmy, że:


P(Xn+1=j|(Xn=i oraz A))=P(Xn+1=j,Xn=i,A)P(Xn=i,A)


=P(Xn+1=j,Xn=i,Xn1=in1,,X0=i0)P(Xn=i,Xn1=in1,X0=i0),


gdzie obie sumy brane są po zbiorze B. Z własności 2 w definicji łańcucha Markowa (definicja 10.1) otrzymujemy:


P(Xn+1=j,Xn=i,Xn1=in1,,X0=i0)


=P(Xn+1=j|(Xn=i,Xn1=in1,,X0=i0))


P(Xn=i,Xn1=in1,,X0=i0)


=P(Xn+1=j|Xn=i)P(Xn=i,Xn1=in1,,X0=i0)


=𝐏(i,j)P(Xn=i,Xn1=in1,,X0=i0)


co daje wzór 10.2.

Kolejne twierdzenie prezentuje inną (bardziej ogólną) interpretację wyrazów 𝐏n(i,j) macierzy 𝐏n, jako prawdopodobieństw przejścia w n krokach ze stanu i do stanu j.

Twierdzenie 10.7.

Dla każdego n1 oraz i,jE mamy:


P(Xk+n=j|Xk=i)=𝐏n(i,j)      (10.3)


Dowód .

Dla n=1 (formuła 10.3) jest konsekwencją własności 2 w definicji definicji 10.1. Dla przeprowadzenia kroku indukcyjnego załóżmy, że wzór 10.3 zachodzi dla pewnego n. Mamy wówczas:


P(Xk+(n+1)=j|Xk=i)=P(Xk+n+1=j,Xk=i)P(Xk=i)


=lEP(Xk+n+1=j,Xk+n=l,Xk=i)P(Xk=i)


=lEP(Xk+n+1=j|Xk+n=l,Xk=i)P(Xk+n=l,Xk=i)P(Xk=i)


Korzystając ze wzoru 10.2 oraz z założenia indukcyjnego dostajemy:


P(Xk+(n+1)=j|Xk=i)


=lE𝐏(l,j)P(Xk+n=l|Xk=i)P(Xk=i)P(Xk=i)


=lE𝐏n(i,l)𝐏(l,j)=𝐏n+1(i,j)


a więc dowiedliśmy wzór 10.3 dla n+1, co kończy dowód.

Nieredukowalne łańcuchy Markowa

W dalszej części będziemy się zajmować tylko takimi łańcuchami Markowa, których każde dwa stany mogą się komunikować. Mówiąc dokładniej, będziemy zakładać, że dla każdych dwóch stanów i oraz j prawdopodobieństwo przejścia Pk(i,j) jest dodatnie dla pewnego k=k(i,j). Łańcuch Markowa o tej własności nazywa się łańcuchem nieredukowalnym. Większość spotykanych w zastosowaniach łańcuchów Markowa jest nieredukowalna, jakkolwiek łatwo pokazać przykłady łańcuchów, które nie spełniają tego warunku - na przykład spacer losowy z ekranami pochłaniającymi nie jest nieredukowalny, gdyż prawdopodobieństwo przejścia z jednego do drugiego ekranu jest równe 0.

Powracanie i okresowość

Dla nieredukowalnego łańcucha Markowa, przez fn(i) oznaczmy prawdopodobieństwo pierwszego powrotu do stanu i w dokładnie n krokach, czyli:


fn(i)=P(Xn=i,Xn1i,,X1i|X0=i)


Określmy F(i) jako:


F(i)=n=1fn(i)


- jest to prawdopodobieństwo pierwszego powrotu do stanu i w czasie skończonym.

Oczywiście, F(i)1. Będziemy mówić, że stan i jest powracający, jeżeli F(i)=1, zaś niepowracający - jeżeli F(i)<1. Można udowodnić, że albo wszystkie stany są powracające, albo wszystkie stany są niepowracające. W związku z tym mówimy, że (nieredukowalny) łańcuch Markowa jest, odpowiednio,powracający albo niepowracający.

Następujące twierdzenie, które podajemy bez dowodu, pozwala w wielu przypadkach stwierdzić, czy łańcuch Markowa jest powracający, czy niepowracający. Oznaczmy:


𝐏(i)=n=1𝐏n(i,i)


Twierdzenie 10.8

Niech iE będzie ustalonym stanem nieredukowalnego łańcucha Markowa. Wtedy:

1. stan i jest powracający wtedy i tylko wtedy,gdy:


𝐏(i)=,


2. jeżeli i jest stanem niepowracającym, to:


F(i)=𝐏(i)1+𝐏(i)


Liczby 𝐏(i) mają także nieco inną interpretację, którą prezentuje poniższe twierdzenie. Oznaczmy przez ri liczbę wszystkich powrotów do stanu i.

Twierdzenie 10.9

Dla każdego iE:


𝔼(ri)=𝐏(i)


Dowód .

Załóżmy, że w chwili 0 system znajdował się w stanie i. W takim razie:


𝐩(i)=1 oraz 𝐩(j)=0dla ji


Mamy więc:


P(Xn=i)=P(Xn=i|X0=i)=𝐏n(i,i)


Wiemy, że (patrz zadanie 7.15):


𝔼(I{Xn=i})=P(Xn=i),


zatem:


𝔼(ri)=𝔼(n=1I{Xn=i})=n=1P(Xn=i)=n=1𝐏n(i,i)=𝐏(i)


Przykład 10.10

Rozważmy jednowymiarowy spacer losowy bez barier z prawdopodobieństwami p=q=12 (patrz przykład 10.2). Wyraźnie widać, że jest to nieredukowalny łańcuch Markowa oraz że:


𝐏n(i,i)=𝐏n(0,0)dla każdego i


Można też łatwo się przekonać (ćwiczenie), że:


𝐏n(0,0)={0, gdy n=2k1[2mm](2kk)22k, gdy n=2k.


Teraz:


𝐏(i)=n=1𝐏n(i,i)=n=1𝐏n(0,0)=k=1(2kk)22k


Tę ostatnią sumę można obliczyć analitycznie, co jest zadaniem dość trudnym. Jednakże, korzystając z programu Maple wynik uzyskujemy bardzo szybko:

 > sum(binomial(2*k,k)/4^k,k=1..infinity);



Tak więc okazało się, iż jednowymiarowy standardowy spacer losowy jest powracający.

Można też pokazać, że dwuwymiarowy standardowy spacer losowy (patrz przykład 10.4) jest powracający, natomiast spacer losowy w przestrzeni o wymiarze co najmniej trzy nie jest powracający - wrócimy do tego problemu w ćwiczeniu ćwiczeniu 10.2.

Rozważmy nieredukowalny łańcuch Markowa i ustalmy pewien jego stan iE. Ponieważ i komunikuje się z samym sobą, zatem istnieje liczba n1 taka, że 𝐏n(i,i)>0 - niech Ni oznacza zbiór wszystkich takich liczb n. Zauważmy, że:


m,nNim+nNi


Wynika to z następującej (ogólniejszej) obserwacji: dla wszystkich stanów i, j oraz k:


𝐏m+n(i,j)=lE𝐏m(i,l)𝐏n(l,j)𝐏m(i,k)𝐏n(k,j),


a więc, w szczególności:


𝐏m+n(i,i)𝐏m(i,i)𝐏n(i,i)>0


Mówimy, że stan i jest okresowy o okresie ν>1, jeżeli ν jest największym wspólnym podzielnikiem liczb ze zbioru Ni. Można udowodnić, że w nieredukowalnym łańcuchu Markowa zachodzi dokładnie jeden z następujących warunków:

1. wszystkie stany są okresowe i mają wspólny okres,

2. żaden ze stanów nie jest okresowy.

W pierwszym z powyższych przypadków mówimy, że łańcuch Markowa jest okresowy, a jego okresem jest (wspólny) okres każdego z jego stanów.

Spacer losowy opisany w przykładzie 10.2 jest okresowy o okresie 2, natomiast jego nie posiadająca ekranów modyfikacja, dla której p+q<1, nie jest okresowa. Pamiętajmy jednak, iż sam warunek p+q=1 nie gwarantuje jeszcze okresowości (jeżeli istnieją ekrany pochłaniające, to łańcuch nie jest nieredukowalny).

Ergodyczność

W pewnych okolicznościach możemy być zainteresowani tym, jak zachowuje się łańcuch Markowa po upływie długiego czasu. W szczególności, warto się pytać o asymptotyczny rozkład prawdopodobieństwa wektorów Xn, o ile oczywiście taki rozkład istnieje. Poniżej prezentujemy tak zwane twierdzenie ergodyczne, które opisuje właśnie taką sytuację.

Twierdzenie 10.11

Rozważamy nieredukowalny łańcuch Markowa o skończonej liczbie stanów k (to znaczy #E=k) i macierzy przejścia 𝐏. Wówczas zachodzi dokładnie jeden z następujących warunków:

1. łańcuch jest okresowy,

2. istnieje wektor π o współrzędnych π1, , πk taki, że:

a) πi>0 dla wszystkich iE,

b) dla wszystkich i,jE:


limn𝐏n(i,j)=πj,


c) wektor π jest jedynym rozwiązaniem równania:


𝐏Tx=x,


spełniającym warunek:


iExi=1.


Jeżeli spełniony jest warunek 2 z powyższego twierdzenia, to łańcuch Markowa nazywamy ergodycznym, zaś wektor π - jego rozkładem stacjonarnym. Mówiąc niezbyt precyzyjnie, ergodyczność oznacza, że dla dużych n prawdopodobieństwo przejścia ze stanu i do stanu j w n krokach jest dodatnie i zależy faktycznie od stanu końcowego j, zaś nie zależy od stanu początkowego i - prawdopodobieństwa te można otrzymać, rozwiązując odpowiedni układ równań liniowych.

Nie podajemy dość długiego i trudnego dowodu twierdzenia ergodycznego. Zamiast tego, w ćwiczeniu 10.4 "sprawdzimy" to twierdzenie eksperymentalnie.