Teoria informacji/TI Wykład 7: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Stromy (dyskusja | edycje)
Nie podano opisu zmian
 
m Zastępowanie tekstu – „<math> ” na „<math>”
 
(Nie pokazano 13 wersji utworzonych przez 4 użytkowników)
Linia 1: Linia 1:
===Kanały===
==Kanały==


{{definicja|[Kanał komunikacyjny]|kanał|'''Kanałem komunikacyjnym''' <math>\Gamma</math> nazywamy trójkę:}}
{{definicja|[Kanał komunikacyjny]|kanał|'''Kanałem komunikacyjnym''' <math>\Gamma</math> nazywamy trójkę:}}
Linia 6: Linia 6:
* skończony zbiór <math>\mathcal{B}</math> symboli ''wyjściowych''
* skończony zbiór <math>\mathcal{B}</math> symboli ''wyjściowych''
* mapowanie <math>\mathcal{A} \times \mathcal{B} \to [0,1]</math> określające dla każdej pary (a,b) prawdopodobieństwo <math>P(a \to b)</math> zamiany symbolu a na B, spełniające warunek:
* mapowanie <math>\mathcal{A} \times \mathcal{B} \to [0,1]</math> określające dla każdej pary (a,b) prawdopodobieństwo <math>P(a \to b)</math> zamiany symbolu a na B, spełniające warunek:
:<math>\forall_{a \in \mathcal{A}} \sum_{b \in {\mathcal B}} P (a \to b) = 1</math>
<center><math>\forall_{a \in \mathcal{A}} \sum_{b \in {\mathcal B}} P (a \to b) = 1</math></center>




Zmienne losowe A i B o wartościach odpowiednio z <math>\mathcal{A}</math> i <math>\mathcal{B}</math> stanowią parę ''wejście-wyjście'' dla kanału <math>\Gamma</math> jeśli dla dowolnych <math>a \in \mathcal{A},b \in \mathcal{B}</math>
Zmienne losowe A i B o wartościach odpowiednio z <math>\mathcal{A}</math> i <math>\mathcal{B}</math> stanowią parę ''wejście-wyjście'' dla kanału <math>\Gamma</math>, jeśli dla dowolnych <math>a \in \mathcal{A},b \in \mathcal{B}</math>


:<math>p (B = b | A = a) = P (a \to b)</math>
<center><math>p (B = b | A = a) = P (a \to b)</math></center>


Rysunek TODO
Kanał taki możemy zobrazować jako
<center><math>A \to</math>[[grafika:Gamma.PNG]]<math>\to B</math></center>




Możemy od razu zauważyć że
Możemy od razu zauważyć, że
<center><math>p ( A = a \, \wedge \, B = b)  = P (a \to b) \cdot p ( A = a )</math></center>


:<math>p ( A = a \, \wedge \, B = b)  = P (a \to b) \cdot p ( A = a )</math>
A więc rozkład (A,B) jest jednoznacznie wyznaczony przez A (dla ustalonego <math>\Gamma</math>). W szczególności odpowiednie B zawsze istnieje i jest zdefiniowane jako <math>p (B = b)  = \sum_{a \in {\mathcal A}} P (a \to b) \cdot p ( A = a )</math>


A więc rozkład (A,B) jest jednoznacznie wyznaczony przez A (dla ustalonego <math>\Gamma</math>. W szczególności odpowiednie B zawsze istnieje i jest zdefiniowane jako <math>p (B = b)  = \sum_{a \in {\mathcal A}} P (a \to b) \cdot p ( A = a )</math>
Wiedząc to, można bezpośrednio policzyć <math>H(A,B)</math>, <math>H(B|A)</math>, <math>I(A;B)</math> itp. (w zależności od <math>\Gamma</math> i A).
 
Więdząc to, można bezpośrednio policzyć H(A,B), H(B|A), I(A;B) itp. (w zależności od <math>\Gamma</math> i A).




{{definicja|[Przepustowość kanału]|przepustowość|'''Przepustowość kanału komunikacyjnego''' definiujemy jako
{{definicja|[Przepustowość kanału]|przepustowość|'''Przepustowość kanału komunikacyjnego''' definiujemy jako
:<math>C_{\Gamma } = \max_{A} I (A;B)</math>}}
<center><math>C_{\Gamma } = \max_{A} I (A;B)</math></center>}}


(dla ustalenia uwagi, tutaj<math>I=I_2</math>). Maksimum jest tutaj brane po wszystkich rozkładach zmiennej losowej A na <math>\mathcal{A}</math>. Istnieje ono zawsze, ponieważ I(A;B) jest ciągłym odwzorowaniem ze zbioru zwartego <math>\{ p \in [0,1]^{{\mathcal A}} : \sum_{a \in {\mathcal A}} p(a) = 1 \}</math> w <math>\mathbb{R}</math>, i dodatkowo ograniczonym (<math>I(A;B) \le H(A) \le \log|\mathcal{A}|</math>).
(dla ustalenia uwagi, tutaj<math>I=I_2</math>). Maksimum jest tutaj brane po wszystkich rozkładach zmiennej losowej A na <math>\mathcal{A}</math>. Istnieje ono zawsze, ponieważ <math>I(A;B)</math> jest ciągłym odwzorowaniem ze zbioru zwartego <math>\{ p \in [0,1]^{{\mathcal A}} : \sum_{a \in {\mathcal A}} p(a) = 1 \}</math> w <math>\mathbb{R}</math> i dodatkowo ograniczonym (<math>I(A;B) \le H(A) \le \log|\mathcal{A}|</math>).


Jeśli <math>\mathcal{A}= \{ a_1, \ldots , a_m \}</math> i <math>\mathcal{B}= \{ b_1, \ldots , b_n \}</math>, to możemy kanał reprezentować jako macierz:
Jeśli <math>\mathcal{A}= \{ a_1, \ldots , a_m \}</math> i <math>\mathcal{B}= \{ b_1, \ldots , b_n \}</math>, to możemy kanał reprezentować jako macierz {{kotwica|macierz_kanału|}}:


<math>\left(  
<center><math>\left(  
\begin{matrix}
\begin{matrix}
P_{1 1} & \ldots & P_{1 n} \\
P_{1 1} & \ldots & P_{1 n} \\
Linia 38: Linia 38:
P_{m 1} & \ldots & P_{m n}
P_{m 1} & \ldots & P_{m n}
\end{matrix}
\end{matrix}
\right) </math>
\right)</math></center>
 


gdzie <math> P_{i j} = p (a_i \to b_j )</math>
gdzie <math>P_{i j} = p (a_i \to b_j )</math>


W tej postaci wzór na rozkład zmiennej losowej B ma postać:
W tej postaci wzór na rozkład zmiennej losowej B ma postać:


<math>\left( p (a_1) , \ldots , p (a_m) \right)
<center><math>\left( p (a_1) , \ldots , p (a_m) \right)
\cdot
\cdot
\left(
\left(
Linia 55: Linia 54:
\right)
\right)
=
=
\left( p (b_1) , \ldots , p (b_n)\right)</math>
\left( p (b_1) , \ldots , p (b_n)\right)</math></center>
 


===Przykłady===


'''Przykłady'''
Proste kanały łatwo przedstawiać jako dwudzielne grafy skierowane o wierzchołkach z <math>\mathcal{A}</math> i <math>\mathcal{B}</math> oraz krawędziach <math>a \to b</math> etykietowanych przez <math>P(a \to b)</math>
(rysowanych o ile <math>P(a \to b) > 0</math>).


Poste kanały łatwo przestawiać jako dwudzielne grafy skierowane o wierzchołkach z <math>\mathcal{A}</math> i <math>\mathcal{B}</math>, i krawędziach <math>a \to b</math> etykietowanych przez <math>P(a \to b)</math> (rysowanych o ile <math>P(a \to b) > 0</math>.


'''Wierny (bezszumowy) kanał''' Niech <math>\mathcal{A}=\mathcal{B}=\{0,1\}</math>
{{przyklad|[Wierny (bezszumowy) kanał]|wierny_kanal|
Niech <math>\mathcal{A}=\mathcal{B}=\{0,1\}</math>. Wierny kanał przekazuje informację bez przekłamań:


Rysunek TODO
<center>[[grafika:faithful.PNG]]</center>


Macierz reprezentująca ten kanał to
Macierz reprezentująca ten kanał to
<math>\left(
<center><math>\left(
\begin{matrix}
\begin{matrix}
1 & 0 \\
1 & 0 \\
0 & 1
0 & 1
\end{matrix}
\end{matrix}
\right)</math>
\right)</math></center>
 
Skoro A jest zawsze równe B, to I(A;B)=H(A), a więc przepustowość tego kanału jest równa:


<math> C_{\Gamma } = \max_{A} I(A;B) =  \max_{A} H(A) = \log_2 |{\mathcal A}| = 1</math>
Skoro A jest zawsze równe B, to <math>I(A;B)=H(A)</math>, a więc przepustowość tego kanału jest równa
<center><math>C_{\Gamma } = \max_{A} I(A;B) =  \max_{A} H(A) = \log_2 |{\mathcal A}| = 1</math></center>}}




'''Wierny kanał odwracający'''
{{przyklad|[Wierny kanał odwracający]|odwracajacy_kanal|
Kanał analogiczny do poprzedniego, ale odwracający wszystkie przekazywane bity:


Rysunek TODO
<center>[[grafika:inverse.PNG]]</center>


Reprezentacja macierzowa
Reprezentacja macierzowa to
<math>\left(
<center><math>\left(
\begin{matrix}
\begin{matrix}
0 & 1 \\
0 & 1 \\
1 & 0
1 & 0
\end{matrix}
\end{matrix}
\right)</math>,
\right)</math></center>
przepustowość <math> C_{\Gamma } = 1</math>
 
przepustowość tak jak w poprzednim przykładzie <math>C_{\Gamma } = 1</math>}}




'''Kanał zaszumiony bez nakładania'''
{{przyklad|[Kanał zaszumiony bez nakładania]|bez_nakladania_kanal|
<math>\mathcal{A}= \{0,1\}, \mathcal{B}=\{0,1,2,3\}</math>
<math>\mathcal{A}= \{0,1\}, \mathcal{B}=\{0,1,2,3\}</math>
<center>[[grafika:wooverlap.PNG]]</center>


Macierz ma postać:
Macierz ma postać:
<math>\left(
<center><math>\left(
\begin{matrix}
\begin{matrix}
\frac{1}{2} & \frac{1}{2} & 0 & 0  \\
\frac{1}{2} & \frac{1}{2} & 0 & 0  \\
Linia 103: Linia 108:
\end{matrix}
\end{matrix}
\right)
\right)
</math>
</math></center>
 
Jak widać, A jest tutaj funkcją B, a więc I(A;B)=H(A)-H(A|B)=H(A). Czyli znów <math> C_{\Gamma } = 1</math>.


Jak widać, A jest tutaj funkcją B, a więc <math>I(A;B)=H(A)-H(A|B)=H(A)</math>.
Czyli znów <math>C_{\Gamma } = 1</math>}}


'''Wadliwa maszyna do pisania''' Niech <math>\mathcal{A}=\mathcal{B}=\{a,b,\ldots z\}</math> (załóżmy 26 liter), i


:<math> p (\alpha \to \alpha ) = p (\alpha \to \mathit{next} ( \alpha ) ) = \frac{1}{2}</math>,
{{przyklad|[Wadliwa maszyna do pisania]|maszyna_kanal|
Niech <math>\mathcal{A}=\mathcal{B}=\{a,b,\ldots z\}</math> (załóżmy 26 liter), i
<center><math>p (\alpha \to \alpha ) = p (\alpha \to \mathit{next} ( \alpha ) ) = \frac{1}{2}</math></center>


Gdzie
gdzie
<math>\mathit{next} (a) = b</math>,
<math>\mathit{next} (a) = b</math>,
<math>\mathit{next} (b) = c</math>, . . .
<math>\mathit{next} (b) = c</math>, . . .
Linia 121: Linia 127:


Aby obliczyć przepustowość, zacznijmy od obserwacji:
Aby obliczyć przepustowość, zacznijmy od obserwacji:
<center><math>H(B | \alpha ) = p ( \alpha | \alpha ) \cdot \log \frac{1}{p ( \alpha | \alpha )} + p ( \mathit{next} ( \alpha )| \alpha ) \cdot \log \frac{1}{p ( \mathit{next} (\alpha )| \alpha )} = (\frac{1}{2} + \frac{1}{2}) \cdot \log_ 2 = 1</math></center>


:<math>H(B | \alpha ) = p ( \alpha | \alpha ) \cdot \log \frac{1}{p ( \alpha | \alpha )} + p ( \mathit{next} ( \alpha )| \alpha ) \cdot \log \frac{1}{p ( \mathit{next} (\alpha )| \alpha )} = (\frac{1}{2} + \frac{1}{2}) \cdot \log_ 2 = 1</math>
Skoro tak, możemy łatwo policzyć przepustowość rozpisując ją następująco:
<center><math>C_{\Gamma } = \max_{A} I(A;B) = \max_{A} H(B) - \underbrace{H(B|A)}_{=1} = \log 26  - 1 = \log 13</math></center>
(ponieważ możemy uzyskać maksymalną entropię B, np. dla jednostajnego rozkładu prawdopodobieństwa na A).}}


A skoro tak, to możemy łatwo policzyć przepustowość rozpisując ją następująco:


:<math>C_{\Gamma } = \max_{A} I(A;B) = \max_{A} H(B) - \underbrace{H(B|A)}_{=1} = \log 26  - 1 = \log 13</math>.
Czytelnik być może już ma intuicyjne pojęcie przepustowości kanału jako konkretnej liczby, tak jak informacja lub entropia. Zadamy zatem kolejne pytanie: jakie kanały mają zerową przepustowość?


(ponieważ możemy uzyskać maksymalną entropię B, np. dla jednostajnego rozkładu prawdopodobieństwa na A).


 
'''Złe kanały''' Aby uzyskać <math>C_{\Gamma } = 0</math>, musimy mieć I(A;B)=0 dla dowolnego rozkładu danych wejściowych, czyli pary A i B zawsze muszą być niezależne. Formalnie to wymaganie oznacza, że <math>p(B=b|A=a)=p(B=b)</math>, dla wszystkich <math>a \in \mathcal{A}, b \in \mathcal{B}</math>. Przykładowymi złymi kanałami są:
Czytelnik być może już ma intuicyjne pojęcie przepustowości kanału jako konkretnej liczby, tak jak informacja lub entropia. Zadamy zatem kolejne pytanie: jakie kanały mają zerową przepustowość?
 
'''Złe kanały''' Aby uzyskać <math> C_{\Gamma } = 0</math>, musimy mieć I(A;B)=0 dla dowolnego rozkładu danych wejściowych, czyli pary A i B zawsze muszą być niezależne. Formalnie to wymaganie oznacza że p(B=b|A=a)=p(B=b), dla wszystkich <math>a \in \mathcal{A}, b \in \mathcal{B}</math>. Przykładowymi złymi kanałami są:


<math>\left(
<math>\left(
Linia 160: Linia 164:
</math>
</math>


Ostatni przykład przedstawia szczególnie bezużyteczny kanał, który na wejściu zawsze daje taką samą wartość. W tym przypadku H(B)=0, co pokazuje że entropia może czasem maleć przy przesyłaniu wiadomości przez kanał. Najbardziej interesujące są jednak przypadki gdy ta entropia rośnie. Jednym z takich przypadków zajmiemy się teraz dokładniej:
Ostatni przykład przedstawia szczególnie bezużyteczny kanał, który na wyjściu zawsze daje taką samą wartość. W tym przypadku <math>H(B)=0</math>, co pokazuje, że entropia może czasem maleć przy przesyłaniu wiadomości przez kanał. Najbardziej interesujące są jednak przypadki, gdy ta entropia rośnie. Jednym z takich przypadków zajmiemy się teraz dokładniej:


 
== Binarny kanał symetryczny (BSC) ==
 
===Binarny kanał symetryczny (BSC)===


W tym przypadku znów <math>\mathcal{A}=\mathcal{B}=\{0,1\}</math>
W tym przypadku znów <math>\mathcal{A}=\mathcal{B}=\{0,1\}</math>


Rysunek TODO
<center>[[grafika:BSC.PNG]]</center>


Wprowadzając oznaczenie <math>\bar{P}=1-P</math>, macierz kanału możemy zapisać jako:
Wprowadzając oznaczenie <math>\bar{P}=1-P</math>, macierz kanału możemy zapisać jako:


<math>\left(
<center><math>\left(
\begin{matrix}
\begin{matrix}
P & \bar{P} \\
P & \bar{P} \\
Linia 178: Linia 180:
\end{matrix}
\end{matrix}
\right)
\right)
</math>
</math></center>




{{fakt||entropia_BSC|Jeśli (A,B) jest parą wejście-wyjście dla BSC, to
{{fakt||entropia_BSC|Jeśli (A,B) jest parą wejście-wyjście dla BSC, to
:<math> H(B) \ge H(A) </math>}}
<center><math>H(B) \ge H(A)</math></center>}}


Ponadto równości zachodzi wyłącznie jeśli <math>P \in \{0,1,\}</math> (czyli kanał jest wierny lub wierny-odwracający), lub jeśli H(A)=1 (czyli entropia A jest maksymalna).
Ponadto równość zachodzi wyłącznie jeśli <math>P \in \{0,1\}</math> (czyli kanał jest wierny lub wierny-odwracający) lub jeśli H(A)=1 (czyli entropia A jest maksymalna).


'''Dowód''' Niech q=p(A=0). Wtedy <math>p(A=1)= \bar{q}</math>, i możemy wyznaczyć rozkład B z formuły:
{{dowod|||Niech <math>q=p(A=0)</math>. Wtedy <math>p(A=1)=\bar{q}</math>, i możemy wyznaczyć rozkład B z formuły:


<math>\left( q, \bar{q} \right)
<center><math>\left( q, \bar{q} \right)
\cdot
\cdot
\left( \begin{matrix}
\left( \begin{matrix}
Linia 196: Linia 198:
\right)
\right)
=
=
( \underbrace{q P +\bar{q} \bar{P}}_{p(B = 0)}, \,
( \underbrace{q P +\bar{q} \bar{P}}_{p(B = 0)},  
  \underbrace{q \bar{P} + \bar{q} P}_{p(B = 1)} )
  \underbrace{q \bar{P} + \bar{q} P}_{p(B = 1)} )
</math>
</math></center>


Wprowadźmy oznaczenie r=p(B=0). Wtedy
Wprowadźmy oznaczenie <math>r=p(B=0)</math>. Wtedy
<center><math>\begin{align}
H(A)& =-q \log q - \bar{q} \log \bar{q}\\
H(B)& =-r \log r - \bar{r} \log \bar{r}
\end{align}
</math></center>


:<math>H(A)=-q \log q - \bar{q} \log \bar{q} </math>
Przypominamy naszą [[Teoria informacji/TI Wykład 2#konwencja_log|konwencję]] <math>0 \log_r 0 = 0 \log_r \frac{1}{0} = 0</math> i oznaczamy przez h funkcję
:<math>H(B)=-r \log r - \bar{r} \log \bar{r} </math>
<center><math>h(x)=x \ln x + (1-x) \ln (1-x)</math></center>


Przypominamy naszą konwencję (TODO link) <math>0 \log_r 0 = 0 \log_r \frac{1}{0} = 0</math>, i oznaczamy przez h funkcję
Dla <math>0 \le x \le 1</math>. Łatwo możemy policzyć (dla <math>0<x<1</math>):
<center><math>\begin{align}
h'(x)& =1+\ln x -1 -\ln (1-x)\\
h''(x)&=\frac{1}{x}+\frac{1}{1-x} > 0  
\end{align}
</math></center>


:<math>h(x)=x \ln x + (1-x) \ln (1-x) </math>
Zatem na podstawie [[Teoria informacji/TI Wykład 2#do_wypukłej|lematu o funkcjach wypukłych]] funkcja <math>h(x)</math> jest ściśle wypukła na przedziale <math>[0,1]</math>, a więc wypukła jest też funkcja
<center><math>\log_2 e \cdot h(x) = x \log_2 x + (1-x) \log_2 (1-x)</math></center>


Dla <math> 0 \le x \le 1 </math>. Łatwo możemy policzyć (dla <math> 0<x<1</math>):
Korzystając teraz z faktu, że zdefiniowane wyżej r jest kombinacją liniową q i <math>\bar{q}</math> (kontretnie
<math>r=Pq+(1-P)\bar{q}</math>), a <math>h(q)=h(\bar{q})</math>, otrzymujemy


:<math>h'(x)=1+\ln x -1 -\ln (1-x)</math>
<center><math>q \log q + \bar{q} \log \bar{q} \ge r \log r + \bar{r} \log \bar{r}</math></center>
:<math>h''(x)=\frac{1}{x}+\frac{1}{1-x} > 0 </math>


Zatem na podstawie lematu o funkcjach wypukłych (TODO link), funkcja h(x) jest ściśle wypukła na przedziale [0,1], a więc wypukła jest też funkcja


:<math>\log_2 e \cdot h(x) = x \log_2 x + (1-x) \log_2 (1-x)</math>
<center><math>H(A) \le H(B)</math></center>


Korzystając teraz z faktu że zdefiniowane wyżej r jest kombinacją liniową q i <math>\bar{q}</math> (r=Pq+(1-P)q'), a <math>h(q)=h(\bar{q})</math>, otrzymujemy
i równość ma miejsce tylko jeśli <math>P \in \{0,1\}</math> lub jeśli <math>q=q'</math> (czyli gdy <math>H(A)=1</math>).}}


:<math> q \log q + \bar{q} \log \bar{q} \ge r \log r + \bar{r} \log \bar{r}</math>
:<math> H(A) \le H(B)</math>


i równość zachodzi tylko jeśli <math>P \in \{0,1\}</math>, lub jeśli q=q' (co zachodzi tylko gdy H(A)=1).
Wyliczymy teraz <math>C_{\Gamma }</math>. Wygodnie będzie nam używać notacji
QED.
<center><math>H(s) = - s \log_2 s - (1-s) \log_2 (1-s)</math></center>


(co interpretujemy jako entropię zmiennej binarnej o prawdopodobieństwach s i 1-s).


Wyliczymy teraz <math> C_{\Gamma }</math>. Wygodnie będzie nam używać notacji
Funkcja ta przyjmuje maksimum równe <math>1</math> dla <math>s=\frac{1}{2}</math>. Jej wykres wygląda następująco:
 
<center>[[Grafika:Entropia.PNG]]</center>
:<math> H(s) = - s \log_2 s - (1-s) \log_2 (1-s) </math>


(co interpretujemy jako entropię zmiennej binarnej o prawdopodobieństwach s i 1-s).


Z definicji entropii warunkowej dostajemy:
Z definicji entropii warunkowej dostajemy:


<math>H (B |A)=</math>
<center><math>\begin{align}
 
H (B |A)& = p(A = 0) \cdot \left( p (B = 0 | A = 0) \cdot \log \frac{1}{p (B = 0 | A = 0)} + p (B = 1 | A = 0) \cdot \log \frac{1}{p (B = 1 | A = 0)} \right)\\
::<math>= p(A = 0) \cdot \left( p (B = 0 | A = 0) \cdot \log \frac{1}{p (B = 0 | A = 0)}
& + p(A = 1)  \cdot \left( p (B = 0 | A = 1) \cdot \log \frac{1}{p (B = 0 | A = 1)} + p (B = 1 | A = 1) \cdot \log \frac{1}{p (B = 1 | A = 1)} \right)\\
+ p (B = 1 | A = 0) \cdot \log \frac{1}{p (B = 1 | A = 0)} \right) </math>
& = p(A = 0) \cdot \left( P \cdot \log \frac{1}{P} + \bar{P} \cdot \log \frac{1}{\bar{P}} \right) + p(A = 1) \cdot \left( \bar{P} \cdot \log \frac{1}{\bar{P}} + P \cdot \log \frac{1}{P} \right)\\
 
& = P \cdot \log \frac{1}{P} + \bar{P} \cdot \log \frac{1}{\bar{P}}\\
::<math>+ p(A = 1)  \cdot \left( p (B = 0 | A = 1) \cdot \log \frac{1}{p (B = 0 | A = 1)} + p (B = 1 | A = 1) \cdot \log \frac{1}{p (B = 1 | A = 1)} \right) </math>
& = H(P)
\end{align}
</math></center>


::<math>= p(A = 0) \cdot \left( P \cdot \log \frac{1}{P} + \bar{P} \cdot \log \frac{1}{\bar{P}} \right) + p(A = 1) \cdot \left( \bar{P} \cdot \log \frac{1}{\bar{P}} + P \cdot \log \frac{1}{P} \right) </math>
A zatem <math>H(B|A)</math> nie zależy od A.


::<math>= P \cdot \log \frac{1}{P} + \bar{P} \cdot \log \frac{1}{\bar{P}}</math>
::<math>= H(P) </math>
A zatem H(B|A) nie zależy od A.


Korzystając z powyższego wyliczenia rozkładu B, mamy
Korzystając z powyższego wyliczenia rozkładu B, mamy
<center><math>H(B)=H(qP+\bar{q}\bar{P})</math></center>


:<math> H(B)=H(qP+\bar{q}\bar{P})</math>
Możemy teraz znaleźć rozkład A, który maksymalizuje tę wartość (dla <math>q=\frac{1}{2}</math>), i otrzymujemy:
 
<center><math>C_{\Gamma}= \max_{A} H(B) - H(B|A) = 1 - H(P)</math></center>
Możemy teraz znaleźć rozkład A który maksymalizuję tę wartość (dla <math>q=\frac{1}{2}</math>), i otrzymujemy:
 
:<math>C_{\Gamma}= \max_{A} H(B) - H(B|A) = 1 - H(P)</math>

Aktualna wersja na dzień 22:12, 11 wrz 2023

Kanały

Definicja [Kanał komunikacyjny]

Kanałem komunikacyjnym Γ nazywamy trójkę:
  • skończony zbiór 𝒜 symboli wejściowych
  • skończony zbiór symboli wyjściowych
  • mapowanie 𝒜×[0,1] określające dla każdej pary (a,b) prawdopodobieństwo P(ab) zamiany symbolu a na B, spełniające warunek:
a𝒜bP(ab)=1


Zmienne losowe A i B o wartościach odpowiednio z 𝒜 i stanowią parę wejście-wyjście dla kanału Γ, jeśli dla dowolnych a𝒜,b

p(B=b|A=a)=P(ab)

Kanał taki możemy zobrazować jako

AB


Możemy od razu zauważyć, że

p(A=aB=b)=P(ab)p(A=a)

A więc rozkład (A,B) jest jednoznacznie wyznaczony przez A (dla ustalonego Γ). W szczególności odpowiednie B zawsze istnieje i jest zdefiniowane jako p(B=b)=a𝒜P(ab)p(A=a)

Wiedząc to, można bezpośrednio policzyć H(A,B), H(B|A), I(A;B) itp. (w zależności od Γ i A).


Definicja [Przepustowość kanału]

Przepustowość kanału komunikacyjnego definiujemy jako
CΓ=maxAI(A;B)

(dla ustalenia uwagi, tutajI=I2). Maksimum jest tutaj brane po wszystkich rozkładach zmiennej losowej A na 𝒜. Istnieje ono zawsze, ponieważ I(A;B) jest ciągłym odwzorowaniem ze zbioru zwartego {p[0,1]𝒜:a𝒜p(a)=1} w i dodatkowo ograniczonym (I(A;B)H(A)log|𝒜|).

Jeśli 𝒜={a1,,am} i ={b1,,bn}, to możemy kanał reprezentować jako macierz :

(P11P1nPm1Pmn)

gdzie Pij=p(aibj)

W tej postaci wzór na rozkład zmiennej losowej B ma postać:

(p(a1),,p(am))(P11P1nPm1Pmn,)=(p(b1),,p(bn))


Przykłady

Proste kanały łatwo przedstawiać jako dwudzielne grafy skierowane o wierzchołkach z 𝒜 i oraz krawędziach ab etykietowanych przez P(ab) (rysowanych o ile P(ab)>0).


Przykład [Wierny (bezszumowy) kanał]

Niech 𝒜=={0,1}. Wierny kanał przekazuje informację bez przekłamań:

Macierz reprezentująca ten kanał to

(1001)

Skoro A jest zawsze równe B, to I(A;B)=H(A), a więc przepustowość tego kanału jest równa

CΓ=maxAI(A;B)=maxAH(A)=log2|𝒜|=1


Przykład [Wierny kanał odwracający]

Kanał analogiczny do poprzedniego, ale odwracający wszystkie przekazywane bity:

Reprezentacja macierzowa to

(0110)
przepustowość tak jak w poprzednim przykładzie CΓ=1


Przykład [Kanał zaszumiony bez nakładania]

𝒜={0,1},={0,1,2,3}

Macierz ma postać:

(121200001323)

Jak widać, A jest tutaj funkcją B, a więc I(A;B)=H(A)H(A|B)=H(A).

Czyli znów CΓ=1


Przykład [Wadliwa maszyna do pisania]

Niech 𝒜=={a,b,z} (załóżmy 26 liter), i

p(αα)=p(αnext(α))=12

gdzie next(a)=b, next(b)=c, . . . next(y)=z, next(z)=a.

(wyobrażenie sobie reprezentacji grafowej i macierzowej zostawiamy czytelnikowi).

Aby obliczyć przepustowość, zacznijmy od obserwacji:

H(B|α)=p(α|α)log1p(α|α)+p(next(α)|α)log1p(next(α)|α)=(12+12)log2=1

Skoro tak, możemy łatwo policzyć przepustowość rozpisując ją następująco:

CΓ=maxAI(A;B)=maxAH(B)H(B|A)=1=log261=log13
(ponieważ możemy uzyskać maksymalną entropię B, np. dla jednostajnego rozkładu prawdopodobieństwa na A).


Czytelnik być może już ma intuicyjne pojęcie przepustowości kanału jako konkretnej liczby, tak jak informacja lub entropia. Zadamy zatem kolejne pytanie: jakie kanały mają zerową przepustowość?


Złe kanały Aby uzyskać CΓ=0, musimy mieć I(A;B)=0 dla dowolnego rozkładu danych wejściowych, czyli pary A i B zawsze muszą być niezależne. Formalnie to wymaganie oznacza, że p(B=b|A=a)=p(B=b), dla wszystkich a𝒜,b. Przykładowymi złymi kanałami są:

(12121212)

(12016131201613)

(001001001)

Ostatni przykład przedstawia szczególnie bezużyteczny kanał, który na wyjściu zawsze daje taką samą wartość. W tym przypadku H(B)=0, co pokazuje, że entropia może czasem maleć przy przesyłaniu wiadomości przez kanał. Najbardziej interesujące są jednak przypadki, gdy ta entropia rośnie. Jednym z takich przypadków zajmiemy się teraz dokładniej:

Binarny kanał symetryczny (BSC)

W tym przypadku znów 𝒜=={0,1}

Wprowadzając oznaczenie P¯=1P, macierz kanału możemy zapisać jako:

(PP¯P¯P)


Fakt

Jeśli (A,B) jest parą wejście-wyjście dla BSC, to
H(B)H(A)

Ponadto równość zachodzi wyłącznie jeśli P{0,1} (czyli kanał jest wierny lub wierny-odwracający) lub jeśli H(A)=1 (czyli entropia A jest maksymalna).

Dowód

Niech q=p(A=0). Wtedy p(A=1)=q¯, i możemy wyznaczyć rozkład B z formuły:
(q,q¯)(PP¯P¯P)=(qP+q¯P¯p(B=0),qP¯+q¯Pp(B=1))

Wprowadźmy oznaczenie r=p(B=0). Wtedy

H(A)=qlogqq¯logq¯H(B)=rlogrr¯logr¯

Przypominamy naszą konwencję 0logr0=0logr10=0 i oznaczamy przez h funkcję

h(x)=xlnx+(1x)ln(1x)

Dla 0x1. Łatwo możemy policzyć (dla 0<x<1):

h(x)=1+lnx1ln(1x)h(x)=1x+11x>0

Zatem na podstawie lematu o funkcjach wypukłych funkcja h(x) jest ściśle wypukła na przedziale [0,1], a więc wypukła jest też funkcja

log2eh(x)=xlog2x+(1x)log2(1x)

Korzystając teraz z faktu, że zdefiniowane wyżej r jest kombinacją liniową q i q¯ (kontretnie r=Pq+(1P)q¯), a h(q)=h(q¯), otrzymujemy

qlogq+q¯logq¯rlogr+r¯logr¯


H(A)H(B)
i równość ma miejsce tylko jeśli P{0,1} lub jeśli q=q (czyli gdy H(A)=1).


Wyliczymy teraz CΓ. Wygodnie będzie nam używać notacji

H(s)=slog2s(1s)log2(1s)

(co interpretujemy jako entropię zmiennej binarnej o prawdopodobieństwach s i 1-s).

Funkcja ta przyjmuje maksimum równe 1 dla s=12. Jej wykres wygląda następująco:


Z definicji entropii warunkowej dostajemy:

H(B|A)=p(A=0)(p(B=0|A=0)log1p(B=0|A=0)+p(B=1|A=0)log1p(B=1|A=0))+p(A=1)(p(B=0|A=1)log1p(B=0|A=1)+p(B=1|A=1)log1p(B=1|A=1))=p(A=0)(Plog1P+P¯log1P¯)+p(A=1)(P¯log1P¯+Plog1P)=Plog1P+P¯log1P¯=H(P)

A zatem H(B|A) nie zależy od A.


Korzystając z powyższego wyliczenia rozkładu B, mamy

H(B)=H(qP+q¯P¯)

Możemy teraz znaleźć rozkład A, który maksymalizuje tę wartość (dla q=12), i otrzymujemy:

CΓ=maxAH(B)H(B|A)=1H(P)