Teoria informacji/TI Wykład 7: Różnice pomiędzy wersjami
Nie podano opisu zmian |
Nie podano opisu zmian |
||
Linia 13: | Linia 13: | ||
:<math>p (B = b | A = a) = P (a \to b)</math> | :<math>p (B = b | A = a) = P (a \to b)</math> | ||
Kanał taki możemy zobrazować jako | |||
::<math>A \to</math>[[grafika:Gamma.PNG]]<math>\to B</math> | |||
Linia 58: | Linia 59: | ||
===Przykłady=== | |||
Poste kanały łatwo przestawiać jako dwudzielne grafy skierowane o wierzchołkach z <math>\mathcal{A}</math> i <math>\mathcal{B}</math>, i krawędziach <math>a \to b</math> etykietowanych przez <math>P(a \to b)</math> (rysowanych o ile <math>P(a \to b) > 0</math>. | Poste kanały łatwo przestawiać jako dwudzielne grafy skierowane o wierzchołkach z <math>\mathcal{A}</math> i <math>\mathcal{B}</math>, i krawędziach <math>a \to b</math> etykietowanych przez <math>P(a \to b)</math> | ||
(rysowanych o ile <math>P(a \to b) > 0</math>). | |||
{{przyklad|[Wierny (bezszumowy) kanał]|wierny_kanal| | |||
Niech <math>\mathcal{A}=\mathcal{B}=\{0,1\}</math>. Wierny kanał przekazuje informację bez przekłamań: | |||
[[grafika:faithful.PNG]] | |||
Macierz reprezentująca ten kanał to | Macierz reprezentująca ten kanał to | ||
Linia 74: | Linia 78: | ||
\right)</math> | \right)</math> | ||
Skoro A jest zawsze równe B, to I(A;B)=H(A), a więc przepustowość tego kanału jest równa: | Skoro A jest zawsze równe B, to <math>I(A;B)=H(A)</math>, a więc przepustowość tego kanału jest równa | ||
:<math> C_{\Gamma } = \max_{A} I(A;B) = \max_{A} H(A) = \log_2 |{\mathcal A}| = 1</math>}} | |||
{{przyklad|[Wierny kanał odwracający]|odwracajacy_kanal| | |||
Kanał analogiczny do poprzedniego, ale odwracający wszystkie przekazywane bity: | |||
[[grafika:inverse.PNG]] | |||
Reprezentacja macierzowa | Reprezentacja macierzowa | ||
Linia 90: | Linia 94: | ||
\end{matrix} | \end{matrix} | ||
\right)</math>, | \right)</math>, | ||
przepustowość <math> C_{\Gamma } = 1</math> | przepustowość <math> C_{\Gamma } = 1</math>}} | ||
{{przyklad|[Kanał zaszumiony bez nakładania]|bez_nakladania_kanal| | |||
<math>\mathcal{A}= \{0,1\}, \mathcal{B}=\{0,1,2,3\}</math> | <math>\mathcal{A}= \{0,1\}, \mathcal{B}=\{0,1,2,3\}</math> | ||
[[grafika:wooverlap.PNG]] | |||
Macierz ma postać: | Macierz ma postać: | ||
Linia 105: | Linia 111: | ||
</math> | </math> | ||
Jak widać, A jest tutaj funkcją B, a więc I(A;B)=H(A)-H(A|B)=H(A). Czyli znów <math> C_{\Gamma } = 1</math> | Jak widać, A jest tutaj funkcją B, a więc <math>I(A;B)=H(A)-H(A|B)=H(A)</math>. | ||
Czyli znów <math> C_{\Gamma } = 1</math>}} | |||
{{przyklad|[Wadliwa maszyna do pisania]|maszyna_kanal| | |||
Niech <math>\mathcal{A}=\mathcal{B}=\{a,b,\ldots z\}</math> (załóżmy 26 liter), i | |||
:<math> p (\alpha \to \alpha ) = p (\alpha \to \mathit{next} ( \alpha ) ) = \frac{1}{2}</math>, | :<math> p (\alpha \to \alpha ) = p (\alpha \to \mathit{next} ( \alpha ) ) = \frac{1}{2}</math>, | ||
Linia 121: | Linia 128: | ||
Aby obliczyć przepustowość, zacznijmy od obserwacji: | Aby obliczyć przepustowość, zacznijmy od obserwacji: | ||
:<math>H(B | \alpha ) = p ( \alpha | \alpha ) \cdot \log \frac{1}{p ( \alpha | \alpha )} + p ( \mathit{next} ( \alpha )| \alpha ) \cdot \log \frac{1}{p ( \mathit{next} (\alpha )| \alpha )} = (\frac{1}{2} + \frac{1}{2}) \cdot \log_ 2 = 1</math> | :<math>H(B | \alpha ) = p ( \alpha | \alpha ) \cdot \log \frac{1}{p ( \alpha | \alpha )} + p ( \mathit{next} ( \alpha )| \alpha ) \cdot \log \frac{1}{p ( \mathit{next} (\alpha )| \alpha )} = (\frac{1}{2} + \frac{1}{2}) \cdot \log_ 2 = 1</math> | ||
A skoro tak, to możemy łatwo policzyć przepustowość rozpisując ją następująco: | A skoro tak, to możemy łatwo policzyć przepustowość rozpisując ją następująco: | ||
:<math>C_{\Gamma } = \max_{A} I(A;B) = \max_{A} H(B) - \underbrace{H(B|A)}_{=1} = \log 26 - 1 = \log 13</math>. | :<math>C_{\Gamma } = \max_{A} I(A;B) = \max_{A} H(B) - \underbrace{H(B|A)}_{=1} = \log 26 - 1 = \log 13</math>. | ||
(ponieważ możemy uzyskać maksymalną entropię B, np. dla jednostajnego rozkładu prawdopodobieństwa na A). | (ponieważ możemy uzyskać maksymalną entropię B, np. dla jednostajnego rozkładu prawdopodobieństwa na A).}} | ||
Czytelnik być może już ma intuicyjne pojęcie przepustowości kanału jako konkretnej liczby, tak jak informacja lub entropia. Zadamy zatem kolejne pytanie: jakie kanały mają zerową przepustowość? | Czytelnik być może już ma intuicyjne pojęcie przepustowości kanału jako konkretnej liczby, tak jak informacja lub entropia. Zadamy zatem kolejne pytanie: jakie kanały mają zerową przepustowość? | ||
'''Złe kanały''' Aby uzyskać <math> C_{\Gamma } = 0</math>, musimy mieć I(A;B)=0 dla dowolnego rozkładu danych wejściowych, czyli pary A i B zawsze muszą być niezależne. Formalnie to wymaganie oznacza że p(B=b|A=a)=p(B=b), dla wszystkich <math>a \in \mathcal{A}, b \in \mathcal{B}</math>. Przykładowymi złymi kanałami są: | |||
'''Złe kanały''' Aby uzyskać <math> C_{\Gamma } = 0</math>, musimy mieć I(A;B)=0 dla dowolnego rozkładu danych wejściowych, czyli pary A i B zawsze muszą być niezależne. Formalnie to wymaganie oznacza że <math>p(B=b|A=a)=p(B=b)</math>, dla wszystkich <math>a \in \mathcal{A}, b \in \mathcal{B}</math>. Przykładowymi złymi kanałami są: | |||
<math>\left( | <math>\left( | ||
Linia 160: | Linia 166: | ||
</math> | </math> | ||
Ostatni przykład przedstawia szczególnie bezużyteczny kanał, który na | Ostatni przykład przedstawia szczególnie bezużyteczny kanał, który na wyjściu zawsze daje taką samą wartość. W tym przypadku <math>H(B)=0</math>, co pokazuje że entropia może czasem maleć przy przesyłaniu wiadomości przez kanał. Najbardziej interesujące są jednak przypadki gdy ta entropia rośnie. Jednym z takich przypadków zajmiemy się teraz dokładniej: | ||
Linia 168: | Linia 174: | ||
W tym przypadku znów <math>\mathcal{A}=\mathcal{B}=\{0,1\}</math> | W tym przypadku znów <math>\mathcal{A}=\mathcal{B}=\{0,1\}</math> | ||
[[grafika:BSC.PNG]] | |||
Wprowadzając oznaczenie <math>\bar{P}=1-P</math>, macierz kanału możemy zapisać jako: | Wprowadzając oznaczenie <math>\bar{P}=1-P</math>, macierz kanału możemy zapisać jako: | ||
Linia 184: | Linia 190: | ||
:<math> H(B) \ge H(A) </math>}} | :<math> H(B) \ge H(A) </math>}} | ||
Ponadto równości zachodzi wyłącznie jeśli <math>P \in \{0,1 | Ponadto równości zachodzi wyłącznie jeśli <math>P \in \{0,1\}</math> (czyli kanał jest wierny lub wierny-odwracający), lub jeśli H(A)=1 (czyli entropia A jest maksymalna). | ||
{{dowod|||Niech <math>q=p(A=0)</math>. Wtedy <math>p(A=1)=\bar{q}</math>, i możemy wyznaczyć rozkład B z formuły: | |||
<math>\left( q, \bar{q} \right) | <math>\left( q, \bar{q} \right) | ||
Linia 196: | Linia 202: | ||
\right) | \right) | ||
= | = | ||
( \underbrace{q P +\bar{q} \bar{P}}_{p(B = 0)} | ( \underbrace{q P +\bar{q} \bar{P}}_{p(B = 0)}, | ||
\underbrace{q \bar{P} + \bar{q} P}_{p(B = 1)} ) | \underbrace{q \bar{P} + \bar{q} P}_{p(B = 1)} ) | ||
</math> | </math> | ||
Wprowadźmy oznaczenie r=p(B=0). Wtedy | Wprowadźmy oznaczenie <math>r=p(B=0)</math>. Wtedy | ||
:<math>H(A)=-q \log q - \bar{q} \log \bar{q} </math> | :<math>H(A)=-q \log q - \bar{q} \log \bar{q} </math> | ||
:<math>H(B)=-r \log r - \bar{r} \log \bar{r} </math> | :<math>H(B)=-r \log r - \bar{r} \log \bar{r} </math> | ||
Przypominamy naszą konwencję | Przypominamy naszą [[Teoria informacji/TI Wykład 2#konwencja_log|konwencję]] <math>0 \log_r 0 = 0 \log_r \frac{1}{0} = 0</math>, i oznaczamy przez h funkcję | ||
:<math>h(x)=x \ln x + (1-x) \ln (1-x) </math> | :<math>h(x)=x \ln x + (1-x) \ln (1-x) </math> | ||
Dla <math> 0 \le x \le 1 </math>. Łatwo możemy policzyć (dla <math> 0<x<1</math>): | Dla <math> 0 \le x \le 1 </math>. Łatwo możemy policzyć (dla <math> 0<x<1 </math>): | ||
:<math>h'(x)=1+\ln x -1 -\ln (1-x)</math> | :<math>h'(x)=1+\ln x -1 -\ln (1-x)</math> | ||
:<math>h''(x)=\frac{1}{x}+\frac{1}{1-x} > 0 </math> | :<math>h''(x)=\frac{1}{x}+\frac{1}{1-x} > 0 </math> | ||
Zatem na podstawie lematu o funkcjach wypukłych | Zatem na podstawie [[Teoria informacji/TI Wykład 2#do_wypukłej|lematu o funkcjach wypukłych]], funkcja <math>h(x)</math> jest ściśle wypukła na przedziale <math>[0,1]</math>, a więc wypukła jest też funkcja | ||
:<math>\log_2 e \cdot h(x) = x \log_2 x + (1-x) \log_2 (1-x)</math> | :<math>\log_2 e \cdot h(x) = x \log_2 x + (1-x) \log_2 (1-x)</math> | ||
Korzystając teraz z faktu że zdefiniowane wyżej r jest kombinacją liniową q i <math>\bar{q}</math> (r=Pq+(1-P)q | Korzystając teraz z faktu że zdefiniowane wyżej r jest kombinacją liniową q i <math>\bar{q}</math> (kontretnie | ||
<math>r=Pq+(1-P)\bar{q}</math>), a <math>h(q)=h(\bar{q})</math>, otrzymujemy | |||
:<math> q \log q + \bar{q} \log \bar{q} \ge r \log r + \bar{r} \log \bar{r}</math> | :<math> q \log q + \bar{q} \log \bar{q} \ge r \log r + \bar{r} \log \bar{r}</math> | ||
:<math> H(A) \le H(B)</math> | :<math> H(A) \le H(B)</math> | ||
i równość | i równość ma miejsce tylko jeśli <math>P \in \{0,1\}</math>, lub jeśli <math>q=q'</math> (czyli gdy <math>H(A)=1</math>).}} | ||
Wyliczymy teraz <math> C_{\Gamma }</math>. Wygodnie będzie nam używać notacji | Wyliczymy teraz <math> C_{\Gamma }</math>. Wygodnie będzie nam używać notacji | ||
:<math> H(s) = - s \log_2 s - (1-s) \log_2 (1-s) </math> | :<math> H(s) = - s \log_2 s - (1-s) \log_2 (1-s) </math> | ||
Linia 239: | Linia 239: | ||
::<math>= p(A = 0) \cdot \left( p (B = 0 | A = 0) \cdot \log \frac{1}{p (B = 0 | A = 0)} | ::<math>= p(A = 0) \cdot \left( p (B = 0 | A = 0) \cdot \log \frac{1}{p (B = 0 | A = 0)} | ||
+ p (B = 1 | A = 0) \cdot \log \frac{1}{p (B = 1 | A = 0)} \right) </math> | + p (B = 1 | A = 0) \cdot \log \frac{1}{p (B = 1 | A = 0)} \right) </math> | ||
::<math>+ p(A = 1) \cdot \left( p (B = 0 | A = 1) \cdot \log \frac{1}{p (B = 0 | A = 1)} + p (B = 1 | A = 1) \cdot \log \frac{1}{p (B = 1 | A = 1)} \right) </math> | ::<math>+ p(A = 1) \cdot \left( p (B = 0 | A = 1) \cdot \log \frac{1}{p (B = 0 | A = 1)} + p (B = 1 | A = 1) \cdot \log \frac{1}{p (B = 1 | A = 1)} \right) </math> | ||
::<math>= p(A = 0) \cdot \left( P \cdot \log \frac{1}{P} + \bar{P} \cdot \log \frac{1}{\bar{P}} \right) + p(A = 1) \cdot \left( \bar{P} \cdot \log \frac{1}{\bar{P}} + P \cdot \log \frac{1}{P} \right) </math> | ::<math>= p(A = 0) \cdot \left( P \cdot \log \frac{1}{P} + \bar{P} \cdot \log \frac{1}{\bar{P}} \right) + p(A = 1) \cdot \left( \bar{P} \cdot \log \frac{1}{\bar{P}} + P \cdot \log \frac{1}{P} \right) </math> | ||
::<math>= P \cdot \log \frac{1}{P} + \bar{P} \cdot \log \frac{1}{\bar{P}}</math> | ::<math>= P \cdot \log \frac{1}{P} + \bar{P} \cdot \log \frac{1}{\bar{P}}</math> | ||
::<math>= H(P) </math> | |||
A zatem <math>H(B|A)</math> nie zależy od A. | |||
Korzystając z powyższego wyliczenia rozkładu B, mamy | Korzystając z powyższego wyliczenia rozkładu B, mamy | ||
:<math> H(B)=H(qP+\bar{q}\bar{P})</math> | :<math> H(B)=H(qP+\bar{q}\bar{P})</math> | ||
Możemy teraz znaleźć rozkład A który maksymalizuję tę wartość (dla <math>q=\frac{1}{2}</math>), i otrzymujemy: | Możemy teraz znaleźć rozkład A który maksymalizuję tę wartość (dla <math>q=\frac{1}{2}</math>), i otrzymujemy: | ||
:<math>C_{\Gamma}= \max_{A} H(B) - H(B|A) = 1 - H(P)</math> | :<math>C_{\Gamma}= \max_{A} H(B) - H(B|A) = 1 - H(P)</math> |
Wersja z 08:26, 2 sie 2006
Kanały
Definicja [Kanał komunikacyjny]
- skończony zbiór symboli wejściowych
- skończony zbiór symboli wyjściowych
- mapowanie określające dla każdej pary (a,b) prawdopodobieństwo zamiany symbolu a na B, spełniające warunek:
Zmienne losowe A i B o wartościach odpowiednio z i stanowią parę wejście-wyjście dla kanału jeśli dla dowolnych
Kanał taki możemy zobrazować jako
Możemy od razu zauważyć że
A więc rozkład (A,B) jest jednoznacznie wyznaczony przez A (dla ustalonego . W szczególności odpowiednie B zawsze istnieje i jest zdefiniowane jako
Więdząc to, można bezpośrednio policzyć H(A,B), H(B|A), I(A;B) itp. (w zależności od i A).
Definicja [Przepustowość kanału]
(dla ustalenia uwagi, tutaj). Maksimum jest tutaj brane po wszystkich rozkładach zmiennej losowej A na . Istnieje ono zawsze, ponieważ I(A;B) jest ciągłym odwzorowaniem ze zbioru zwartego w , i dodatkowo ograniczonym ().
Jeśli i , to możemy kanał reprezentować jako macierz:
gdzie
W tej postaci wzór na rozkład zmiennej losowej B ma postać:
Przykłady
Poste kanały łatwo przestawiać jako dwudzielne grafy skierowane o wierzchołkach z i , i krawędziach etykietowanych przez (rysowanych o ile ).
Przykład [Wierny (bezszumowy) kanał]
Niech . Wierny kanał przekazuje informację bez przekłamań:
Macierz reprezentująca ten kanał to
Skoro A jest zawsze równe B, to , a więc przepustowość tego kanału jest równa
Przykład [Wierny kanał odwracający]
Kanał analogiczny do poprzedniego, ale odwracający wszystkie przekazywane bity:
Reprezentacja macierzowa ,
przepustowość
Przykład [Kanał zaszumiony bez nakładania]
Przykład [Wadliwa maszyna do pisania]
Niech (załóżmy 26 liter), i
- ,
Gdzie , , . . . , .
(wyobrażenie sobie reprezentacji grafowej i macierzowej zostawiamy czytelnikowi).
Aby obliczyć przepustowość, zacznijmy od obserwacji:
A skoro tak, to możemy łatwo policzyć przepustowość rozpisując ją następująco:
- .
Czytelnik być może już ma intuicyjne pojęcie przepustowości kanału jako konkretnej liczby, tak jak informacja lub entropia. Zadamy zatem kolejne pytanie: jakie kanały mają zerową przepustowość?
Złe kanały Aby uzyskać , musimy mieć I(A;B)=0 dla dowolnego rozkładu danych wejściowych, czyli pary A i B zawsze muszą być niezależne. Formalnie to wymaganie oznacza że , dla wszystkich . Przykładowymi złymi kanałami są:
Ostatni przykład przedstawia szczególnie bezużyteczny kanał, który na wyjściu zawsze daje taką samą wartość. W tym przypadku , co pokazuje że entropia może czasem maleć przy przesyłaniu wiadomości przez kanał. Najbardziej interesujące są jednak przypadki gdy ta entropia rośnie. Jednym z takich przypadków zajmiemy się teraz dokładniej:
Binarny kanał symetryczny (BSC)
W tym przypadku znów
Wprowadzając oznaczenie , macierz kanału możemy zapisać jako:
Fakt
Ponadto równości zachodzi wyłącznie jeśli (czyli kanał jest wierny lub wierny-odwracający), lub jeśli H(A)=1 (czyli entropia A jest maksymalna).
Dowód
Wprowadźmy oznaczenie . Wtedy
Przypominamy naszą konwencję , i oznaczamy przez h funkcję
Dla . Łatwo możemy policzyć (dla ):
Zatem na podstawie lematu o funkcjach wypukłych, funkcja jest ściśle wypukła na przedziale , a więc wypukła jest też funkcja
Korzystając teraz z faktu że zdefiniowane wyżej r jest kombinacją liniową q i (kontretnie ), a , otrzymujemy

Wyliczymy teraz . Wygodnie będzie nam używać notacji
(co interpretujemy jako entropię zmiennej binarnej o prawdopodobieństwach s i 1-s).
Z definicji entropii warunkowej dostajemy:
A zatem nie zależy od A.
Korzystając z powyższego wyliczenia rozkładu B, mamy
Możemy teraz znaleźć rozkład A który maksymalizuję tę wartość (dla ), i otrzymujemy: