Teoria informacji/TI Wykład 7: Różnice pomiędzy wersjami

Wersja z 12:54, 19 wrz 2006

Kanały

Definicja [Kanał komunikacyjny]

Kanałem komunikacyjnym

Γ

nazywamy trójkę:

skończony zbiór $𝒜$ symboli wejściowych
skończony zbiór $ℬ$ symboli wyjściowych
mapowanie $𝒜 \times ℬ \to [0, 1]$ określające dla każdej pary (a,b) prawdopodobieństwo $P (a \to b)$ zamiany symbolu a na B, spełniające warunek:

\forall_{a \in 𝒜} \sum_{b \in ℬ} P (a \to b) = 1

Zmienne losowe A i B o wartościach odpowiednio z $𝒜$ i $ℬ$ stanowią parę wejście-wyjście dla kanału $Γ$ , jeśli dla dowolnych $a \in 𝒜, b \in ℬ$

p (B = b | A = a) = P (a \to b)

Kanał taki możemy zobrazować jako

A \to

\to B

Możemy od razu zauważyć, że

p (A = a \land B = b) = P (a \to b) \cdot p (A = a)

A więc rozkład (A,B) jest jednoznacznie wyznaczony przez A (dla ustalonego $Γ$ ). W szczególności odpowiednie B zawsze istnieje i jest zdefiniowane jako $p (B = b) = \sum_{a \in 𝒜} P (a \to b) \cdot p (A = a)$

Wiedząc to, można bezpośrednio policzyć $H (A, B)$ , $H (B | A)$ , $I (A; B)$ itp. (w zależności od $Γ$ i A).

Definicja [Przepustowość kanału]

Przepustowość kanału komunikacyjnego definiujemy jako

C_{Γ} = \max_{A} I (A; B)

(dla ustalenia uwagi, tutaj $I = I_{2}$ ). Maksimum jest tutaj brane po wszystkich rozkładach zmiennej losowej A na $𝒜$ . Istnieje ono zawsze, ponieważ $I (A; B)$ jest ciągłym odwzorowaniem ze zbioru zwartego ${p \in [0, 1]^{𝒜} : \sum_{a \in 𝒜} p (a) = 1}$ w $ℝ$ i dodatkowo ograniczonym ( $I (A; B) \leq H (A) \leq \log | 𝒜 |$ ).

Jeśli $𝒜 = {a_{1}, \dots, a_{m}}$ i $ℬ = {b_{1}, \dots, b_{n}}$ , to możemy kanał reprezentować jako macierz :

(\begin{matrix} P_{11} & \dots & P_{1 n} \\ \dots & \dots & \dots \\ P_{m 1} & \dots & P_{m n} \end{matrix})

gdzie $P_{i j} = p (a_{i} \to b_{j})$

W tej postaci wzór na rozkład zmiennej losowej B ma postać:

(p (a_{1}), \dots, p (a_{m})) \cdot (\begin{matrix} P_{11} & \dots & P_{1 n} \\ \dots & \dots & \dots \\ P_{m 1} & \dots & P_{m n}, \end{matrix}) = (p (b_{1}), \dots, p (b_{n}))

Przykłady

Proste kanały łatwo przedstawiać jako dwudzielne grafy skierowane o wierzchołkach z $𝒜$ i $ℬ$ oraz krawędziach $a \to b$ etykietowanych przez $P (a \to b)$ (rysowanych o ile $P (a \to b) > 0$ ).

Przykład [Wierny (bezszumowy) kanał]

Niech $𝒜 = ℬ = {0, 1}$ . Wierny kanał przekazuje informację bez przekłamań:

Macierz reprezentująca ten kanał to

(\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix})

Skoro A jest zawsze równe B, to $I (A; B) = H (A)$ , a więc przepustowość tego kanału jest równa

C_{Γ} = \max_{A} I (A; B) = \max_{A} H (A) = \log_{2} | 𝒜 | = 1

Przykład [Wierny kanał odwracający]

Kanał analogiczny do poprzedniego, ale odwracający wszystkie przekazywane bity:

Reprezentacja macierzowa to

(\begin{matrix} 0 & 1 \\ 1 & 0 \end{matrix})

przepustowość tak jak w poprzednim przykładzie

C_{Γ} = 1

Przykład [Kanał zaszumiony bez nakładania]

$𝒜 = {0, 1}, ℬ = {0, 1, 2, 3}$

Macierz ma postać:

(\begin{matrix} \frac{1}{2} & \frac{1}{2} & 0 & 0 \\ 0 & 0 & \frac{1}{3} & \frac{2}{3} \end{matrix})

Jak widać, A jest tutaj funkcją B, a więc $I (A; B) = H (A) - H (A | B) = H (A)$ .

Czyli znów

C_{Γ} = 1

Przykład [Wadliwa maszyna do pisania]

Niech $𝒜 = ℬ = {a, b, \dots z}$ (załóżmy 26 liter), i

p (α \to α) = p (α \to n e x t (α)) = \frac{1}{2}

gdzie $n e x t (a) = b$ , $n e x t (b) = c$ , . . . $n e x t (y) = z$ , $n e x t (z) = a$ .

(wyobrażenie sobie reprezentacji grafowej i macierzowej zostawiamy czytelnikowi).

Aby obliczyć przepustowość, zacznijmy od obserwacji:

H (B | α) = p (α | α) \cdot \log \frac{1}{p (α | α)} + p (n e x t (α) | α) \cdot \log \frac{1}{p (n e x t (α) | α)} = (\frac{1}{2} + \frac{1}{2}) \cdot \log_{2} = 1

Skoro tak, możemy łatwo policzyć przepustowość rozpisując ją następująco:

C_{Γ} = \max_{A} I (A; B) = \max_{A} H (B) - \underset{= 1}{\underset{⏟}{H (B | A)}} = \log 26 - 1 = \log 13

(ponieważ możemy uzyskać maksymalną entropię B, np. dla jednostajnego rozkładu prawdopodobieństwa na A).

Czytelnik być może już ma intuicyjne pojęcie przepustowości kanału jako konkretnej liczby, tak jak informacja lub entropia. Zadamy zatem kolejne pytanie: jakie kanały mają zerową przepustowość?

Złe kanały Aby uzyskać $C_{Γ} = 0$ , musimy mieć I(A;B)=0 dla dowolnego rozkładu danych wejściowych, czyli pary A i B zawsze muszą być niezależne. Formalnie to wymaganie oznacza, że $p (B = b | A = a) = p (B = b)$ , dla wszystkich $a \in 𝒜, b \in ℬ$ . Przykładowymi złymi kanałami są:

$(\begin{matrix} \frac{1}{2} & \frac{1}{2} \\ \frac{1}{2} & \frac{1}{2} \end{matrix})$

$(\begin{matrix} \frac{1}{2} & 0 & \frac{1}{6} & \frac{1}{3} \\ \frac{1}{2} & 0 & \frac{1}{6} & \frac{1}{3} \end{matrix})$

$(\begin{matrix} 0 & 0 & 1 \\ 0 & 0 & 1 \\ 0 & 0 & 1 \end{matrix})$

Ostatni przykład przedstawia szczególnie bezużyteczny kanał, który na wyjściu zawsze daje taką samą wartość. W tym przypadku $H (B) = 0$ , co pokazuje, że entropia może czasem maleć przy przesyłaniu wiadomości przez kanał. Najbardziej interesujące są jednak przypadki, gdy ta entropia rośnie. Jednym z takich przypadków zajmiemy się teraz dokładniej:

Binarny kanał symetryczny (BSC)

W tym przypadku znów $𝒜 = ℬ = {0, 1}$

Wprowadzając oznaczenie $\bar{P} = 1 - P$ , macierz kanału możemy zapisać jako:

(\begin{matrix} P & \bar{P} \\ \bar{P} & P \end{matrix})

Fakt

Jeśli (A,B) jest parą wejście-wyjście dla BSC, to

H (B) \geq H (A)

Ponadto równość zachodzi wyłącznie jeśli $P \in {0, 1}$ (czyli kanał jest wierny lub wierny-odwracający) lub jeśli H(A)=1 (czyli entropia A jest maksymalna).

Dowód

Niech

q = p (A = 0)

. Wtedy

p (A = 1) = \bar{q}

, i możemy wyznaczyć rozkład B z formuły:

(q, \bar{q}) \cdot (\begin{matrix} P & \bar{P} \\ \bar{P} & P \end{matrix}) = (\underset{p (B = 0)}{\underset{⏟}{q P + \bar{q} \bar{P}}}, \underset{p (B = 1)}{\underset{⏟}{q \bar{P} + \bar{q} P}})

Wprowadźmy oznaczenie $r = p (B = 0)$ . Wtedy

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned H(A)& =-q \log q - \bar{q} \log \bar{q}\\ H(B)& =-r \log r - \bar{r} \log \bar{r} \endaligned }

Przypominamy naszą konwencję $0 \log_{r} 0 = 0 \log_{r} \frac{1}{0} = 0$ i oznaczamy przez h funkcję

h (x) = x \ln x + (1 - x) \ln (1 - x)

Dla $0 \leq x \leq 1$ . Łatwo możemy policzyć (dla $0 < x < 1$ ):

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned h'(x)& =1+\ln x -1 -\ln (1-x)\\ h''(x)&=\frac{1}{x}+\frac{1}{1-x} > 0 \endaligned }

Zatem na podstawie lematu o funkcjach wypukłych funkcja $h (x)$ jest ściśle wypukła na przedziale $[0, 1]$ , a więc wypukła jest też funkcja

\log_{2} e \cdot h (x) = x \log_{2} x + (1 - x) \log_{2} (1 - x)

Korzystając teraz z faktu, że zdefiniowane wyżej r jest kombinacją liniową q i $\bar{q}$ (kontretnie $r = P q + (1 - P) \bar{q}$ ), a $h (q) = h (\bar{q})$ , otrzymujemy

q \log q + \bar{q} \log \bar{q} \geq r \log r + \bar{r} \log \bar{r}

H (A) \leq H (B)

i równość ma miejsce tylko jeśli

P \in {0, 1}

lub jeśli

q = q^{'}

(czyli gdy

H (A) = 1

).

Wyliczymy teraz $C_{Γ}$ . Wygodnie będzie nam używać notacji

H (s) = - s \log_{2} s - (1 - s) \log_{2} (1 - s)

(co interpretujemy jako entropię zmiennej binarnej o prawdopodobieństwach s i 1-s).

Funkcja ta przyjmuje maksimum równe $1$ dla $s = \frac{1}{2}$ . Jej wykres wygląda następująco:

Z definicji entropii warunkowej dostajemy:

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned H (B |A)& = p(A = 0) \cdot \left( p (B = 0 | A = 0) \cdot \log \frac{1}{p (B = 0 | A = 0)} + p (B = 1 | A = 0) \cdot \log \frac{1}{p (B = 1 | A = 0)} \right)\\ & + p(A = 1) \cdot \left( p (B = 0 | A = 1) \cdot \log \frac{1}{p (B = 0 | A = 1)} + p (B = 1 | A = 1) \cdot \log \frac{1}{p (B = 1 | A = 1)} \right)\\ & = p(A = 0) \cdot \left( P \cdot \log \frac{1}{P} + \bar{P} \cdot \log \frac{1}{\bar{P}} \right) + p(A = 1) \cdot \left( \bar{P} \cdot \log \frac{1}{\bar{P}} + P \cdot \log \frac{1}{P} \right)\\ & = P \cdot \log \frac{1}{P} + \bar{P} \cdot \log \frac{1}{\bar{P}}\\ & = H(P) \endaligned }

A zatem $H (B | A)$ nie zależy od A.

Korzystając z powyższego wyliczenia rozkładu B, mamy

H (B) = H (q P + \bar{q} \bar{P})

Możemy teraz znaleźć rozkład A, który maksymalizuje tę wartość (dla $q = \frac{1}{2}$ ), i otrzymujemy:

C_{Γ} = \max_{A} H (B) - H (B | A) = 1 - H (P)

@@ Linia 9: / Linia 9: @@
-Zmienne losowe A i B o wartościach odpowiednio z <math>\mathcal{A}</math> i <math>\mathcal{B}</math> stanowią parę ''wejście-wyjście'' dla kanału <math>\Gamma</math> jeśli dla dowolnych <math>a \in \mathcal{A},b \in \mathcal{B}</math>
+Zmienne losowe A i B o wartościach odpowiednio z <math>\mathcal{A}</math> i <math>\mathcal{B}</math> stanowią parę ''wejście-wyjście'' dla kanału <math>\Gamma</math>, jeśli dla dowolnych <math>a \in \mathcal{A},b \in \mathcal{B}</math>
 <center><math>p (B = b | A = a) = P (a \to b)</math></center>
@@ Linia 17: / Linia 17: @@
-Możemy od razu zauważyć że
+Możemy od razu zauważyć, że
 <center><math>p ( A = a \, \wedge \, B = b)  = P (a \to b) \cdot p ( A = a )</math></center>
 A więc rozkład (A,B) jest jednoznacznie wyznaczony przez A (dla ustalonego <math>\Gamma</math>). W szczególności odpowiednie B zawsze istnieje i jest zdefiniowane jako <math>p (B = b)  = \sum_{a \in {\mathcal A}} P (a \to b) \cdot p ( A = a )</math>
-Więdząc to, można bezpośrednio policzyć <math>H(A,B)</math>, <math>H(B|A)</math>, <math>I(A;B)</math> itp. (w zależności od <math>\Gamma</math> i A).
+Wiedząc to, można bezpośrednio policzyć <math>H(A,B)</math>, <math>H(B|A)</math>, <math>I(A;B)</math> itp. (w zależności od <math>\Gamma</math> i A).
@@ Linia 28: / Linia 28: @@
 <center><math>C_{\Gamma } = \max_{A} I (A;B)</math></center>}}
-(dla ustalenia uwagi, tutaj<math>I=I_2</math>). Maksimum jest tutaj brane po wszystkich rozkładach zmiennej losowej A na <math>\mathcal{A}</math>. Istnieje ono zawsze, ponieważ <math>I(A;B)</math> jest ciągłym odwzorowaniem ze zbioru zwartego <math>\{ p \in [0,1]^{{\mathcal A}} : \sum_{a \in {\mathcal A}} p(a) = 1 \}</math> w <math>\mathbb{R}</math>, i dodatkowo ograniczonym (<math>I(A;B) \le H(A) \le \log|\mathcal{A}|</math>).
+(dla ustalenia uwagi, tutaj<math>I=I_2</math>). Maksimum jest tutaj brane po wszystkich rozkładach zmiennej losowej A na <math>\mathcal{A}</math>. Istnieje ono zawsze, ponieważ <math>I(A;B)</math> jest ciągłym odwzorowaniem ze zbioru zwartego <math>\{ p \in [0,1]^{{\mathcal A}} : \sum_{a \in {\mathcal A}} p(a) = 1 \}</math> w <math>\mathbb{R}</math> i dodatkowo ograniczonym (<math>I(A;B) \le H(A) \le \log|\mathcal{A}|</math>).
 Jeśli <math>\mathcal{A}= \{ a_1, \ldots , a_m \}</math> i <math>\mathcal{B}= \{ b_1, \ldots , b_n \}</math>, to możemy kanał reprezentować jako macierz {{kotwica|macierz_kanału|}}:
@@ Linia 59: / Linia 59: @@
 ===Przykłady===
-Proste kanały łatwo przedstawiać jako dwudzielne grafy skierowane o wierzchołkach z <math>\mathcal{A}</math> i <math>\mathcal{B}</math>, i krawędziach <math>a \to b</math> etykietowanych przez <math>P(a \to b)</math>
+Proste kanały łatwo przedstawiać jako dwudzielne grafy skierowane o wierzchołkach z <math>\mathcal{A}</math> i <math>\mathcal{B}</math> oraz krawędziach <math>a \to b</math> etykietowanych przez <math>P(a \to b)</math>
 (rysowanych o ile <math>P(a \to b) > 0</math>).
@@ Linia 129: / Linia 129: @@
 <center><math>H(B | \alpha ) = p ( \alpha | \alpha ) \cdot \log \frac{1}{p ( \alpha | \alpha )} + p ( \mathit{next} ( \alpha )| \alpha ) \cdot \log \frac{1}{p ( \mathit{next} (\alpha )| \alpha )} = (\frac{1}{2} + \frac{1}{2}) \cdot \log_ 2 = 1</math></center>
-A skoro tak, to możemy łatwo policzyć przepustowość rozpisując ją następująco:
+Skoro tak, możemy łatwo policzyć przepustowość rozpisując ją następująco:
 <center><math>C_{\Gamma } = \max_{A} I(A;B) = \max_{A} H(B) - \underbrace{H(B|A)}_{=1} = \log 26  - 1 = \log 13</math></center>
 (ponieważ możemy uzyskać maksymalną entropię B, np. dla jednostajnego rozkładu prawdopodobieństwa na A).}}
@@ Linia 137: / Linia 137: @@
-'''Złe kanały''' Aby uzyskać <math> C_{\Gamma } = 0</math>, musimy mieć I(A;B)=0 dla dowolnego rozkładu danych wejściowych, czyli pary A i B zawsze muszą być niezależne. Formalnie to wymaganie oznacza że <math>p(B=b|A=a)=p(B=b)</math>, dla wszystkich <math>a \in \mathcal{A}, b \in \mathcal{B}</math>. Przykładowymi złymi kanałami są:
+'''Złe kanały''' Aby uzyskać <math> C_{\Gamma } = 0</math>, musimy mieć I(A;B)=0 dla dowolnego rozkładu danych wejściowych, czyli pary A i B zawsze muszą być niezależne. Formalnie to wymaganie oznacza, że <math>p(B=b|A=a)=p(B=b)</math>, dla wszystkich <math>a \in \mathcal{A}, b \in \mathcal{B}</math>. Przykładowymi złymi kanałami są:
 <math>\left(
@@ Linia 164: / Linia 164: @@
 </math>
-Ostatni przykład przedstawia szczególnie bezużyteczny kanał, który na wyjściu zawsze daje taką samą wartość. W tym przypadku <math>H(B)=0</math>, co pokazuje że entropia może czasem maleć przy przesyłaniu wiadomości przez kanał. Najbardziej interesujące są jednak przypadki gdy ta entropia rośnie. Jednym z takich przypadków zajmiemy się teraz dokładniej:
+Ostatni przykład przedstawia szczególnie bezużyteczny kanał, który na wyjściu zawsze daje taką samą wartość. W tym przypadku <math>H(B)=0</math>, co pokazuje, że entropia może czasem maleć przy przesyłaniu wiadomości przez kanał. Najbardziej interesujące są jednak przypadki, gdy ta entropia rośnie. Jednym z takich przypadków zajmiemy się teraz dokładniej:
@@ Linia 187: / Linia 187: @@
 <center><math> H(B) \ge H(A) </math></center>}}
-Ponadto równości zachodzi wyłącznie jeśli <math>P \in \{0,1\}</math> (czyli kanał jest wierny lub wierny-odwracający), lub jeśli H(A)=1 (czyli entropia A jest maksymalna).
+Ponadto równość zachodzi wyłącznie jeśli <math>P \in \{0,1\}</math> (czyli kanał jest wierny lub wierny-odwracający) lub jeśli H(A)=1 (czyli entropia A jest maksymalna).
 {{dowod|||Niech <math>q=p(A=0)</math>. Wtedy <math>p(A=1)=\bar{q}</math>, i możemy wyznaczyć rozkład B z formuły:
@@ Linia 210: / Linia 210: @@
 </math></center>
-Przypominamy naszą [[Teoria informacji/TI Wykład 2#konwencja_log|konwencję]] <math>0 \log_r 0 = 0 \log_r \frac{1}{0} = 0</math>, i oznaczamy przez h funkcję
+Przypominamy naszą [[Teoria informacji/TI Wykład 2#konwencja_log|konwencję]] <math>0 \log_r 0 = 0 \log_r \frac{1}{0} = 0</math> i oznaczamy przez h funkcję
 <center><math>h(x)=x \ln x + (1-x) \ln (1-x) </math></center>
@@ Linia 220: / Linia 220: @@
 </math></center>
-Zatem na podstawie [[Teoria informacji/TI Wykład 2#do_wypukłej|lematu o funkcjach wypukłych]], funkcja <math>h(x)</math> jest ściśle wypukła na przedziale <math>[0,1]</math>, a więc wypukła jest też funkcja
+Zatem na podstawie [[Teoria informacji/TI Wykład 2#do_wypukłej|lematu o funkcjach wypukłych]] funkcja <math>h(x)</math> jest ściśle wypukła na przedziale <math>[0,1]</math>, a więc wypukła jest też funkcja
 <center><math>\log_2 e \cdot h(x) = x \log_2 x + (1-x) \log_2 (1-x)</math></center>
-Korzystając teraz z faktu że zdefiniowane wyżej r jest kombinacją liniową q i <math>\bar{q}</math> (kontretnie
+Korzystając teraz z faktu, że zdefiniowane wyżej r jest kombinacją liniową q i <math>\bar{q}</math> (kontretnie
 <math>r=Pq+(1-P)\bar{q}</math>), a <math>h(q)=h(\bar{q})</math>, otrzymujemy
@@ Linia 231: / Linia 231: @@
 <center><math> H(A) \le H(B)</math></center>
-i równość ma miejsce tylko jeśli <math>P \in \{0,1\}</math>, lub jeśli <math>q=q'</math> (czyli gdy <math>H(A)=1</math>).}}
+i równość ma miejsce tylko jeśli <math>P \in \{0,1\}</math> lub jeśli <math>q=q'</math> (czyli gdy <math>H(A)=1</math>).}}
@@ Linia 260: / Linia 260: @@
 <center><math> H(B)=H(qP+\bar{q}\bar{P})</math></center>
-Możemy teraz znaleźć rozkład A który maksymalizuję tę wartość (dla <math>q=\frac{1}{2}</math>), i otrzymujemy:
+Możemy teraz znaleźć rozkład A, który maksymalizuje tę wartość (dla <math>q=\frac{1}{2}</math>), i otrzymujemy:
 <center><math>C_{\Gamma}= \max_{A} H(B) - H(B|A) = 1 - H(P)</math></center>

Teoria informacji/TI Wykład 7: Różnice pomiędzy wersjami

Wersja z 12:54, 19 wrz 2006

Kanały

Przykłady

Binarny kanał symetryczny (BSC)

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia