Teoria informacji/TI Wykład 7: Różnice pomiędzy wersjami
Nie podano opisu zmian |
Nie podano opisu zmian |
||
Linia 9: | Linia 9: | ||
Zmienne losowe A i B o wartościach odpowiednio z <math>\mathcal{A}</math> i <math>\mathcal{B}</math> stanowią parę ''wejście-wyjście'' dla kanału <math>\Gamma</math> jeśli dla dowolnych <math>a \in \mathcal{A},b \in \mathcal{B}</math> | Zmienne losowe A i B o wartościach odpowiednio z <math>\mathcal{A}</math> i <math>\mathcal{B}</math> stanowią parę ''wejście-wyjście'' dla kanału <math>\Gamma</math>, jeśli dla dowolnych <math>a \in \mathcal{A},b \in \mathcal{B}</math> | ||
<center><math>p (B = b | A = a) = P (a \to b)</math></center> | <center><math>p (B = b | A = a) = P (a \to b)</math></center> | ||
Linia 17: | Linia 17: | ||
Możemy od razu zauważyć że | Możemy od razu zauważyć, że | ||
<center><math>p ( A = a \, \wedge \, B = b) = P (a \to b) \cdot p ( A = a )</math></center> | <center><math>p ( A = a \, \wedge \, B = b) = P (a \to b) \cdot p ( A = a )</math></center> | ||
A więc rozkład (A,B) jest jednoznacznie wyznaczony przez A (dla ustalonego <math>\Gamma</math>). W szczególności odpowiednie B zawsze istnieje i jest zdefiniowane jako <math>p (B = b) = \sum_{a \in {\mathcal A}} P (a \to b) \cdot p ( A = a )</math> | A więc rozkład (A,B) jest jednoznacznie wyznaczony przez A (dla ustalonego <math>\Gamma</math>). W szczególności odpowiednie B zawsze istnieje i jest zdefiniowane jako <math>p (B = b) = \sum_{a \in {\mathcal A}} P (a \to b) \cdot p ( A = a )</math> | ||
Wiedząc to, można bezpośrednio policzyć <math>H(A,B)</math>, <math>H(B|A)</math>, <math>I(A;B)</math> itp. (w zależności od <math>\Gamma</math> i A). | |||
Linia 28: | Linia 28: | ||
<center><math>C_{\Gamma } = \max_{A} I (A;B)</math></center>}} | <center><math>C_{\Gamma } = \max_{A} I (A;B)</math></center>}} | ||
(dla ustalenia uwagi, tutaj<math>I=I_2</math>). Maksimum jest tutaj brane po wszystkich rozkładach zmiennej losowej A na <math>\mathcal{A}</math>. Istnieje ono zawsze, ponieważ <math>I(A;B)</math> jest ciągłym odwzorowaniem ze zbioru zwartego <math>\{ p \in [0,1]^{{\mathcal A}} : \sum_{a \in {\mathcal A}} p(a) = 1 \}</math> w <math>\mathbb{R}</math> | (dla ustalenia uwagi, tutaj<math>I=I_2</math>). Maksimum jest tutaj brane po wszystkich rozkładach zmiennej losowej A na <math>\mathcal{A}</math>. Istnieje ono zawsze, ponieważ <math>I(A;B)</math> jest ciągłym odwzorowaniem ze zbioru zwartego <math>\{ p \in [0,1]^{{\mathcal A}} : \sum_{a \in {\mathcal A}} p(a) = 1 \}</math> w <math>\mathbb{R}</math> i dodatkowo ograniczonym (<math>I(A;B) \le H(A) \le \log|\mathcal{A}|</math>). | ||
Jeśli <math>\mathcal{A}= \{ a_1, \ldots , a_m \}</math> i <math>\mathcal{B}= \{ b_1, \ldots , b_n \}</math>, to możemy kanał reprezentować jako macierz {{kotwica|macierz_kanału|}}: | Jeśli <math>\mathcal{A}= \{ a_1, \ldots , a_m \}</math> i <math>\mathcal{B}= \{ b_1, \ldots , b_n \}</math>, to możemy kanał reprezentować jako macierz {{kotwica|macierz_kanału|}}: | ||
Linia 59: | Linia 59: | ||
===Przykłady=== | ===Przykłady=== | ||
Proste kanały łatwo przedstawiać jako dwudzielne grafy skierowane o wierzchołkach z <math>\mathcal{A}</math> i <math>\mathcal{B}</math> | Proste kanały łatwo przedstawiać jako dwudzielne grafy skierowane o wierzchołkach z <math>\mathcal{A}</math> i <math>\mathcal{B}</math> oraz krawędziach <math>a \to b</math> etykietowanych przez <math>P(a \to b)</math> | ||
(rysowanych o ile <math>P(a \to b) > 0</math>). | (rysowanych o ile <math>P(a \to b) > 0</math>). | ||
Linia 129: | Linia 129: | ||
<center><math>H(B | \alpha ) = p ( \alpha | \alpha ) \cdot \log \frac{1}{p ( \alpha | \alpha )} + p ( \mathit{next} ( \alpha )| \alpha ) \cdot \log \frac{1}{p ( \mathit{next} (\alpha )| \alpha )} = (\frac{1}{2} + \frac{1}{2}) \cdot \log_ 2 = 1</math></center> | <center><math>H(B | \alpha ) = p ( \alpha | \alpha ) \cdot \log \frac{1}{p ( \alpha | \alpha )} + p ( \mathit{next} ( \alpha )| \alpha ) \cdot \log \frac{1}{p ( \mathit{next} (\alpha )| \alpha )} = (\frac{1}{2} + \frac{1}{2}) \cdot \log_ 2 = 1</math></center> | ||
Skoro tak, możemy łatwo policzyć przepustowość rozpisując ją następująco: | |||
<center><math>C_{\Gamma } = \max_{A} I(A;B) = \max_{A} H(B) - \underbrace{H(B|A)}_{=1} = \log 26 - 1 = \log 13</math></center> | <center><math>C_{\Gamma } = \max_{A} I(A;B) = \max_{A} H(B) - \underbrace{H(B|A)}_{=1} = \log 26 - 1 = \log 13</math></center> | ||
(ponieważ możemy uzyskać maksymalną entropię B, np. dla jednostajnego rozkładu prawdopodobieństwa na A).}} | (ponieważ możemy uzyskać maksymalną entropię B, np. dla jednostajnego rozkładu prawdopodobieństwa na A).}} | ||
Linia 137: | Linia 137: | ||
'''Złe kanały''' Aby uzyskać <math> C_{\Gamma } = 0</math>, musimy mieć I(A;B)=0 dla dowolnego rozkładu danych wejściowych, czyli pary A i B zawsze muszą być niezależne. Formalnie to wymaganie oznacza że <math>p(B=b|A=a)=p(B=b)</math>, dla wszystkich <math>a \in \mathcal{A}, b \in \mathcal{B}</math>. Przykładowymi złymi kanałami są: | '''Złe kanały''' Aby uzyskać <math> C_{\Gamma } = 0</math>, musimy mieć I(A;B)=0 dla dowolnego rozkładu danych wejściowych, czyli pary A i B zawsze muszą być niezależne. Formalnie to wymaganie oznacza, że <math>p(B=b|A=a)=p(B=b)</math>, dla wszystkich <math>a \in \mathcal{A}, b \in \mathcal{B}</math>. Przykładowymi złymi kanałami są: | ||
<math>\left( | <math>\left( | ||
Linia 164: | Linia 164: | ||
</math> | </math> | ||
Ostatni przykład przedstawia szczególnie bezużyteczny kanał, który na wyjściu zawsze daje taką samą wartość. W tym przypadku <math>H(B)=0</math>, co pokazuje że entropia może czasem maleć przy przesyłaniu wiadomości przez kanał. Najbardziej interesujące są jednak przypadki gdy ta entropia rośnie. Jednym z takich przypadków zajmiemy się teraz dokładniej: | Ostatni przykład przedstawia szczególnie bezużyteczny kanał, który na wyjściu zawsze daje taką samą wartość. W tym przypadku <math>H(B)=0</math>, co pokazuje, że entropia może czasem maleć przy przesyłaniu wiadomości przez kanał. Najbardziej interesujące są jednak przypadki, gdy ta entropia rośnie. Jednym z takich przypadków zajmiemy się teraz dokładniej: | ||
Linia 187: | Linia 187: | ||
<center><math> H(B) \ge H(A) </math></center>}} | <center><math> H(B) \ge H(A) </math></center>}} | ||
Ponadto | Ponadto równość zachodzi wyłącznie jeśli <math>P \in \{0,1\}</math> (czyli kanał jest wierny lub wierny-odwracający) lub jeśli H(A)=1 (czyli entropia A jest maksymalna). | ||
{{dowod|||Niech <math>q=p(A=0)</math>. Wtedy <math>p(A=1)=\bar{q}</math>, i możemy wyznaczyć rozkład B z formuły: | {{dowod|||Niech <math>q=p(A=0)</math>. Wtedy <math>p(A=1)=\bar{q}</math>, i możemy wyznaczyć rozkład B z formuły: | ||
Linia 210: | Linia 210: | ||
</math></center> | </math></center> | ||
Przypominamy naszą [[Teoria informacji/TI Wykład 2#konwencja_log|konwencję]] <math>0 \log_r 0 = 0 \log_r \frac{1}{0} = 0</math> | Przypominamy naszą [[Teoria informacji/TI Wykład 2#konwencja_log|konwencję]] <math>0 \log_r 0 = 0 \log_r \frac{1}{0} = 0</math> i oznaczamy przez h funkcję | ||
<center><math>h(x)=x \ln x + (1-x) \ln (1-x) </math></center> | <center><math>h(x)=x \ln x + (1-x) \ln (1-x) </math></center> | ||
Linia 220: | Linia 220: | ||
</math></center> | </math></center> | ||
Zatem na podstawie [[Teoria informacji/TI Wykład 2#do_wypukłej|lematu o funkcjach wypukłych]] | Zatem na podstawie [[Teoria informacji/TI Wykład 2#do_wypukłej|lematu o funkcjach wypukłych]] funkcja <math>h(x)</math> jest ściśle wypukła na przedziale <math>[0,1]</math>, a więc wypukła jest też funkcja | ||
<center><math>\log_2 e \cdot h(x) = x \log_2 x + (1-x) \log_2 (1-x)</math></center> | <center><math>\log_2 e \cdot h(x) = x \log_2 x + (1-x) \log_2 (1-x)</math></center> | ||
Korzystając teraz z faktu że zdefiniowane wyżej r jest kombinacją liniową q i <math>\bar{q}</math> (kontretnie | Korzystając teraz z faktu, że zdefiniowane wyżej r jest kombinacją liniową q i <math>\bar{q}</math> (kontretnie | ||
<math>r=Pq+(1-P)\bar{q}</math>), a <math>h(q)=h(\bar{q})</math>, otrzymujemy | <math>r=Pq+(1-P)\bar{q}</math>), a <math>h(q)=h(\bar{q})</math>, otrzymujemy | ||
Linia 231: | Linia 231: | ||
<center><math> H(A) \le H(B)</math></center> | <center><math> H(A) \le H(B)</math></center> | ||
i równość ma miejsce tylko jeśli <math>P \in \{0,1\}</math> | i równość ma miejsce tylko jeśli <math>P \in \{0,1\}</math> lub jeśli <math>q=q'</math> (czyli gdy <math>H(A)=1</math>).}} | ||
Linia 260: | Linia 260: | ||
<center><math> H(B)=H(qP+\bar{q}\bar{P})</math></center> | <center><math> H(B)=H(qP+\bar{q}\bar{P})</math></center> | ||
Możemy teraz znaleźć rozkład A który | Możemy teraz znaleźć rozkład A, który maksymalizuje tę wartość (dla <math>q=\frac{1}{2}</math>), i otrzymujemy: | ||
<center><math>C_{\Gamma}= \max_{A} H(B) - H(B|A) = 1 - H(P)</math></center> | <center><math>C_{\Gamma}= \max_{A} H(B) - H(B|A) = 1 - H(P)</math></center> |
Wersja z 12:54, 19 wrz 2006
Kanały
Definicja [Kanał komunikacyjny]
- skończony zbiór symboli wejściowych
- skończony zbiór symboli wyjściowych
- mapowanie określające dla każdej pary (a,b) prawdopodobieństwo zamiany symbolu a na B, spełniające warunek:
Zmienne losowe A i B o wartościach odpowiednio z i stanowią parę wejście-wyjście dla kanału , jeśli dla dowolnych
Kanał taki możemy zobrazować jako
Możemy od razu zauważyć, że
A więc rozkład (A,B) jest jednoznacznie wyznaczony przez A (dla ustalonego ). W szczególności odpowiednie B zawsze istnieje i jest zdefiniowane jako
Wiedząc to, można bezpośrednio policzyć , , itp. (w zależności od i A).
Definicja [Przepustowość kanału]
(dla ustalenia uwagi, tutaj). Maksimum jest tutaj brane po wszystkich rozkładach zmiennej losowej A na . Istnieje ono zawsze, ponieważ jest ciągłym odwzorowaniem ze zbioru zwartego w i dodatkowo ograniczonym ().
Jeśli i , to możemy kanał reprezentować jako macierz :
gdzie
W tej postaci wzór na rozkład zmiennej losowej B ma postać:
Przykłady
Proste kanały łatwo przedstawiać jako dwudzielne grafy skierowane o wierzchołkach z i oraz krawędziach etykietowanych przez (rysowanych o ile ).
Przykład [Wierny (bezszumowy) kanał]
Niech . Wierny kanał przekazuje informację bez przekłamań:
Macierz reprezentująca ten kanał to
Skoro A jest zawsze równe B, to , a więc przepustowość tego kanału jest równa
Przykład [Wierny kanał odwracający]
Kanał analogiczny do poprzedniego, ale odwracający wszystkie przekazywane bity:
Reprezentacja macierzowa to
Przykład [Kanał zaszumiony bez nakładania]
Przykład [Wadliwa maszyna do pisania]
Niech (załóżmy 26 liter), i
gdzie , , . . . , .
(wyobrażenie sobie reprezentacji grafowej i macierzowej zostawiamy czytelnikowi).
Aby obliczyć przepustowość, zacznijmy od obserwacji:
Skoro tak, możemy łatwo policzyć przepustowość rozpisując ją następująco:
Czytelnik być może już ma intuicyjne pojęcie przepustowości kanału jako konkretnej liczby, tak jak informacja lub entropia. Zadamy zatem kolejne pytanie: jakie kanały mają zerową przepustowość?
Złe kanały Aby uzyskać , musimy mieć I(A;B)=0 dla dowolnego rozkładu danych wejściowych, czyli pary A i B zawsze muszą być niezależne. Formalnie to wymaganie oznacza, że , dla wszystkich . Przykładowymi złymi kanałami są:
Ostatni przykład przedstawia szczególnie bezużyteczny kanał, który na wyjściu zawsze daje taką samą wartość. W tym przypadku , co pokazuje, że entropia może czasem maleć przy przesyłaniu wiadomości przez kanał. Najbardziej interesujące są jednak przypadki, gdy ta entropia rośnie. Jednym z takich przypadków zajmiemy się teraz dokładniej:
Binarny kanał symetryczny (BSC)
W tym przypadku znów
Wprowadzając oznaczenie , macierz kanału możemy zapisać jako:
Fakt
Ponadto równość zachodzi wyłącznie jeśli (czyli kanał jest wierny lub wierny-odwracający) lub jeśli H(A)=1 (czyli entropia A jest maksymalna).
Dowód
Wprowadźmy oznaczenie . Wtedy
Przypominamy naszą konwencję i oznaczamy przez h funkcję
Dla . Łatwo możemy policzyć (dla ):
Zatem na podstawie lematu o funkcjach wypukłych funkcja jest ściśle wypukła na przedziale , a więc wypukła jest też funkcja
Korzystając teraz z faktu, że zdefiniowane wyżej r jest kombinacją liniową q i (kontretnie ), a , otrzymujemy

Wyliczymy teraz . Wygodnie będzie nam używać notacji
(co interpretujemy jako entropię zmiennej binarnej o prawdopodobieństwach s i 1-s).
Funkcja ta przyjmuje maksimum równe dla . Jej wykres wygląda następująco:
Z definicji entropii warunkowej dostajemy:
A zatem nie zależy od A.
Korzystając z powyższego wyliczenia rozkładu B, mamy
Możemy teraz znaleźć rozkład A, który maksymalizuje tę wartość (dla ), i otrzymujemy: