Teoria informacji/TI Wykład 11: Różnice pomiędzy wersjami

Aktualna wersja na dzień 22:18, 11 wrz 2023

Przedstawimy teraz centralne twierdzenie teorii informacji, autorstwa Claude'a Shannona. Intuicyjnie mówi ono, że transmisja danych przez zaszumiony kanał jest możliwa z dowolnie małym prawdopodobieństwem błędu i z szybkością dowolnie bliską przepustowości kanału. Jedynym warunkiem jest zastosowanie kodów wystarczającej długości. Poniższa wersja odnosi się do kanałów BSC, ale można ją łatwo rozszerzyć na dowolne typy kanałów.

Twierdzenie [Twierdzenie Shannona o kodach]

Niech $Γ$ będzie binarnym kanałem symetrycznym, charakteryzowanym przez macierz $(\begin{matrix} P & Q \\ Q & P \end{matrix})$ , gdzie $P > Q$ . Wtedy $\forall ε, δ > 0 \exists n_{0} \forall n \geq n_{0} \exists C \subseteq {0, 1}^{n}$ takie że

C_{Γ} - ε \leq R (C) \leq C_{Γ}

oraz

P r_{E} (Δ, C) \leq δ

Dowód Twierdzenia Shannona

Zaczniemy od przedstawienia idei dowodu. Załóżmy, że ciąg wejściowy $X = a_{1} \dots a_{n}$ jest przekształcany na ciąg wyjściowy $Y = b_{1} \dots b_{n}$ . Jaka jest oczekiwana odległość Hamminga między X a Y? Odpowiada ona liczbie błędów transmisji. Skoro prawdopodobieństwo każdego błędu wynosi Q, to z Prawa Wielkich Liczb wynika, że d(X,Y) będzie dążyło do $Q \cdot n$ dla $n \to \infty$ . Jeśli reguła dekodująca powoduje błąd (czyli $Δ (Y) \neq X$ ), może się to stać z dwóch powodów:

Y jest „daleko” od X (dalej niż oczekiwana odległość)
Y jest blisko X, ale któreś $X^{'} \neq X$ jest równie blisko jak X

Pierwszy typ błędów jest powodowany przez kanał, ale sama natura go poprawia: Prawo Wielkich Liczb gwarantuje, że duża odległość pomiędzy X a Y będzie występować rzadko jeśli n jest duże. Za drugi typ błędów odpowiada sam kod. Aby nie zachodziły takie sytuacje, słowa kodowe muszą być odpowiednio odległe od siebie nawzajem. W naszym przypadku oznacza to, że jeśli wyznaczymy wokół każdego ze słów kodowych kulę o promieniu $Q \cdot n$ (w metryce Hamminga), to kule te powinny być parami rozłączne. Pytanie zatem brzmi: ile rozłącznych kul o tym promieniu można zmieścić w ${0, 1}^{n}$ ? Objętość każdej z tych kul, co udowodnimy, wynosi w przybliżeniu $\approx 2^{n \cdot H (Q)}$ . Oznacza to, że maksymalna możliwa liczba kul jest nie większa niż

m \approx 2^{n} : 2^{n \cdot H (Q)} = 2^{n (1 - H (Q))} = 2^{n \cdot C_{Γ}}

co odpowiada szybkości transmisji $R (C) \approx C_{Γ}$ . Niezwykłość odkrycia Shannona polega na tym, że to dolne ograniczenie daje się osiągnąć. Niestety sam dowód jest niekonstruktywny i pokazuje jedynie, że taki kod istnieje.

W dalszej części dowodu będziemy używać małych liter $u, v, w, x, y, \dots$ na oznaczenie wektorów w ${0, 1}^{n}$ dla odróżnienia od zmiennych losowych. Jak zwykle $\oplus$ oznaczać będzie XOR po współrzędnych. Wybierzemy $η > 0$ , którego zależność od $ϵ$ i $δ$ wyznaczymy dokładnie później (intuicyjnie, $η$ będzie bardzo małe). Niech

ρ = n (Q + η)

Załóżmy teraz, że $C \subseteq {0, 1}^{n}$ jest kodem z $| C | = m$ . Z definicji reguły $Δ$ , jeśli dla pewnego słowa kodowego $u \in C$ i błędu $e \in {0, 1}^{n}$ mamy odległość $d (u, u \oplus e) \leq ρ$ , a ponadto $\forall v \in C - {u} d (v, u \oplus e) > ρ$ , to $u$ jest najbliższym słowem kodowym do $u \oplus e$ i z konieczności $Δ (u \oplus e) = u$ .

Zatem jeśli $Δ (u \oplus e) \neq u$ , to albo $d (u, u \oplus e) > ρ$ , albo dla pewnego $v \in C - {u} d (v, u \oplus e) \leq ρ$ .

Wektor e możemy interpretować jako wartość zmiennej losowej $E = (E_{1}, \dots, E_{n})$ , gdzie $E_{i} = A_{i} \oplus B_{i}$ . Zmienne $E_{1}, \dots, E_{n}$ są niezależne i mają identyczny rozkład

p (E_{i} = 0) = P

p (E_{i} = 1) = Q

Powyższe obserewacje można zatem zapisać jako

p (Δ (u \oplus E) \neq u) \leq p (d (u, u \oplus E) > ρ) + \sum_{v \in C - {u}} p (d (v, u \oplus E) \leq ρ)

Pierwszy składnik oszacujemy używając następującego faktu:

Fakt [Słabe Prawo Wielkich Liczb]

Niech $X_{1}, X_{2}, \dots$ będą zmiennymi losowymi takimi, że każda sekwencja $X_{1}, X_{2}, \dots, X_{n}$ jest parami niezależna, i $X_{i}$ mają ten sam rozkład nad skończonym zbiorem liczb rzeczywistych. Niech $μ = E (X_{i})$ . Wtedy dla dowolnego $α > 0$

\lim_{n \to \infty} p (| \frac{1}{n} \sum_{i = 1}^{n} X_{i} - μ | > α) = 0

W naszym przypadku stosujemy ten fakt do sekwencji $E_{1}, E_{2}, \dots$ . Wiemy, że $E (E_{i}) = 0 \cdot P + 1 \cdot Q = Q$ . Zatem $p (| \frac{1}{n} \cdot \sum_{i = 1}^{n} E_{i} - Q | > η) \to 0$ dla $n \to \infty$ i dostajemy

p (d (u, u \oplus E) > ρ) \leq p (\frac{1}{n} \cdot \sum_{i = 1}^{n} E_{i} > Q + η) \leq p (| \frac{1}{n} \cdot \sum_{i = 1}^{n} E_{i} - Q | > η) \leq \frac{δ}{2}

dla wystarczająco dużych n.

Przypomnijmy, że szacujemy $P r_{E} (Δ, C)$ , które możemy przedstawić jako sumę

P r_{E} (Δ, C) = \sum_{u \in C} p (X = u) \cdot p (Δ \circ Y \neq u | X = u)

Z definicji $Y = X \oplus E$ , a więc

p (Y = w | X = u) = p (E = w \oplus u)

Zatem

\begin{aligned} p (Δ \circ Y \neq u | X = u) & = \sum_{v : Δ (v) \neq u} p (Y = v | X = u) \\ = \sum_{e : Δ (u \oplus e) \neq u} p (Y = u \oplus e) | X = u) \\ = \sum_{e : Δ (u \oplus e) \neq u} p (E = e) \\ = p (Δ (u \oplus E) \neq u) \end{aligned}

Ponadto $p (X = u) = \frac{1}{m}$ (z założenia rozkład X jest jednorodny).

Łącząc te wyniki, dostajemy

\begin{aligned} P r_{E} (Δ, C) & \leq \frac{1}{m} \sum_{u \in C} (p (d (u, u \oplus E) > ρ) + \sum_{v \in C - {u}} p (d (v, u \oplus E) \leq ρ)) \\ \leq \frac{δ}{2} + \frac{1}{m} \sum_{u \in C} \sum_{v \in C - {u}} p (d (v, u \oplus E) \leq ρ) \end{aligned}

dla wystarczająco dużych n.

Zanim przejdziemy dalej, oszacujmy najpierw objętość kuli o promieniu $λ \cdot n$ , gdzie $λ \leq \frac{1}{2}$ . Konkretnie pokażemy, że

\sum_{i \leq λ \cdot n} (\binom{n}{i}) \leq 2^{n \cdot H (λ)}

Niech $κ = 1 - λ$ . Zauważmy najpierw, że

\begin{aligned} \log_{2} (λ^{λ n} \cdot κ^{κ n}) & = n \cdot (λ \cdot \log_{2} λ + κ \cdot \log_{2} κ) \\ = - n \cdot H (λ) \end{aligned}

Wystarczy zatem, że pokażemy, że dla dowolnych $i \leq λ n$

λ^{i} κ^{n - i} \geq λ^{λ n} \cdot κ^{κ n}

Wtedy

1 \geq \sum_{i \leq λ \cdot n} (\binom{n}{i}) λ^{i} κ^{n - i} \geq \sum_{i \leq λ \cdot n} (\binom{n}{i}) λ^{λ n} \cdot κ^{κ n}

a więc

\sum_{i \leq λ \cdot n} (\binom{n}{i}) \leq \frac{1}{λ^{λ n} \cdot κ^{κ n}} = 2^{n \cdot H (λ)}

jak zakładaliśmy.

Jeśli $λ n$ jest całkowite, nasza nierówność jest po prostu równością. Jeśli nie, mamy $λ n = ⌊ λ n ⌋ + Δ λ$ , $κ n = ⌊ κ n ⌋ + Δ κ$ , $⌊ λ n ⌋ + ⌊ κ n ⌋ = n - 1$ i $Δ λ + Δ κ = 1$ . Z założenia $κ \geq λ$ , i mamy dla dowolnego $i \leq λ n$

λ^{i} κ^{n - i} \geq λ^{⌊ λ n ⌋} \cdot κ^{⌊ κ n ⌋ + 1} = λ^{⌊ λ n ⌋} \cdot κ^{⌊ κ n ⌋} \underset{\geq λ^{Δ λ} \cdot κ^{Δ κ}}{\underset{⏟}{κ^{Δ λ + Δ κ}}} \geq λ^{λ n} \cdot κ^{κ n}

co kończy dowód szacowania objętości.

@@ Linia 3: / Linia 3: @@
 {{twierdzenie|[Twierdzenie Shannona o kodach]|Shannon|
-Niech <math>\Gamma</math> będzie binarnym kanałem symetrycznym, charakteryzowanym przez macierz <math>\left( \begin{matrix}P & Q \\ Q & P\end{matrix}\right)</math>, gdzie <math> P > Q </math>. Wtedy <math>\forall \varepsilon,\delta > 0 \, \exists n_0 \forall n \geq n_0 \exists C \subseteq \{ 0, 1 \}^n </math> takie że
+Niech <math>\Gamma</math> będzie binarnym kanałem symetrycznym, charakteryzowanym przez macierz <math>\left( \begin{matrix}P & Q \\ Q & P\end{matrix}\right)</math>, gdzie <math>P > Q</math>. Wtedy <math>\forall \varepsilon,\delta > 0 \, \exists n_0 \forall n \geq n_0 \exists C \subseteq \{ 0, 1 \}^n</math> takie że
 <center><math>C_{\Gamma } - \varepsilon \leq R(C) \leq  C_{\Gamma }</math>
@@ Linia 13: / Linia 13: @@
 ===Dowód Twierdzenia Shannona===
-Zaczniemy od przedstawienia idei dowodu. Załóżmy, że ciąg wejściowy <math> X =  a_1 \ldots a_n</math> jest przekształcany na ciąg wyjściowy <math> Y =  b_1 \ldots b_n  </math>. Jaka jest ''oczekiwana'' odległość Hamminga między X a Y? Odpowiada ona liczbie błędów transmisji. Skoro prawdopodobieństwo każdego błędu wynosi Q, to z Prawa Wielkich Liczb wynika, że d(X,Y) będzie dążyło do <math>Q \cdot n</math> dla <math>n \to \infty</math>. Jeśli reguła dekodująca powoduje błąd (czyli <math>\Delta(Y) \neq X</math>), może się to stać z dwóch powodów:
+Zaczniemy od przedstawienia idei dowodu. Załóżmy, że ciąg wejściowy <math>X =  a_1 \ldots a_n</math> jest przekształcany na ciąg wyjściowy <math>Y =  b_1 \ldots b_n</math>. Jaka jest ''oczekiwana'' odległość Hamminga między X a Y? Odpowiada ona liczbie błędów transmisji. Skoro prawdopodobieństwo każdego błędu wynosi Q, to z Prawa Wielkich Liczb wynika, że d(X,Y) będzie dążyło do <math>Q \cdot n</math> dla <math>n \to \infty</math>. Jeśli reguła dekodująca powoduje błąd (czyli <math>\Delta(Y) \neq X</math>), może się to stać z dwóch powodów:
 * Y jest „daleko” od X (dalej niż oczekiwana odległość)
 * Y jest blisko X, ale któreś <math>X' \neq X</math> jest równie blisko jak X
 Pierwszy typ błędów jest powodowany przez kanał, ale sama natura go poprawia: Prawo Wielkich Liczb gwarantuje, że duża odległość pomiędzy X a Y będzie występować rzadko jeśli n jest duże. Za drugi typ błędów odpowiada sam kod. Aby nie zachodziły takie sytuacje, słowa kodowe muszą być odpowiednio odległe od siebie nawzajem. W naszym przypadku oznacza to, że jeśli wyznaczymy wokół każdego ze słów kodowych kulę o promieniu <math>Q \cdot n</math> (w metryce Hamminga), to kule te powinny być parami rozłączne. Pytanie zatem brzmi: ile rozłącznych kul o tym promieniu można zmieścić w <math>\{0,1\}^n</math>? Objętość każdej z tych kul, co udowodnimy, wynosi w przybliżeniu <math>\approx  2^{n \cdot H (Q) }</math>. Oznacza to, że maksymalna możliwa liczba kul jest nie większa niż
-<center><math> m \approx 2^n :  2^{n \cdot H (Q) } = 2^{n (1 - H(Q))} = 2^{n \cdot C_{\Gamma }}</math></center>
+<center><math>m \approx 2^n :  2^{n \cdot H (Q) } = 2^{n (1 - H(Q))} = 2^{n \cdot C_{\Gamma }}</math></center>
 co odpowiada szybkości transmisji <math>R(C)\approx C_{\Gamma}</math>. Niezwykłość odkrycia Shannona polega na tym, że to dolne ograniczenie daje się osiągnąć. Niestety sam dowód jest niekonstruktywny i pokazuje jedynie, że taki kod istnieje.
-W dalszej części dowodu będziemy używać małych liter <math>u,v,w,x,y,\ldots </math> na oznaczenie wektorów w <math>\{0,1\}^n</math> dla odróżnienia od zmiennych losowych. Jak zwykle <math>\oplus</math> oznaczać będzie XOR po współrzędnych. Wybierzemy <math>\eta > 0</math>, którego zależność od <math>\epsilon</math> i <math>\delta</math> wyznaczymy dokładnie później (intuicyjnie, <math>\eta</math> będzie bardzo małe).
+W dalszej części dowodu będziemy używać małych liter <math>u,v,w,x,y,\ldots</math> na oznaczenie wektorów w <math>\{0,1\}^n</math> dla odróżnienia od zmiennych losowych. Jak zwykle <math>\oplus</math> oznaczać będzie XOR po współrzędnych. Wybierzemy <math>\eta > 0</math>, którego zależność od <math>\epsilon</math> i <math>\delta</math> wyznaczymy dokładnie później (intuicyjnie, <math>\eta</math> będzie bardzo małe).
 Niech
 <center><math>\rho = n (Q + \eta )</math></center>
-Załóżmy teraz, że <math>C \subseteq \{0,1\}^n</math> jest kodem z <math>|C|=m</math>. Z definicji reguły <math>\Delta</math>, jeśli dla pewnego słowa kodowego <math>u \in C</math> i błędu <math>e \in \{0,1\}^n</math> mamy odległość <math>d(u,u \oplus e) \le \rho</math>, a ponadto <math>\forall v \in C - \{ u \} d (v,u \oplus e) >  \rho </math>, to <math>u</math> jest najbliższym słowem kodowym do <math>u \oplus e</math> i z konieczności <math>\Delta (u \oplus e) = u</math>.
+Załóżmy teraz, że <math>C \subseteq \{0,1\}^n</math> jest kodem z <math>|C|=m</math>. Z definicji reguły <math>\Delta</math>, jeśli dla pewnego słowa kodowego <math>u \in C</math> i błędu <math>e \in \{0,1\}^n</math> mamy odległość <math>d(u,u \oplus e) \le \rho</math>, a ponadto <math>\forall v \in C - \{ u \} d (v,u \oplus e) >  \rho</math>, to <math>u</math> jest najbliższym słowem kodowym do <math>u \oplus e</math> i z konieczności <math>\Delta (u \oplus e) = u</math>.
-Zatem jeśli <math>\Delta (u \oplus e) \neq u</math>, to albo <math>d(u, u \oplus e) > \rho</math>, albo dla pewnego <math>v \in C - \{ u \} d(v,u \oplus e) \leq \rho  </math>.
+Zatem jeśli <math>\Delta (u \oplus e) \neq u</math>, to albo <math>d(u, u \oplus e) > \rho</math>, albo dla pewnego <math>v \in C - \{ u \} d(v,u \oplus e) \leq \rho</math>.
 Wektor e możemy interpretować jako wartość zmiennej losowej <math>E=(E_1, \ldots, E_n)</math>, gdzie <math>E_i=A_i \oplus B_i</math>. Zmienne <math>E_1, \ldots , E_n</math> są niezależne i mają identyczny rozkład
@@ Linia 46: / Linia 46: @@
-W naszym przypadku stosujemy ten fakt do sekwencji <math>E_1, E_2, \ldots</math>. Wiemy, że <math>E(E_i)=0 \cdot P + 1 \cdot Q = Q</math>. Zatem <math>p (| \frac{1}{n} \cdot \sum_{i=1}^n E_i - Q | > \eta ) \to 0 </math> dla <math>n \to \infty</math> i dostajemy
+W naszym przypadku stosujemy ten fakt do sekwencji <math>E_1, E_2, \ldots</math>. Wiemy, że <math>E(E_i)=0 \cdot P + 1 \cdot Q = Q</math>. Zatem <math>p (| \frac{1}{n} \cdot \sum_{i=1}^n E_i - Q | > \eta ) \to 0</math> dla <math>n \to \infty</math> i dostajemy
 <center><math>p ( d (u, u \oplus E) > \rho ) \leq p ( \frac{1}{n} \cdot \sum_{i=1}^n E_i > Q + \eta )  \leq p (| \frac{1}{n} \cdot \sum_{i=1}^n E_i - Q | > \eta ) \leq \frac{\delta }{2}</math></center>
@@ Linia 60: / Linia 60: @@
 Zatem
-<center><math>\aligned
+<center><math>\begin{align}
 p (\Delta \circ Y \neq u | X = u) & = \sum_{v:\Delta (v) \neq u} p ( Y = v | X = u)\\
 & = \sum_{e: \Delta (u \oplus e)  \neq u} p ( Y = u \oplus e) |  X = u) \\
@@ Linia 71: / Linia 71: @@
 Łącząc te wyniki, dostajemy
-<center>{{kotwica|metoda_prob|}}<math>\aligned
+<center>{{kotwica|metoda_prob|}}<math>\begin{align}
 Pr_E ( \Delta , C) & \leq \frac{1}{m} \sum_{u \in C} \left( p ( d (u, u \oplus E) > \rho ) + \sum_{v \in C - \{ u \}} p ( d (v,u \oplus E) \leq \rho ) \right) \\
 & \leq \frac{\delta }{2} + \frac{1}{m} \sum_{u \in C} \sum_{v \in C - \{ u \}} p ( d (v,u \oplus E) \leq \rho )
@@ Linia 86: / Linia 86: @@
 Niech <math>\kappa = 1 - \lambda</math>. Zauważmy najpierw, że
-<center><math>\aligned
+<center><math>\begin{align}
 \log_2 (\lambda^{\lambda n} \cdot \kappa^{\kappa n}) & = n \cdot ( \lambda \cdot \log_2 \lambda + \kappa \cdot \log_2 \kappa )\\
 & = - n \cdot H(\lambda )
@@ Linia 105: / Linia 105: @@
-Jeśli <math>\lambda n</math> jest całkowite, nasza nierówność jest po prostu równością. Jeśli nie, mamy <math>\lambda n = \lfloor \lambda n \rfloor + \Delta \lambda</math>, <math>\kappa n =\lfloor \kappa n \rfloor + \Delta \kappa </math>, <math>\lfloor \lambda n \rfloor + \lfloor \kappa n \rfloor = n-1</math> i <math>\Delta \lambda + \Delta \kappa = 1</math>. Z założenia <math> \kappa \ge \lambda</math>, i mamy dla dowolnego <math>i \le \lambda \n </math>
+Jeśli <math>\lambda n</math> jest całkowite, nasza nierówność jest po prostu równością. Jeśli nie, mamy <math>\lambda n = \lfloor \lambda n \rfloor + \Delta \lambda</math>, <math>\kappa n =\lfloor \kappa n \rfloor + \Delta \kappa</math>, <math>\lfloor \lambda n \rfloor + \lfloor \kappa n \rfloor = n-1</math> i <math>\Delta \lambda + \Delta \kappa = 1</math>. Z założenia <math>\kappa \ge \lambda</math>, i mamy dla dowolnego <math>i \le \lambda n</math>
 <center><math>\lambda^i \kappa^{n-i} \geq
 \lambda^{\lfloor \lambda n \rfloor } \cdot

Teoria informacji/TI Wykład 11: Różnice pomiędzy wersjami

Aktualna wersja na dzień 22:18, 11 wrz 2023

Dowód Twierdzenia Shannona

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia