Teoria informacji/TI Wykład 11: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Stromy (dyskusja | edycje)
Nie podano opisu zmian
 
Stromy (dyskusja | edycje)
Nie podano opisu zmian
Linia 4: Linia 4:
{{twierdzenie|[Twierdzenie Shannona o kodach]|Shannon|
{{twierdzenie|[Twierdzenie Shannona o kodach]|Shannon|
Niech <math>\Gamma</math> będzie binarnym kanałem symetrycznym charakteryzowanym przez macierz <math>\left( \begin{matrix}P & Q \\ Q & P\end{matrix}\right)</math>, gdzie <math> P > Q </math>. Wtedy <math>\forall \varepsilon,\delta > 0 \, \exists n_0 \forall n \geq n_0 \exists C \subseteq \{ 0, 1 \}^n </math> takie że
Niech <math>\Gamma</math> będzie binarnym kanałem symetrycznym charakteryzowanym przez macierz <math>\left( \begin{matrix}P & Q \\ Q & P\end{matrix}\right)</math>, gdzie <math> P > Q </math>. Wtedy <math>\forall \varepsilon,\delta > 0 \, \exists n_0 \forall n \geq n_0 \exists C \subseteq \{ 0, 1 \}^n </math> takie że
:<math>C_{\Gamma } - \varepsilon \leq R(C) \leq  C_{\Gamma }</math>
 
:<math>Pr_E ( \Delta , C) \leq  \delta</math>}}
<center><math>C_{\Gamma } - \varepsilon \leq R(C) \leq  C_{\Gamma }</math>
 
oraz
 
<math>Pr_E ( \Delta , C) \leq  \delta</math></center>}}




Linia 14: Linia 18:


Pierwszy typ błędów jest powodowany przez kanał, ale sama natura go poprawia: Prawo Wielkich Liczb gwarantuje że duża odległość pomiędzy X a Y będzie występować rzadko jeśli n jest duże. Za drugi typ błędów odpowiada sam kod. Aby nie zachodziły takie sytuacje, słowa kodowe muszą być odpowiednio odległe od siebie nawzajem. W naszym przypadku oznacza to że jeśli wyznaczymy wokół każdego ze słów kodowych kulę o promieniu <math>Q \cdot n</math> (w metryce Hamminga), to kule te powinny być parami rozłączne. Pytanie zatem brzmi: ile rozłącznych kul o tym promieniu można zmieścić w <math>\{0,1\}^n</math>? Objętość każdej z tych kul, co udowodnimy, wynosi w przybliżeniu <math>\approx  2^{n \cdot H (Q) }</math>. Oznacza to że maksymalna możliwa liczba kul jest nie większa niż
Pierwszy typ błędów jest powodowany przez kanał, ale sama natura go poprawia: Prawo Wielkich Liczb gwarantuje że duża odległość pomiędzy X a Y będzie występować rzadko jeśli n jest duże. Za drugi typ błędów odpowiada sam kod. Aby nie zachodziły takie sytuacje, słowa kodowe muszą być odpowiednio odległe od siebie nawzajem. W naszym przypadku oznacza to że jeśli wyznaczymy wokół każdego ze słów kodowych kulę o promieniu <math>Q \cdot n</math> (w metryce Hamminga), to kule te powinny być parami rozłączne. Pytanie zatem brzmi: ile rozłącznych kul o tym promieniu można zmieścić w <math>\{0,1\}^n</math>? Objętość każdej z tych kul, co udowodnimy, wynosi w przybliżeniu <math>\approx  2^{n \cdot H (Q) }</math>. Oznacza to że maksymalna możliwa liczba kul jest nie większa niż
:<math> m \approx 2^n :  2^{n \cdot H (Q) } = 2^{n (1 - H(Q))} = 2^{n \cdot C_{\Gamma }}</math>
<center><math> m \approx 2^n :  2^{n \cdot H (Q) } = 2^{n (1 - H(Q))} = 2^{n \cdot C_{\Gamma }}</math></center>


co odpowiada szybkości transmisji <math>R(C)\approx C_{\Gamma}</math>. Niezwykłość odkrycia Shannona polega na tym że to dolne ograniczenie daje się osiągnąć. Niestety sam dowód jest niekonstruktywny, i pokazuje jedynie że taki kod istnieje.
co odpowiada szybkości transmisji <math>R(C)\approx C_{\Gamma}</math>. Niezwykłość odkrycia Shannona polega na tym że to dolne ograniczenie daje się osiągnąć. Niestety sam dowód jest niekonstruktywny, i pokazuje jedynie że taki kod istnieje.
Linia 21: Linia 25:
W dalszej części dowodu będziemy używać małych liter <math>u,v,w,x,y,\ldots </math> na oznaczenie wektorów w <math>\{0,1\}^n</math>, dla odróżnienia od zmiennych losowych. Jak zwykle <math>\oplus</math> oznaczać będzie XOR po współrzędnych. Wybierzemy <math>\eta > 0</math> którego zależność od <math>\epsilon</math> i <math>\delta</math> wyznaczymy dokładnie później (intuicyjnie, <math>\eta</math> będzie bardzo małe).
W dalszej części dowodu będziemy używać małych liter <math>u,v,w,x,y,\ldots </math> na oznaczenie wektorów w <math>\{0,1\}^n</math>, dla odróżnienia od zmiennych losowych. Jak zwykle <math>\oplus</math> oznaczać będzie XOR po współrzędnych. Wybierzemy <math>\eta > 0</math> którego zależność od <math>\epsilon</math> i <math>\delta</math> wyznaczymy dokładnie później (intuicyjnie, <math>\eta</math> będzie bardzo małe).
Niech
Niech
:<math>\rho = n (Q + \eta )</math>
<center><math>\rho = n (Q + \eta )</math></center>


Załóżmy teraz że <math>C \subseteq \{0,1\}^n</math> jest kodem z <math>|C|=m</math>. Z definicji reguły <math>\Delta</math>, jeśli dla pewnego słowa kodowego <math>u \in C</math> i błędu <math>e \in \{0,1\}^n</math> mamy odległość <math>d(u,u \oplus e) \le \rho</math>, a ponadto <math>\forall v \in C - \{ u \} d (v,u \oplus e) >  \rho </math>, to u jest najbliższym słowem kodowym do <math>u \oplus e</math> i z konieczności <math>\Delta (u \oplus e) = u</math>.
Załóżmy teraz że <math>C \subseteq \{0,1\}^n</math> jest kodem z <math>|C|=m</math>. Z definicji reguły <math>\Delta</math>, jeśli dla pewnego słowa kodowego <math>u \in C</math> i błędu <math>e \in \{0,1\}^n</math> mamy odległość <math>d(u,u \oplus e) \le \rho</math>, a ponadto <math>\forall v \in C - \{ u \} d (v,u \oplus e) >  \rho </math>, to u jest najbliższym słowem kodowym do <math>u \oplus e</math> i z konieczności <math>\Delta (u \oplus e) = u</math>.
Linia 28: Linia 32:


Wektor e możemy interpretować jako wartość zmiennej losowej <math>E=(E_1, \ldots, E_n)</math>, gdzie <math>E_i=A_i \oplus B_i</math>. Zmienne <math>E_1, \ldots , E_n</math> są niezależne i mają identyczny rozkład
Wektor e możemy interpretować jako wartość zmiennej losowej <math>E=(E_1, \ldots, E_n)</math>, gdzie <math>E_i=A_i \oplus B_i</math>. Zmienne <math>E_1, \ldots , E_n</math> są niezależne i mają identyczny rozkład
:<math>p(E_i = 0) = P</math>
<center><math>p(E_i = 0) = P</math></center>
:<math>p(E_i = 1) = Q</math>
<center><math>p(E_i = 1) = Q</math></center>


Powyższe obserewacje można zatem zapisać jako
Powyższe obserewacje można zatem zapisać jako
:<math>p (\Delta (u \oplus E) \neq u) \leq p ( d (u, u \oplus E) > \rho ) + \sum_{v \in C - \{ u \}} p ( d (v,u \oplus E) \leq \rho )</math>
<center><math>p (\Delta (u \oplus E) \neq u) \leq p ( d (u, u \oplus E) > \rho ) + \sum_{v \in C - \{ u \}} p ( d (v,u \oplus E) \leq \rho )</math></center>


Pierwszy składnik oszacujemy używając następującego faktu
Pierwszy składnik oszacujemy używając następującego faktu
Linia 39: Linia 43:
{{fakt|[Słabe Prawo Wielkich Liczb]||
{{fakt|[Słabe Prawo Wielkich Liczb]||
Niech <math>X_1, X_2, \ldots</math> będą zmiennymi losowymi takimi że każda sekwencja <math>X_1, X_2, \ldots, X_n</math> jest parami niezależna, i <math>X_i</math> mają ten sam rozkład nad skończonym zbiorem liczb rzeczywistych. Niech <math>\mu = E (X_i )</math>. Wtedy dla dowolnego <math>\alpha > 0</math>
Niech <math>X_1, X_2, \ldots</math> będą zmiennymi losowymi takimi że każda sekwencja <math>X_1, X_2, \ldots, X_n</math> jest parami niezależna, i <math>X_i</math> mają ten sam rozkład nad skończonym zbiorem liczb rzeczywistych. Niech <math>\mu = E (X_i )</math>. Wtedy dla dowolnego <math>\alpha > 0</math>
:<math>\lim_{n \to \infty } p ( | \frac{1}{n} \sum_{i=1}^n X_i - \mu |> \alpha ) = 0</math>}}
<center><math>\lim_{n \to \infty } p ( | \frac{1}{n} \sum_{i=1}^n X_i - \mu |> \alpha ) = 0</math></center>}}




W naszym przypadku stosujemy ten fakt do sekwencji <math>E_1, E_2, \ldots</math>. Wiemy że <math>E(E_i)=0 \cdot P + 1 \cdot Q = Q</math>. Zatem <math>p (| \frac{1}{n} \cdot \sum_{i=1}^n E_i - Q | > \eta ) \to 0 </math> dla <math>n \to \infty</math> i dostajemy
W naszym przypadku stosujemy ten fakt do sekwencji <math>E_1, E_2, \ldots</math>. Wiemy że <math>E(E_i)=0 \cdot P + 1 \cdot Q = Q</math>. Zatem <math>p (| \frac{1}{n} \cdot \sum_{i=1}^n E_i - Q | > \eta ) \to 0 </math> dla <math>n \to \infty</math> i dostajemy
:<math>p ( d (u, u \oplus E) > \rho ) \leq p ( \frac{1}{n} \cdot \sum_{i=1}^n E_i > Q + \eta )  \leq p (| \frac{1}{n} \cdot \sum_{i=1}^n E_i - Q | > \eta ) \leq \frac{\delta }{2}</math>
<center><math>p ( d (u, u \oplus E) > \rho ) \leq p ( \frac{1}{n} \cdot \sum_{i=1}^n E_i > Q + \eta )  \leq p (| \frac{1}{n} \cdot \sum_{i=1}^n E_i - Q | > \eta ) \leq \frac{\delta }{2}</math></center>


dla wystarczająco dużych n.
dla wystarczająco dużych n.
Linia 49: Linia 53:


Przypomnijmy że szacujemy <math>Pr_E(\Delta, C)</math>, które możemy przedstawić jako sumę
Przypomnijmy że szacujemy <math>Pr_E(\Delta, C)</math>, które możemy przedstawić jako sumę
:<math>Pr_E ( \Delta , C) = \sum_{u \in C} p (X = u) \cdot p (\Delta \circ Y \neq u | X = u)</math>.
<center><math>Pr_E ( \Delta , C) = \sum_{u \in C} p (X = u) \cdot p (\Delta \circ Y \neq u | X = u)</math></center>


Z definicji <math>Y = X \oplus E</math> a więc
Z definicji <math>Y = X \oplus E</math> a więc
:<math>p (Y = w | X = u) = p (E = w \oplus u )</math>
<center><math>p (Y = w | X = u) = p (E = w \oplus u )</math></center>


Zatem
Zatem


<math>p (\Delta \circ Y \neq u | X = u) = \sum_{v:\Delta (v) \neq u} p ( Y = v | X = u) </math>
<center><math>\aligned
::<math> = \sum_{e: \Delta (u \oplus e)  \neq u} p ( Y = u \oplus e) |  X = u) </math>
p (\Delta \circ Y \neq u | X = u) & = \sum_{v:\Delta (v) \neq u} p ( Y = v | X = u)\\
::<math> = \sum_{e: \Delta (u \oplus e)  \neq u} p (E = e) </math>
& = \sum_{e: \Delta (u \oplus e)  \neq u} p ( Y = u \oplus e) |  X = u) \\
::<math> = p (\Delta (u \oplus E) \neq u)</math>
& = \sum_{e: \Delta (u \oplus e)  \neq u} p (E = e) \\
& = p (\Delta (u \oplus E) \neq u)
\endaligned
</math></center>


Ponadto <math>p (X = u) = \frac{1}{m}</math> (z założenia rozkład X jest jednorodny).
Ponadto <math>p (X = u) = \frac{1}{m}</math> (z założenia rozkład X jest jednorodny).
Razem z (link TODO) daje nam to
 
<math>Pr_E ( \Delta , C) \leq \frac{1}{m} \sum_{u \in C} \left( p ( d (u, u \oplus E) > \rho ) + \sum_{v \in C - \{ u \}} p ( d (v,u \oplus E) \leq \rho ) \right) </math>
Łącząc te wyniki dostajemy
::<math> \leq \frac{\delta }{2} + \frac{1}{m} \sum_{u \in C} \sum_{v \in C - \{ u \}} p ( d (v,u \oplus E) \leq \rho )</math>
<center><math>\aligned
Pr_E ( \Delta , C) & \leq \frac{1}{m} \sum_{u \in C} \left( p ( d (u, u \oplus E) > \rho ) + \sum_{v \in C - \{ u \}} p ( d (v,u \oplus E) \leq \rho ) \right) \\
& \leq \frac{\delta }{2} + \frac{1}{m} \sum_{u \in C} \sum_{v \in C - \{ u \}} p ( d (v,u \oplus E) \leq \rho )
\endaligned
</math></center>


dla wystarczająco dużych n.
dla wystarczająco dużych n.
Linia 71: Linia 82:


Zanim przejdziemy dalej, oszacujmy najpierw objętość kuli o promieniu <math>\lambda \cdot n</math>, gdzie <math>\lambda \leq \frac{1}{2}</math>. Konkretnie pokażemy że
Zanim przejdziemy dalej, oszacujmy najpierw objętość kuli o promieniu <math>\lambda \cdot n</math>, gdzie <math>\lambda \leq \frac{1}{2}</math>. Konkretnie pokażemy że
:<math>\sum_{i \leq \lambda \cdot n} {n \choose i} \leq 2^{n \cdot H(\lambda )}</math>
<center><math>\sum_{i \leq \lambda \cdot n} {n \choose i} \leq 2^{n \cdot H(\lambda )}</math></center>
 
gdzie H jest zdefiniowane jak (link TODO).


Niech <math>\kappa = 1 - \lambda</math>. Zauważmy najpierw że
Niech <math>\kappa = 1 - \lambda</math>. Zauważmy najpierw że


<math> \log_2 (\lambda^{\lambda n} \cdot \kappa^{\kappa n}) = n \cdot ( \lambda \cdot \log_2 \lambda + \kappa \cdot \log_2 \kappa )</math>
<center><math>\aligned
::<math> = - n \cdot H(\lambda )</math>
\log_2 (\lambda^{\lambda n} \cdot \kappa^{\kappa n}) & = n \cdot ( \lambda \cdot \log_2 \lambda + \kappa \cdot \log_2 \kappa )\\
& = - n \cdot H(\lambda )
\endaligned
</math></center>


Wystarczy zatem że pokażemy że dla dowolnych <math>i \le \lambda n</math>
Wystarczy zatem że pokażemy że dla dowolnych <math>i \le \lambda n</math>
:<math>\lambda^{i} \kappa^{n-i} \geq \lambda^{\lambda n} \cdot \kappa^{\kappa n}</math>
<center><math>\lambda^{i} \kappa^{n-i} \geq \lambda^{\lambda n} \cdot \kappa^{\kappa n}</math></center>


Wtedy
Wtedy
:<math>1 \geq \sum_{i \leq \lambda \cdot n} {n \choose i}  \lambda^{i} \kappa^{n-i} \geq
<center><math>1 \geq \sum_{i \leq \lambda \cdot n} {n \choose i}  \lambda^{i} \kappa^{n-i} \geq
\sum_{i \leq \lambda \cdot n} {n \choose i}  \lambda^{\lambda n} \cdot \kappa^{\kappa n}</math>
\sum_{i \leq \lambda \cdot n} {n \choose i}  \lambda^{\lambda n} \cdot \kappa^{\kappa n}</math></center>


w więc
w więc
:<math>\sum_{i \leq \lambda \cdot n} {n \choose i} \leq \frac{1}{\lambda^{\lambda n} \cdot \kappa^{\kappa n}} = 2^{n \cdot H(\lambda )}</math>
<center><math>\sum_{i \leq \lambda \cdot n} {n \choose i} \leq \frac{1}{\lambda^{\lambda n} \cdot \kappa^{\kappa n}} = 2^{n \cdot H(\lambda )}</math></center>


jak zakładaliśmy.
jak zakładaliśmy.
Linia 94: Linia 106:


Jeśli <math>\lambda n</math> jest całkowite, nasza nierówność jest po prostu równością. Jeśli nie, mamy <math>\lambda n = \lfloor \lambda n \rfloor + \Delta \lambda</math>, <math>\kappa n =\lfloor \kappa n \rfloor + \Delta \kappa </math>, <math>\lfloor \lambda n \rfloor + \lfloor \kappa n \rfloor = n-1</math> i <math>\Delta \lambda + \Delta \kappa = 1</math>. Z założenia <math> \kappa \ge \lambda</math>, i mamy dla dowolnego <math>i \le \lambda \n </math>
Jeśli <math>\lambda n</math> jest całkowite, nasza nierówność jest po prostu równością. Jeśli nie, mamy <math>\lambda n = \lfloor \lambda n \rfloor + \Delta \lambda</math>, <math>\kappa n =\lfloor \kappa n \rfloor + \Delta \kappa </math>, <math>\lfloor \lambda n \rfloor + \lfloor \kappa n \rfloor = n-1</math> i <math>\Delta \lambda + \Delta \kappa = 1</math>. Z założenia <math> \kappa \ge \lambda</math>, i mamy dla dowolnego <math>i \le \lambda \n </math>
:<math>\lambda^i \kappa^{n-i} \geq
<center><math>\lambda^i \kappa^{n-i} \geq
\lambda^{\lfloor \lambda n \rfloor } \cdot
\lambda^{\lfloor \lambda n \rfloor } \cdot
\kappa^{\lfloor \kappa n \rfloor + 1} =
\kappa^{\lfloor \kappa n \rfloor + 1} =
Linia 101: Linia 113:
\underbrace{\kappa^{\Delta \lambda + \Delta \kappa}}_{\geq
\underbrace{\kappa^{\Delta \lambda + \Delta \kappa}}_{\geq
\lambda^{\Delta \lambda} \cdot \kappa^{\Delta \kappa}}
\lambda^{\Delta \lambda} \cdot \kappa^{\Delta \kappa}}
\geq \lambda^{\lambda n} \cdot \kappa^{\kappa n}</math>.
\geq \lambda^{\lambda n} \cdot \kappa^{\kappa n}</math></center>


co kończy dowód szacowania objętości.
co kończy dowód szacowania objętości.

Wersja z 17:10, 2 sie 2006

Przedstawimy teraz centralne twierdzenie teorii informacji, autorstwa Claude Shannona. Intuicyjnie mówi ono że transmisja danych przez zaszumiony kanał jest możliwa z dowolnie małym prawdopodobieństwem błędu i z szybkością dowolnie bliską przepustowości kanału. Jedynym warunkiem jest zastosowanie kodów wystarczającej długości. Poniższa wersja odnosi się do kanałów BSC, ale można ją łatwo rozszerzyć na dowolne typy kanałów.


Twierdzenie [Twierdzenie Shannona o kodach]

Niech Γ będzie binarnym kanałem symetrycznym charakteryzowanym przez macierz (PQQP), gdzie P>Q. Wtedy ε,δ>0n0nn0C{0,1}n takie że

CΓεR(C)CΓ

oraz

PrE(Δ,C)δ


Dowód Twierdzenia Shannona

Zaczniemy od przedstawienia idei dowodu. Załóżmy że ciąg wejściowy X=a1an jest przekształcany na ciąg wyjściowy Y=b1bn. Jaka jest oczekiwana odległość Hamminga między X a Y? Odpowiada ona liczbie błędów transmisji. Skoro prawdopodobieństwo każdego błędu wynosi Q, to z Prawa Wielkich Liczb wynika że d(X,Y) będzie dążyło do Qn dla n. Jeśli reguła dekodująca powoduje błąd (czyli Δ(Y)X), może się to stać z dwóch powodów:

  • Y jest „daleko” od X (dalej niż oczekiwana odległość)
  • Y jest blisko X, ale któreś XX jest równie blisko jak X

Pierwszy typ błędów jest powodowany przez kanał, ale sama natura go poprawia: Prawo Wielkich Liczb gwarantuje że duża odległość pomiędzy X a Y będzie występować rzadko jeśli n jest duże. Za drugi typ błędów odpowiada sam kod. Aby nie zachodziły takie sytuacje, słowa kodowe muszą być odpowiednio odległe od siebie nawzajem. W naszym przypadku oznacza to że jeśli wyznaczymy wokół każdego ze słów kodowych kulę o promieniu Qn (w metryce Hamminga), to kule te powinny być parami rozłączne. Pytanie zatem brzmi: ile rozłącznych kul o tym promieniu można zmieścić w {0,1}n? Objętość każdej z tych kul, co udowodnimy, wynosi w przybliżeniu 2nH(Q). Oznacza to że maksymalna możliwa liczba kul jest nie większa niż

m2n:2nH(Q)=2n(1H(Q))=2nCΓ

co odpowiada szybkości transmisji R(C)CΓ. Niezwykłość odkrycia Shannona polega na tym że to dolne ograniczenie daje się osiągnąć. Niestety sam dowód jest niekonstruktywny, i pokazuje jedynie że taki kod istnieje.


W dalszej części dowodu będziemy używać małych liter u,v,w,x,y, na oznaczenie wektorów w {0,1}n, dla odróżnienia od zmiennych losowych. Jak zwykle oznaczać będzie XOR po współrzędnych. Wybierzemy η>0 którego zależność od ϵ i δ wyznaczymy dokładnie później (intuicyjnie, η będzie bardzo małe). Niech

ρ=n(Q+η)

Załóżmy teraz że C{0,1}n jest kodem z |C|=m. Z definicji reguły Δ, jeśli dla pewnego słowa kodowego uC i błędu e{0,1}n mamy odległość d(u,ue)ρ, a ponadto vC{u}d(v,ue)>ρ, to u jest najbliższym słowem kodowym do ue i z konieczności Δ(ue)=u.

Zatem jeśli Δ(ue)u to albo d(u,ue)>ρ, albo dla pewnego vC{u}d(v,ue)ρ.

Wektor e możemy interpretować jako wartość zmiennej losowej E=(E1,,En), gdzie Ei=AiBi. Zmienne E1,,En są niezależne i mają identyczny rozkład

p(Ei=0)=P
p(Ei=1)=Q

Powyższe obserewacje można zatem zapisać jako

p(Δ(uE)u)p(d(u,uE)>ρ)+vC{u}p(d(v,uE)ρ)

Pierwszy składnik oszacujemy używając następującego faktu


Fakt [Słabe Prawo Wielkich Liczb]

Niech X1,X2, będą zmiennymi losowymi takimi że każda sekwencja X1,X2,,Xn jest parami niezależna, i Xi mają ten sam rozkład nad skończonym zbiorem liczb rzeczywistych. Niech μ=E(Xi). Wtedy dla dowolnego α>0

limnp(|1ni=1nXiμ|>α)=0


W naszym przypadku stosujemy ten fakt do sekwencji E1,E2,. Wiemy że E(Ei)=0P+1Q=Q. Zatem p(|1ni=1nEiQ|>η)0 dla n i dostajemy

p(d(u,uE)>ρ)p(1ni=1nEi>Q+η)p(|1ni=1nEiQ|>η)δ2

dla wystarczająco dużych n.


Przypomnijmy że szacujemy PrE(Δ,C), które możemy przedstawić jako sumę

PrE(Δ,C)=uCp(X=u)p(ΔYu|X=u)

Z definicji Y=XE a więc

p(Y=w|X=u)=p(E=wu)

Zatem

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned p (\Delta \circ Y \neq u | X = u) & = \sum_{v:\Delta (v) \neq u} p ( Y = v | X = u)\\ & = \sum_{e: \Delta (u \oplus e) \neq u} p ( Y = u \oplus e) | X = u) \\ & = \sum_{e: \Delta (u \oplus e) \neq u} p (E = e) \\ & = p (\Delta (u \oplus E) \neq u) \endaligned }

Ponadto p(X=u)=1m (z założenia rozkład X jest jednorodny).

Łącząc te wyniki dostajemy

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned Pr_E ( \Delta , C) & \leq \frac{1}{m} \sum_{u \in C} \left( p ( d (u, u \oplus E) > \rho ) + \sum_{v \in C - \{ u \}} p ( d (v,u \oplus E) \leq \rho ) \right) \\ & \leq \frac{\delta }{2} + \frac{1}{m} \sum_{u \in C} \sum_{v \in C - \{ u \}} p ( d (v,u \oplus E) \leq \rho ) \endaligned }

dla wystarczająco dużych n.


Zanim przejdziemy dalej, oszacujmy najpierw objętość kuli o promieniu λn, gdzie λ12. Konkretnie pokażemy że

iλn(ni)2nH(λ)

Niech κ=1λ. Zauważmy najpierw że

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \aligned \log_2 (\lambda^{\lambda n} \cdot \kappa^{\kappa n}) & = n \cdot ( \lambda \cdot \log_2 \lambda + \kappa \cdot \log_2 \kappa )\\ & = - n \cdot H(\lambda ) \endaligned }

Wystarczy zatem że pokażemy że dla dowolnych iλn

λiκniλλnκκn

Wtedy

1iλn(ni)λiκniiλn(ni)λλnκκn

w więc

iλn(ni)1λλnκκn=2nH(λ)

jak zakładaliśmy.


Jeśli λn jest całkowite, nasza nierówność jest po prostu równością. Jeśli nie, mamy λn=λn+Δλ, κn=κn+Δκ, λn+κn=n1 i Δλ+Δκ=1. Z założenia κλ, i mamy dla dowolnego Parser nie mógł rozpoznać (nieznana funkcja „\n”): {\displaystyle i \le \lambda \n }

λiκniλλnκκn+1=λλnκκnκΔλ+ΔκλΔλκΔκλλnκκn

co kończy dowód szacowania objętości.