Teoria informacji/TI Wykład 12: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Stromy (dyskusja | edycje)
Nie podano opisu zmian
 
m Zastępowanie tekstu – „<math> ” na „<math>”
 
(Nie pokazano 8 wersji utworzonych przez 4 użytkowników)
Linia 1: Linia 1:
Wracamy do szacowania <math>Pr_E(\Delta, C)</math>. Przypomnijmy że (link TODO) obowiązuje dla dowolnego kodu C, o ile n jest wystarczająco duże. Pokażemy teraz że dla wystarczająco dużych n ''istnieje'' kod C który spełnia warunki Twierdzenia Shannona. W szczególności taki dla którego drugi składnik (link TODO) można ograniczyć z góry przez <math>\frac{\delta}{2}</math>.
Wracamy do szacowania <math>Pr_E(\Delta, C)</math>. Przypomnijmy, że wyprowadzone na poprzednim wykładzie [[Teoria informacji/TI Wykład 11#metoda_prob|szacowanie]] obowiązuje dla dowolnego kodu C, o ile n jest wystarczająco duże. Pokażemy teraz, że dla wystarczająco dużych n ''istnieje'' kod C, który spełnia warunki Twierdzenia Shannona. W szczególności taki, dla którego drugi składnik [[Teoria informacji/TI Wykład 11#metoda_prob|szacowania]] można ograniczyć z góry przez <math>\frac{\delta}{2}</math>.


Do dowodu użyjemy ''metody probabilistycznej''. Ustalmy <math>m < 2^n</math>. Niech <math>\mathcal{C}</math> będzie zbiorem wszystkich możliwych m-elementowych sekwencji <math>c_1, \ldots, c_m \in \{0,1\}^n</math> takich że <math>c_i</math> są parami różne. Niech <math>N = |\mathcal{C}|</math>.
Do dowodu użyjemy ''metody probabilistycznej''. Ustalmy <math>m < 2^n</math>. Niech <math>\mathcal{C}</math> będzie zbiorem wszystkich możliwych m-elementowych sekwencji <math>c_1, \ldots, c_m \in \{0,1\}^n</math>, takich że <math>c_i</math> są parami różne. Niech <math>N = |\mathcal{C}|</math>.
:<math> N = {2^n \choose m}  \cdot m!</math>
<center><math>N = {2^n \choose m}  \cdot m!</math></center>


Od tego miejsca będziemy używać notacji <math>\bar{C}</math> na oznaczenie sekwencji z <math>\mathcal{C}</math>. Argument probabilistyczny Shannona opiera się na prostej obserwacji. Jeśli
Od tego miejsca będziemy używać notacji <math>\bar{C}</math> na oznaczenie sekwencji z <math>\mathcal{C}</math>. Argument probabilistyczny Shannona opiera się na prostej obserwacji. Jeśli
:<math>\frac{1}{N} \sum_{\bar{C}} Pr_E ( \Delta , \bar{C}) \leq \delta</math>
<center><math>\frac{1}{N} \sum_{\bar{C}} Pr_E ( \Delta , \bar{C}) \leq \delta</math></center>


to istnieje kod C taki że <math>Pr_E(\Delta,\bar{C}) \le \delta </math>.
to istnieje kod C, taki że <math>Pr_E(\Delta,{C}) \le \delta</math>.


Zauważmy że jeśli <math>\bar{C}</math> jest sekwencją w <math>\mathcal{C}</math> o wartościach <math>C=\{c_1, \ldots, \c_m \}</math> to  
Zauważmy, że jeśli <math>\bar{C}</math> jest sekwencją w <math>\mathcal{C}</math> o wartościach  
:<math> \sum_{u \in C} \sum_{v \in C - \{ u \}} p ( d (v,u \oplus E) \leq \rho ) =
<math>C=\{c_1, \ldots, c_m \}</math> to  
\sum_{i = 1}^m \sum_{j \neq i} \, p ( d (c_j,c_i \oplus E) \leq \rho )</math>
<center><math>\sum_{u \in C} \sum_{v \in C - \{ u \}} p ( d (v,u \oplus E) \leq \rho ) =
\sum_{i = 1}^m \sum_{j \neq i} \, p ( d (c_j,c_i \oplus E) \leq \rho )</math></center>


A z (link TODO) dostajemy
Nasze [[Teoria informacji/TI Wykład 11#metoda_prob|szacowanie]] daje zatem


<math>\frac{1}{N} \sum_{\bar{C}} \pr_E ( \Delta , \bar{C} ) \leq
<center>{{kotwica|metoda_prob2|}}<math>\begin{align}
\frac{1}{N} \sum_{\bar{C}} \left( \frac{\delta }{2} +
\frac{1}{N} \sum_{\bar{C}} Pr_E ( \Delta , \bar{C} ) & \leq
\frac{1}{m} \sum_{i = 1}^m \sum_{j \neq i} \, p ( d (c_j,c_i \oplus E) \leq \rho )
\frac{1}{N} \sum_{\bar{C}} \left( \frac{\delta }{2} + \frac{1}{m} \sum_{i = 1}^m \sum_{j \neq i} \, p ( d (c_j,c_i \oplus E) \leq \rho ) \right) \\
\right) </math>
& = \frac{\delta }{2} + \frac{1}{m} \sum_{i = 1}^m \sum_{j \neq i}
::<math>= \frac{\delta }{2} + \frac{1}{m} \sum_{i = 1}^m \sum_{j \neq i}
\underbrace{\frac{1}{N} \sum_{\bar{C}} p ( d (c_j,c_i \oplus E) \leq \rho )}_{(*)}
\underbrace{\frac{1}{N} \sum_{\bar{C}} p ( d (c_j,c_i \oplus E) \leq \rho )}_{(*)}</math>
\end{align}
</math></center>




Linia 26: Linia 28:


Dla <math>e \in \{0,1\}^n</math> niech <math>S_{\rho } (e)</math> oznacza kulę w <math>\{0,1\}^n</math> o promieniu <math>\rho</math> i środku w punkcie e, tzn.
Dla <math>e \in \{0,1\}^n</math> niech <math>S_{\rho } (e)</math> oznacza kulę w <math>\{0,1\}^n</math> o promieniu <math>\rho</math> i środku w punkcie e, tzn.
:<math>S_{\rho } (e) = \{ v \in \{ 0,1 \}^n  : d(v,e) \leq \rho \}</math>
<center><math>S_{\rho } (e) = \{ v \in \{ 0,1 \}^n  : d(v,e) \leq \rho \}</math></center>


Łatwo zauważyć że
Łatwo zauważyć, że
:<math>d (v, u \oplus e ) \leq \rho \Longleftrightarrow v \oplus u \in S_{\rho } (e) </math>
<center><math>d (v, u \oplus e ) \leq \rho \Longleftrightarrow v \oplus u \in S_{\rho } (e)</math></center>


Zatem
Zatem


<math>\frac{1}{N} \sum_{\bar{C}} p ( d (c_j,c_i \oplus E) \leq \rho ) =
<center><math>\begin{align}
\frac{1}{N} \sum_{\bar{C}} p \left( c_i \oplus c_j \in S_{\rho } (E) \right) </math>
\frac{1}{N} \sum_{\bar{C}} p ( d (c_j,c_i \oplus E) \leq \rho ) & =
::<math>= \sum_{e \in \{ 0, 1 \}^n } p (E = e)  \cdot \underbrace{\frac{1}{N} \sum_{\bar{C}}
\frac{1}{N} \sum_{\bar{C}} p \left( c_i \oplus c_j \in S_{\rho } (E) \right) \\
\cdot \chi (c_i \oplus c_j \in S_{\rho } (e) )}_{(**)}</math>
& = \sum_{e \in \{ 0, 1 \}^n } p (E = e)  \cdot \underbrace{\frac{1}{N} \sum_{\bar{C}}
  \chi (c_i \oplus c_j \in S_{\rho } (e) )}_{(**)}
\end{align}
</math></center>


(gdzie <math>\chi</math> oznacza funkcję charakterystyczną <math>\chi(\varphi)=1 \Longleftrightarrow \varphi holds</math>).
(gdzie <math>\chi</math> oznacza funkcję charakterystyczną: <math>\chi(\varphi)=1 \Longleftrightarrow \varphi</math> jest spełniona).


Możemy oszacować teraz wartość (**) dla ustalonego e. Z pewnością każdy wektor inny niż <math>0^n</math> pojawia się jako <math>c_i \oplus c_j</math> dla pewnej sekwencji <math>\bar{C} \in \mathcal{C}</math>, i łatwo zauważyć że każdy taki wektor pojawia się taką samą liczbę razy
Możemy oszacować teraz wartość (**) dla ustalonego e. Z pewnością każdy wektor inny niż <math>0^n</math> pojawia się jako <math>c_i \oplus c_j</math> dla pewnej sekwencji <math>\bar{C} \in \mathcal{C}</math>, i łatwo zauważyć, że każdy taki wektor pojawia się taką samą liczbę razy, tzn.
:<math>| \{ \bar{C} : u = c_i \oplus c_j \} |  = | \{ \bar{C} : v = c_i \oplus c_j \} |  = \frac{N}{2^n - 1}</math>
<center><math>| \{ \bar{C} : u = c_i \oplus c_j \} |  = | \{ \bar{C} : v = c_i \oplus c_j \} |  = \frac{N}{2^n - 1}</math></center>


dla dowolnych <math>u,v \in \{0,1\}^n-\{0^n\}</math>. A zatem każde <math>u \in S_{\rho}(e) - \{0^n\}</math> dodaje <math>\frac{N}{2^n-1}</math> do sumy <math>\sum_{\bar{C}}
dla dowolnych <math>u,v \in \{0,1\}^n-\{0^n\}</math>. A zatem każde <math>u \in S_{\rho}(e) - \{0^n\}</math> dodaje <math>\frac{N}{2^n-1}</math> do sumy <math>\sum_{\bar{C}}
  \cdot \chi (c_i \oplus c_j \in S_{\rho } (e) )</math>, czyli
  \chi (c_i \oplus c_j \in S_{\rho } (e) )</math>, czyli
:<math>\sum_{\bar{C}} \cdot \chi (c_i \oplus c_j \in S_{\rho } (e) ) =
<center><math>\sum_{\bar{C}}   \chi (c_i \oplus c_j \in S_{\rho } (e) ) =
\frac{N}{2^n - 1} | S_{\rho } (e) - \{ 0^n \} |</math>
\frac{N}{2^n - 1} | S_{\rho } (e) - \{ 0^n \} |</math></center>


Możemy to teraz zsumować po możliwych wartościach e:
Na poprzednim wykładzie dokonaliśmy [[Teoria informacji/TI Wykład 11#rozmiar_kuli|oszacowania rozmiaru kuli]] o promieniu <math>\rho = n \cdot (Q + \eta )</math>, mamy zatem
<center><math>| S_{\rho } (e) - \{ 0^n \} | \leq  2^{n \cdot H(Q + \eta )}</math></center>


<math>\sum_{e \in \{ 0, 1 \}^n } p (E = e) \cdot \frac{1}{N} \sum_{\bar{C}}
Możemy już oszacować (**):
\cdot \chi (c_i \oplus c_j \in S_{\rho } (e) ) = \sum_{e \in \{ 0, 1 \}^n } p (E = e)  \cdot
\frac{1}{2^n - 1} | S_{\rho } (e) - \{ 0^n \} | </math>
::<math> = \frac{1}{2^n - 1} | S_{\rho } (e) - \{ 0^n \} |</math>


Znamy ponadto objętość <math>S_{\rho}(e)</math>, więc
<center><math>
:<math>| S_{\rho } (e) - \{ 0^n \} | \leq 2^{n \cdot H(\rho)} = 2^{n \cdot H(Q + \eta )}</math>
\frac{1}{N} \sum_{\bar{C}} \chi (c_i \oplus c_j \in S_{\rho } (e) ) \leq
\frac{1}{N} \cdot \frac{N}{2^n - 1} \cdot 2^{n \cdot H(Q + \eta )} \leq
\frac{1}{2^n - 1} \cdot 2^{n \cdot H(Q + \eta )}
</math></center>


Wracając do równania (link TODO) daje to
Pamiętając, że <math>\sum_{e \in \{ 0, 1 \}^n } p (E = e) = 1</math>, otrzymujemy stąd również
szacowanie dla (*):


<math>\frac{1}{N} \sum_{\bar{C}} \, \pr_E ( \Delta , \bar{C} ) \leq
<center><math>\begin{align}
\frac{\delta }{2} + \frac{1}{m} \sum_{i = 1}^m \sum_{j \neq i} \frac{1}{2^n - 1}  \cdot 2^{n \cdot H(Q + \eta )}</math>
\sum_{e \in \{ 0, 1 \}^n } p (E = e)  \cdot \underbrace{\frac{1}{N} \sum_{\bar{C}}
::<math> = \frac{\delta }{2} + \frac{1}{m} \cdot m  \cdot \underbrace{(m-1) \cdot \frac{1}{2^n - 1}}_{\leq \frac{m}{2^n}}  \cdot 2^{n \cdot H(Q + \eta )}</math>
\chi (c_i \oplus c_j \in S_{\rho } (e) )}_{(**)} & \leq \frac{1}{2^n - 1} \cdot 2^{n \cdot H(Q + \eta )}
::<math> \leq \frac{\delta }{2} + \frac{m}{2^n} \cdot 2^{n \cdot H(Q + \eta )} </math>
\end{align}
::<math> = \frac{\delta }{2} + 2^{ n \cdot \left( \frac{\log_2 m}{n} + H(Q + \eta ) - 1 \right) }</math>
</math></center>
 
 
Wracając do [[#metoda_prob2|głównego szacowania]], dostajemy
 
<center><math>\begin{align}
\frac{1}{N} \sum_{\bar{C}} \, _E ( \Delta , \bar{C} ) & \leq
\frac{\delta }{2} + \frac{1}{m} \sum_{i = 1}^m \sum_{j \neq i} \frac{1}{2^n - 1}  \cdot 2^{n \cdot H(Q + \eta )} \\
& = \frac{\delta }{2} + \frac{1}{m} \cdot m  \cdot \underbrace{(m-1) \cdot \frac{1}{2^n - 1}}_{\leq \frac{m}{2^n}}  \cdot 2^{n \cdot H(Q + \eta )} \\
& \leq \frac{\delta }{2} + \frac{m}{2^n} \cdot 2^{n \cdot H(Q + \eta )} \\
& = \frac{\delta }{2} + 2^{ n \cdot \left( \frac{\log_2 m}{n} + H(Q + \eta ) - 1 \right) }
\end{align}
</math></center>


Jesteśmy tu już blisko celu, gdyż <math>\left(  \frac{\log_2 m}{n} + H(Q + \eta ) - 1 \right)</math> odpowiada „prawie” <math>R(C)-C_{\Gamma}</math>.
Jesteśmy tu już blisko celu, gdyż <math>\left(  \frac{\log_2 m}{n} + H(Q + \eta ) - 1 \right)</math> odpowiada „prawie” <math>R(C)-C_{\Gamma}</math>.


Konkretniej, do tej pory wiemy że powyższe równanie jest spełnione dla wystarczająco dużych n, np. <math> n \ge n_1 </math>, i dla <math>2 \le m \le 2^n</math>, <math>0 < \eta < \frac{1}{2} Q</math>. Twierdzimy że można dobrać <math>n_0 \ge n_1</math> m i </math>\eta</math> w ten sposób że dla dowolnego <math>n \ge n_0</math> spełnione jest
Konkretniej, do tej pory wiemy, że powyższe równanie jest spełnione dla wystarczająco dużych n, powiedzmy <math>n \ge n_1</math>, i dla dowolnych <math>2 \le m \le 2^n</math>, <math>0 < \eta < \frac{1}{2} - Q</math>. Twierdzimy, że można dobrać <math>n_0 \ge n_1</math> m i <math>\eta</math> w ten sposób, że dla dowolnego <math>n \ge n_0</math> spełnione jest
:<math>C_{\Gamma } - \varepsilon \leq \frac{\log_2 m}{n} \leq C_{\Gamma } \label{(i)} </math>
<center><math>C_{\Gamma } - \varepsilon \leq \frac{\log_2 m}{n} \leq C_{\Gamma } {(i)}</math></center>
:<math> \frac{\log_2 m}{n}  +  H(Q + \eta ) - 1 \leq - \frac{\varepsilon }{3}</math>
 
<center><math>\frac{\log_2 m}{n}  +  H(Q + \eta ) - 1 \leq - \frac{\varepsilon }{3}</math></center>


W szczególności druga nierówność implikuje
W szczególności druga nierówność implikuje
:<math>2^{ n \cdot \left( \frac{\log_2 m}{n} + H(Q + \eta ) - 1 \right) } \leq
<center><math>2^{ n \cdot \left( \frac{\log_2 m}{n} + H(Q + \eta ) - 1 \right) } \leq
\frac{1}{2^{n \cdot \frac{\varepsilon }{3}}}</math>
\frac{1}{2^{n \cdot \frac{\varepsilon }{3}}}</math></center>


A więc jeśli n jest wystarczająco duże, to dostajemy
A więc jeśli n jest wystarczająco duże, dostajemy
:<math> \frac{1}{N} \sum_{\bar{C}} \, \pr_E ( \Delta , \bar{C} ) \leq  
<center><math>\frac{1}{N} \sum_{\bar{C}} \, _E ( \Delta , \bar{C} ) \leq  
\frac{\delta }{2} + \frac{\delta }{2} =  \delta </math>
\frac{\delta }{2} + \frac{\delta }{2} =  \delta</math></center>


Używając argumentu probabilistycznego wnioskujemy że musi istnieć kod C rozmiaru m, spełniający <math>Pr_E(\Delta,C) \leq \delta</math>. Ponieważ <math>R(C)=\frac{\log_2 m}{n}</math>, ten kod spełnia warunki Shannona.
Używając argumentu probabilistycznego, wnioskujemy, że musi istnieć kod C rozmiaru m, spełniający <math>Pr_E(\Delta,C) \leq \delta</math>. Ponieważ <math>R(C)=\frac{\log_2 m}{n}</math>, ten kod spełnia warunki Shannona.


Wybór spełniający warunki (link TODO) najłatwiej przedstawić na diagramie
Wybór <math>\eta</math> i <math>m</math> spełniający oba konieczne warunki najłatwiej  
przedstawimy na diagramie


(Rysunek TODO)
<center>[[grafika:Teoria_Informacji_diag1.PNG]]</center>


Używając ciągłości H, wybieramy <math>\eta</math> takie że <math>C_ {\Gamma } - \frac{1}{3} \cdot \varepsilon \leq 1 - H(Q + \eta ) \leq C_ {\Gamma }</math>. Jeśli n jest wystarczająco duże, to potem możemy znaleźć k takie że <math>C_ {\Gamma } - \varepsilon \leq \frac{k}{n} \leq C_ {\Gamma } - \frac{2}{3}\cdot \varepsilon</math>. Tym samym oba warunki są spełnione, co kończy dowód.
Używając ciągłości H, wybieramy <math>\eta</math> takie, że <math>C_ {\Gamma } - \frac{1}{3} \cdot \varepsilon \leq 1 - H(Q + \eta ) \leq C_ {\Gamma }</math>. Jeśli n jest wystarczająco duże, potem możemy znaleźć k takie, że <math>C_ {\Gamma } - \varepsilon \leq \frac{k}{n} \leq C_ {\Gamma } - \frac{2}{3}\cdot \varepsilon</math>. Tym samym oba warunki są spełnione, co kończy dowód.

Aktualna wersja na dzień 22:11, 11 wrz 2023

Wracamy do szacowania PrE(Δ,C). Przypomnijmy, że wyprowadzone na poprzednim wykładzie szacowanie obowiązuje dla dowolnego kodu C, o ile n jest wystarczająco duże. Pokażemy teraz, że dla wystarczająco dużych n istnieje kod C, który spełnia warunki Twierdzenia Shannona. W szczególności taki, dla którego drugi składnik szacowania można ograniczyć z góry przez δ2.

Do dowodu użyjemy metody probabilistycznej. Ustalmy m<2n. Niech 𝒞 będzie zbiorem wszystkich możliwych m-elementowych sekwencji c1,,cm{0,1}n, takich że ci są parami różne. Niech N=|𝒞|.

N=(2nm)m!

Od tego miejsca będziemy używać notacji C¯ na oznaczenie sekwencji z 𝒞. Argument probabilistyczny Shannona opiera się na prostej obserwacji. Jeśli

1NC¯PrE(Δ,C¯)δ

to istnieje kod C, taki że PrE(Δ,C)δ.

Zauważmy, że jeśli C¯ jest sekwencją w 𝒞 o wartościach C={c1,,cm} to

uCvC{u}p(d(v,uE)ρ)=i=1mjip(d(cj,ciE)ρ)

Nasze szacowanie daje zatem

1NC¯PrE(Δ,C¯)1NC¯(δ2+1mi=1mjip(d(cj,ciE)ρ))=δ2+1mi=1mji1NC¯p(d(cj,ciE)ρ)(*)


Oszacujemy teraz (*) dla ustalonej pary indeksów ij.

Dla e{0,1}n niech Sρ(e) oznacza kulę w {0,1}n o promieniu ρ i środku w punkcie e, tzn.

Sρ(e)={v{0,1}n:d(v,e)ρ}

Łatwo zauważyć, że

d(v,ue)ρvuSρ(e)

Zatem

1NC¯p(d(cj,ciE)ρ)=1NC¯p(cicjSρ(E))=e{0,1}np(E=e)1NC¯χ(cicjSρ(e))(**)

(gdzie χ oznacza funkcję charakterystyczną: χ(φ)=1φ jest spełniona).

Możemy oszacować teraz wartość (**) dla ustalonego e. Z pewnością każdy wektor inny niż 0n pojawia się jako cicj dla pewnej sekwencji C¯𝒞, i łatwo zauważyć, że każdy taki wektor pojawia się taką samą liczbę razy, tzn.

|{C¯:u=cicj}|=|{C¯:v=cicj}|=N2n1

dla dowolnych u,v{0,1}n{0n}. A zatem każde uSρ(e){0n} dodaje N2n1 do sumy C¯χ(cicjSρ(e)), czyli

C¯χ(cicjSρ(e))=N2n1|Sρ(e){0n}|

Na poprzednim wykładzie dokonaliśmy oszacowania rozmiaru kuli o promieniu ρ=n(Q+η), mamy zatem

|Sρ(e){0n}|2nH(Q+η)

Możemy już oszacować (**):

1NC¯χ(cicjSρ(e))1NN2n12nH(Q+η)12n12nH(Q+η)

Pamiętając, że e{0,1}np(E=e)=1, otrzymujemy stąd również szacowanie dla (*):

e{0,1}np(E=e)1NC¯χ(cicjSρ(e))(**)12n12nH(Q+η)


Wracając do głównego szacowania, dostajemy

1NC¯E(Δ,C¯)δ2+1mi=1mji12n12nH(Q+η)=δ2+1mm(m1)12n1m2n2nH(Q+η)δ2+m2n2nH(Q+η)=δ2+2n(log2mn+H(Q+η)1)

Jesteśmy tu już blisko celu, gdyż (log2mn+H(Q+η)1) odpowiada „prawie” R(C)CΓ.

Konkretniej, do tej pory wiemy, że powyższe równanie jest spełnione dla wystarczająco dużych n, powiedzmy nn1, i dla dowolnych 2m2n, 0<η<12Q. Twierdzimy, że można dobrać n0n1 m i η w ten sposób, że dla dowolnego nn0 spełnione jest

CΓεlog2mnCΓ(i)
log2mn+H(Q+η)1ε3

W szczególności druga nierówność implikuje

2n(log2mn+H(Q+η)1)12nε3

A więc jeśli n jest wystarczająco duże, dostajemy

1NC¯E(Δ,C¯)δ2+δ2=δ

Używając argumentu probabilistycznego, wnioskujemy, że musi istnieć kod C rozmiaru m, spełniający PrE(Δ,C)δ. Ponieważ R(C)=log2mn, ten kod spełnia warunki Shannona.

Wybór η i m spełniający oba konieczne warunki najłatwiej przedstawimy na diagramie

Używając ciągłości H, wybieramy η takie, że CΓ13ε1H(Q+η)CΓ. Jeśli n jest wystarczająco duże, potem możemy znaleźć k takie, że CΓεknCΓ23ε. Tym samym oba warunki są spełnione, co kończy dowód.