Teoria informacji/TI Wykład 12: Różnice pomiędzy wersjami
Nie podano opisu zmian |
Nie podano opisu zmian |
||
Linia 1: | Linia 1: | ||
Wracamy do szacowania <math>Pr_E(\Delta, C)</math>. Przypomnijmy że | Wracamy do szacowania <math>Pr_E(\Delta, C)</math>. Przypomnijmy że wyprowadzone na poprzednim wykładzie [[Teoria informacji/TI Wykład 11#metoda_prob|szacowanie]] obowiązuje dla dowolnego kodu C, o ile n jest wystarczająco duże. Pokażemy teraz że dla wystarczająco dużych n ''istnieje'' kod C który spełnia warunki Twierdzenia Shannona. W szczególności taki dla którego drugi składnik [[Teoria informacji/TI Wykład 11#metoda_prob|szacowania]] można ograniczyć z góry przez <math>\frac{\delta}{2}</math>. | ||
Do dowodu użyjemy ''metody probabilistycznej''. Ustalmy <math>m < 2^n</math>. Niech <math>\mathcal{C}</math> będzie zbiorem wszystkich możliwych m-elementowych sekwencji <math>c_1, \ldots, c_m \in \{0,1\}^n</math> takich że <math>c_i</math> są parami różne. Niech <math>N = |\mathcal{C}|</math>. | Do dowodu użyjemy ''metody probabilistycznej''. Ustalmy <math>m < 2^n</math>. Niech <math>\mathcal{C}</math> będzie zbiorem wszystkich możliwych m-elementowych sekwencji <math>c_1, \ldots, c_m \in \{0,1\}^n</math> takich że <math>c_i</math> są parami różne. Niech <math>N = |\mathcal{C}|</math>. | ||
<center><math> N = {2^n \choose m} \cdot m!</math></center> | |||
Od tego miejsca będziemy używać notacji <math>\bar{C}</math> na oznaczenie sekwencji z <math>\mathcal{C}</math>. Argument probabilistyczny Shannona opiera się na prostej obserwacji. Jeśli | Od tego miejsca będziemy używać notacji <math>\bar{C}</math> na oznaczenie sekwencji z <math>\mathcal{C}</math>. Argument probabilistyczny Shannona opiera się na prostej obserwacji. Jeśli | ||
<center><math>\frac{1}{N} \sum_{\bar{C}} Pr_E ( \Delta , \bar{C}) \leq \delta</math></center> | |||
to istnieje kod C taki że <math>Pr_E(\Delta,\bar{C}) \le \delta </math>. | to istnieje kod C taki że <math>Pr_E(\Delta,\bar{C}) \le \delta </math>. | ||
Zauważmy że jeśli <math>\bar{C}</math> jest sekwencją w <math>\mathcal{C}</math> o wartościach <math>C=\{c_1, \ldots, \c_m \}</math> to | Zauważmy że jeśli <math>\bar{C}</math> jest sekwencją w <math>\mathcal{C}</math> o wartościach <math>C=\{c_1, \ldots, \c_m \}</math> to | ||
<center><math> \sum_{u \in C} \sum_{v \in C - \{ u \}} p ( d (v,u \oplus E) \leq \rho ) = | |||
\sum_{i = 1}^m \sum_{j \neq i} \, p ( d (c_j,c_i \oplus E) \leq \rho )</math> | \sum_{i = 1}^m \sum_{j \neq i} \, p ( d (c_j,c_i \oplus E) \leq \rho )</math></center> | ||
Nasze [[Teoria informacji/TI Wykład 11#metoda_prob|szacowanie]] daje zatem | |||
<math>\frac{1}{N} \sum_{\bar{C}} \pr_E ( \Delta , \bar{C} ) \leq | <center>{{kotwica|metoda_prob2|}}<math>\aligned | ||
\frac{1}{N} \sum_{\bar{C}} \left( \frac{\delta }{2} + | \frac{1}{N} \sum_{\bar{C}} \pr_E ( \Delta , \bar{C} ) & \leq | ||
\frac{1}{m} \sum_{i = 1}^m \sum_{j \neq i} \, p ( d (c_j,c_i \oplus E) \leq \rho ) | \frac{1}{N} \sum_{\bar{C}} \left( \frac{\delta }{2} + \frac{1}{m} \sum_{i = 1}^m \sum_{j \neq i} \, p ( d (c_j,c_i \oplus E) \leq \rho ) \right) \\ | ||
\right) | & = \frac{\delta }{2} + \frac{1}{m} \sum_{i = 1}^m \sum_{j \neq i} | ||
\underbrace{\frac{1}{N} \sum_{\bar{C}} p ( d (c_j,c_i \oplus E) \leq \rho )}_{(*)} | |||
\underbrace{\frac{1}{N} \sum_{\bar{C}} p ( d (c_j,c_i \oplus E) \leq \rho )}_{(*)}</math> | \endaligned | ||
</math></center> | |||
Linia 26: | Linia 27: | ||
Dla <math>e \in \{0,1\}^n</math> niech <math>S_{\rho } (e)</math> oznacza kulę w <math>\{0,1\}^n</math> o promieniu <math>\rho</math> i środku w punkcie e, tzn. | Dla <math>e \in \{0,1\}^n</math> niech <math>S_{\rho } (e)</math> oznacza kulę w <math>\{0,1\}^n</math> o promieniu <math>\rho</math> i środku w punkcie e, tzn. | ||
<center><math>S_{\rho } (e) = \{ v \in \{ 0,1 \}^n : d(v,e) \leq \rho \}</math></center> | |||
Łatwo zauważyć że | Łatwo zauważyć że | ||
<center><math>d (v, u \oplus e ) \leq \rho \Longleftrightarrow v \oplus u \in S_{\rho } (e) </math></center> | |||
Zatem | Zatem | ||
<math>\frac{1}{N} \sum_{\bar{C}} p ( d (c_j,c_i \oplus E) \leq \rho ) = | <center><math>\aligned | ||
\frac{1}{N} \sum_{\bar{C}} p \left( c_i \oplus c_j \in S_{\rho } (E) \right) | \frac{1}{N} \sum_{\bar{C}} p ( d (c_j,c_i \oplus E) \leq \rho ) & = | ||
\frac{1}{N} \sum_{\bar{C}} p \left( c_i \oplus c_j \in S_{\rho } (E) \right) \\ | |||
\cdot \chi (c_i \oplus c_j \in S_{\rho } (e) )}_{(**)}</math> | & = \sum_{e \in \{ 0, 1 \}^n } p (E = e) \cdot \underbrace{\frac{1}{N} \sum_{\bar{C}} | ||
\cdot \chi (c_i \oplus c_j \in S_{\rho } (e) )}_{(**)} | |||
\endaligned | |||
</math></center> | |||
(gdzie <math>\chi</math> oznacza funkcję charakterystyczną <math>\chi(\varphi)=1 \Longleftrightarrow \varphi | (gdzie <math>\chi</math> oznacza funkcję charakterystyczną: <math>\chi(\varphi)=1 \Longleftrightarrow \varphi</math> jest spełniona). | ||
Możemy oszacować teraz wartość (**) dla ustalonego e. Z pewnością każdy wektor inny niż <math>0^n</math> pojawia się jako <math>c_i \oplus c_j</math> dla pewnej sekwencji <math>\bar{C} \in \mathcal{C}</math>, i łatwo zauważyć że każdy taki wektor pojawia się taką samą liczbę razy | Możemy oszacować teraz wartość (**) dla ustalonego e. Z pewnością każdy wektor inny niż <math>0^n</math> pojawia się jako <math>c_i \oplus c_j</math> dla pewnej sekwencji <math>\bar{C} \in \mathcal{C}</math>, i łatwo zauważyć że każdy taki wektor pojawia się taką samą liczbę razy | ||
<center><math>| \{ \bar{C} : u = c_i \oplus c_j \} | = | \{ \bar{C} : v = c_i \oplus c_j \} | = \frac{N}{2^n - 1}</math></center> | |||
dla dowolnych <math>u,v \in \{0,1\}^n-\{0^n\}</math>. A zatem każde <math>u \in S_{\rho}(e) - \{0^n\}</math> dodaje <math>\frac{N}{2^n-1}</math> do sumy <math>\sum_{\bar{C}} | dla dowolnych <math>u,v \in \{0,1\}^n-\{0^n\}</math>. A zatem każde <math>u \in S_{\rho}(e) - \{0^n\}</math> dodaje <math>\frac{N}{2^n-1}</math> do sumy <math>\sum_{\bar{C}} | ||
\cdot \chi (c_i \oplus c_j \in S_{\rho } (e) )</math>, czyli | |||
<center><math>\sum_{\bar{C}} \cdot \chi (c_i \oplus c_j \in S_{\rho } (e) ) = | |||
\frac{N}{2^n - 1} | S_{\rho } (e) - \{ 0^n \} |</math> | \frac{N}{2^n - 1} | S_{\rho } (e) - \{ 0^n \} |</math></center> | ||
Możemy to teraz zsumować po możliwych wartościach e: | Możemy to teraz zsumować po możliwych wartościach e: | ||
<math>\sum_{e \in \{ 0, 1 \}^n } p (E = e) \cdot \frac{1}{N} \sum_{\bar{C}} | <center><math>\aligned | ||
\cdot \chi (c_i \oplus c_j \in S_{\rho } (e) ) = \sum_{e \in \{ 0, 1 \}^n } p (E = e) \cdot | \sum_{e \in \{ 0, 1 \}^n } p (E = e) \cdot \frac{1}{N} \sum_{\bar{C}} | ||
\frac{1}{2^n - 1} | S_{\rho } (e) - \{ 0^n \} | | \cdot \chi (c_i \oplus c_j \in S_{\rho } (e) ) & = \sum_{e \in \{ 0, 1 \}^n } p (E = e) \cdot | ||
\frac{1}{2^n - 1} | S_{\rho } (e) - \{ 0^n \} | \\ | |||
& = \frac{1}{2^n - 1} | S_{\rho } (e) - \{ 0^n \} | | |||
\endaligned | |||
</math></center> | |||
Znamy ponadto objętość <math>S_{\rho}(e)</math>, więc | Znamy ponadto objętość <math>S_{\rho}(e)</math>, więc | ||
<center><math>| S_{\rho } (e) - \{ 0^n \} | \leq 2^{n \cdot H(\rho)} = 2^{n \cdot H(Q + \eta )}</math></center> | |||
Wracając do | Wracając do [[#metoda_prob2|głównego szacowania]] dostajemy | ||
<math>\frac{1}{N} \sum_{\bar{C}} \, \pr_E ( \Delta , \bar{C} ) \leq | <center><math>\aligned | ||
\frac{\delta }{2} + \frac{1}{m} \sum_{i = 1}^m \sum_{j \neq i} \frac{1}{2^n - 1} \cdot 2^{n \cdot H(Q + \eta )} | \frac{1}{N} \sum_{\bar{C}} \, \pr_E ( \Delta , \bar{C} ) & \leq | ||
\frac{\delta }{2} + \frac{1}{m} \sum_{i = 1}^m \sum_{j \neq i} \frac{1}{2^n - 1} \cdot 2^{n \cdot H(Q + \eta )} \\ | |||
& = \frac{\delta }{2} + \frac{1}{m} \cdot m \cdot \underbrace{(m-1) \cdot \frac{1}{2^n - 1}}_{\leq \frac{m}{2^n}} \cdot 2^{n \cdot H(Q + \eta )} \\ | |||
& \leq \frac{\delta }{2} + \frac{m}{2^n} \cdot 2^{n \cdot H(Q + \eta )} \\ | |||
& = \frac{\delta }{2} + 2^{ n \cdot \left( \frac{\log_2 m}{n} + H(Q + \eta ) - 1 \right) } | |||
\endaligned | |||
</math></center> | |||
Jesteśmy tu już blisko celu, gdyż <math>\left( \frac{\log_2 m}{n} + H(Q + \eta ) - 1 \right)</math> odpowiada „prawie” <math>R(C)-C_{\Gamma}</math>. | Jesteśmy tu już blisko celu, gdyż <math>\left( \frac{\log_2 m}{n} + H(Q + \eta ) - 1 \right)</math> odpowiada „prawie” <math>R(C)-C_{\Gamma}</math>. | ||
Konkretniej, do tej pory wiemy że powyższe równanie jest spełnione dla wystarczająco dużych n, np. <math> n \ge n_1 </math>, i dla <math>2 \le m \le 2^n</math>, <math>0 < \eta < \frac{1}{2} – Q</math>. Twierdzimy że można dobrać <math>n_0 \ge n_1</math> m i </math>\eta</math> w ten sposób że dla dowolnego <math>n \ge n_0</math> spełnione jest | Konkretniej, do tej pory wiemy że powyższe równanie jest spełnione dla wystarczająco dużych n, np. <math> n \ge n_1 </math>, i dla <math>2 \le m \le 2^n</math>, <math>0 < \eta < \frac{1}{2} – Q</math>. Twierdzimy że można dobrać <math>n_0 \ge n_1</math> m i </math>\eta</math> w ten sposób że dla dowolnego <math>n \ge n_0</math> spełnione jest | ||
<center><math>C_{\Gamma } - \varepsilon \leq \frac{\log_2 m}{n} \leq C_{\Gamma } \label{(i)} </math></center> | |||
<center><math> \frac{\log_2 m}{n} + H(Q + \eta ) - 1 \leq - \frac{\varepsilon }{3}</math></center> | |||
W szczególności druga nierówność implikuje | W szczególności druga nierówność implikuje | ||
<center><math>2^{ n \cdot \left( \frac{\log_2 m}{n} + H(Q + \eta ) - 1 \right) } \leq | |||
\frac{1}{2^{n \cdot \frac{\varepsilon }{3}}}</math> | \frac{1}{2^{n \cdot \frac{\varepsilon }{3}}}</math></center> | ||
A więc jeśli n jest wystarczająco duże, to dostajemy | A więc jeśli n jest wystarczająco duże, to dostajemy | ||
<center><math> \frac{1}{N} \sum_{\bar{C}} \, \pr_E ( \Delta , \bar{C} ) \leq | |||
\frac{\delta }{2} + \frac{\delta }{2} = \delta </math> | \frac{\delta }{2} + \frac{\delta }{2} = \delta </math></center> | ||
Używając argumentu probabilistycznego wnioskujemy że musi istnieć kod C rozmiaru m, spełniający <math>Pr_E(\Delta,C) \leq \delta</math>. Ponieważ <math>R(C)=\frac{\log_2 m}{n}</math>, ten kod spełnia warunki Shannona. | Używając argumentu probabilistycznego wnioskujemy że musi istnieć kod C rozmiaru m, spełniający <math>Pr_E(\Delta,C) \leq \delta</math>. Ponieważ <math>R(C)=\frac{\log_2 m}{n}</math>, ten kod spełnia warunki Shannona. | ||
Wybór spełniający warunki | Wybór spełniający oba konieczne warunki najłatwiej przedstawić na diagramie | ||
<center>[[grafika:Teoria_Informacji_diag1.PNG]]</center> | |||
Używając ciągłości H, wybieramy <math>\eta</math> takie że <math>C_ {\Gamma } - \frac{1}{3} \cdot \varepsilon \leq 1 - H(Q + \eta ) \leq C_ {\Gamma }</math>. Jeśli n jest wystarczająco duże, to potem możemy znaleźć k takie że <math>C_ {\Gamma } - \varepsilon \leq \frac{k}{n} \leq C_ {\Gamma } - \frac{2}{3}\cdot \varepsilon</math>. Tym samym oba warunki są spełnione, co kończy dowód. | Używając ciągłości H, wybieramy <math>\eta</math> takie że <math>C_ {\Gamma } - \frac{1}{3} \cdot \varepsilon \leq 1 - H(Q + \eta ) \leq C_ {\Gamma }</math>. Jeśli n jest wystarczająco duże, to potem możemy znaleźć k takie że <math>C_ {\Gamma } - \varepsilon \leq \frac{k}{n} \leq C_ {\Gamma } - \frac{2}{3}\cdot \varepsilon</math>. Tym samym oba warunki są spełnione, co kończy dowód. |
Wersja z 17:33, 2 sie 2006
Wracamy do szacowania . Przypomnijmy że wyprowadzone na poprzednim wykładzie szacowanie obowiązuje dla dowolnego kodu C, o ile n jest wystarczająco duże. Pokażemy teraz że dla wystarczająco dużych n istnieje kod C który spełnia warunki Twierdzenia Shannona. W szczególności taki dla którego drugi składnik szacowania można ograniczyć z góry przez .
Do dowodu użyjemy metody probabilistycznej. Ustalmy . Niech będzie zbiorem wszystkich możliwych m-elementowych sekwencji takich że są parami różne. Niech .
Od tego miejsca będziemy używać notacji na oznaczenie sekwencji z . Argument probabilistyczny Shannona opiera się na prostej obserwacji. Jeśli
to istnieje kod C taki że .
Zauważmy że jeśli jest sekwencją w o wartościach Parser nie mógł rozpoznać (nieznana funkcja „\c”): {\displaystyle C=\{c_1, \ldots, \c_m \}} to
Nasze szacowanie daje zatem
Oszacujemy teraz (*) dla ustalonej pary indeksów .
Dla niech oznacza kulę w o promieniu i środku w punkcie e, tzn.
Łatwo zauważyć że
Zatem
(gdzie oznacza funkcję charakterystyczną: jest spełniona).
Możemy oszacować teraz wartość (**) dla ustalonego e. Z pewnością każdy wektor inny niż pojawia się jako dla pewnej sekwencji , i łatwo zauważyć że każdy taki wektor pojawia się taką samą liczbę razy
dla dowolnych . A zatem każde dodaje do sumy , czyli
Możemy to teraz zsumować po możliwych wartościach e:
Znamy ponadto objętość , więc
Wracając do głównego szacowania dostajemy
Jesteśmy tu już blisko celu, gdyż odpowiada „prawie” .
Konkretniej, do tej pory wiemy że powyższe równanie jest spełnione dla wystarczająco dużych n, np. , i dla , Parser nie mógł rozpoznać (błąd składni): {\displaystyle 0 < \eta < \frac{1}{2} – Q} . Twierdzimy że można dobrać m i </math>\eta</math> w ten sposób że dla dowolnego spełnione jest
W szczególności druga nierówność implikuje
A więc jeśli n jest wystarczająco duże, to dostajemy
Używając argumentu probabilistycznego wnioskujemy że musi istnieć kod C rozmiaru m, spełniający . Ponieważ , ten kod spełnia warunki Shannona.
Wybór spełniający oba konieczne warunki najłatwiej przedstawić na diagramie
Używając ciągłości H, wybieramy takie że . Jeśli n jest wystarczająco duże, to potem możemy znaleźć k takie że . Tym samym oba warunki są spełnione, co kończy dowód.