Teoria informacji/TI Wykład 9: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Stromy (dyskusja | edycje)
Nie podano opisu zmian
m Zastępowanie tekstu – „<math> ” na „<math>”
 
(Nie pokazano 7 wersji utworzonych przez 3 użytkowników)
Linia 1: Linia 1:
==Poprawa jakości kanału==
==Poprawa jakości kanału==


Załóżmy że korzystamy z symetrycznego kanału <math>\Gamma</math> określonego przez macierz  
Załóżmy, że korzystamy z symetrycznego kanału <math>\Gamma</math> określonego przez macierz  
<center><math>\left(
<center><math>\left(
\begin{matrix}
\begin{matrix}
Linia 11: Linia 11:
gdzie <math>P>Q</math>. W takim przypadku <math>\Delta_{\max}(i)=i</math> dla <math>i=0,1</math> i dla dowolnego rozkładu A:
gdzie <math>P>Q</math>. W takim przypadku <math>\Delta_{\max}(i)=i</math> dla <math>i=0,1</math> i dla dowolnego rozkładu A:


<center><math>\aligned
<center><math>\begin{align}
Pr_C ( \Delta_{\max } , A ) & = \sum_{b \in \{ 0,1 \} } p (\Delta_{\max } (b) )\cdot p (\Delta_{\max } (b) \to b)\\
Pr_C ( \Delta_{\max } , A ) & = \sum_{b \in \{ 0,1 \} } p (\Delta_{\max } (b) )\cdot p (\Delta_{\max } (b) \to b)\\
& = p (A = 0)\cdot P + p (A = 1)\cdot P \\
& = p (A = 0)\cdot P + p (A = 1)\cdot P \\
& = P
& = P
\endaligned
\end{align}
</math></center>
</math></center>


Z konieczności <math>Pr_E(\Delta_{\max},A)=Q</math>. Ponieważ nie zależy to od A, będziemy zapisywać <math> Pr_E(\Delta_{\max})=Q</math>.
Z konieczności <math>Pr_E(\Delta_{\max},A)=Q</math>. Ponieważ nie zależy to od A, będziemy zapisywać <math>Pr_E(\Delta_{\max})=Q</math>.


Czy jest możliwe uzyskanie mniejszego prawdopodobieństwa błędu przez jakieś sprytniejsze wykorzystanie kanału? Z pewnością tak, jeśli poświęcimy więcej bitów na przesłanie jednego znaku. Naturalnym pomysłem jest wysyłanie każdego bitu kilka (np. 3) razy. Skoro poprawna transmisja jest bardziej prawdopodobna niż przekłamanie (<math>P>Q</math>), odbiorca powinien sprawdzać po prostu który bit na wyjściu pojawia się częściej.
Czy jest możliwe uzyskanie mniejszego prawdopodobieństwa błędu przez jakieś sprytniejsze wykorzystanie kanału? Z pewnością tak, jeśli poświęcimy więcej bitów na przesłanie jednego znaku. Naturalnym pomysłem jest wysyłanie każdego bitu kilka (np. 3) razy. Skoro poprawna transmisja jest bardziej prawdopodobna niż przekłamanie (<math>P>Q</math>), odbiorca powinien sprawdzać po prostu, który bit na wyjściu pojawia się częściej.


<center><math>\begin{matrix}
<center><math>\begin{matrix}
Linia 46: Linia 46:
Jaka jest macierz tego kanału?
Jaka jest macierz tego kanału?


Korzystając z [[Teoria informacji/TI Wykład 8#niez_symboli|niezależności symboli]], możemy policzyć że prawdopodobieństwo <math>p(0|0)</math> że wyjściowy symbol 0 odpowiada wejściowemu 0, wynosi
Korzystając z [[Teoria informacji/TI Wykład 8#niez_symboli|niezależności symboli]], możemy policzyć, że prawdopodobieństwo <math>p(0|0)</math>, że wyjściowy symbol 0 odpowiada wejściowemu 0, wynosi
<center><math>p (000 | 000) + p (001 |000) + p (010 |000) + p (100 |000) = P^3 + 3 P^2 Q</math></center>
<center><math>p (000 | 000) + p (001 |000) + p (010 |000) + p (100 |000) = P^3 + 3 P^2 Q</math></center>


Podobne obliczenia dla pozostałych prawdopodobieństw pokazują że <math>\Gamma'</math> jest znów symetrycznym kanałem, charakteryzowanym przez macierz
Podobne obliczenia dla pozostałych prawdopodobieństw pokazują, że <math>\Gamma'</math> jest znów symetrycznym kanałem, charakteryzowanym przez macierz
<center><math>\left(
<center><math>\left(
\begin{matrix}
\begin{matrix}
Linia 60: Linia 60:
<center><math>Pr_E ( \Delta_{\max } ) = Q^3 + 3 Q^2 P</math></center>
<center><math>Pr_E ( \Delta_{\max } ) = Q^3 + 3 Q^2 P</math></center>


Aby sprawdzić czy to jest mniej niż Q, wystarczy przyjrzeć się funkcji <math>Q^3 + 3 Q^2 (1-Q)-Q</math>. Przyjmuje ona wartości ujemne dla <math>Q < \frac{1}{2} + \frac{1}{\sqrt{12}</math>
Aby sprawdzić, czy to jest mniej niż Q, wystarczy przyjrzeć się funkcji <math>Q^3 + 3 Q^2 (1-Q)-Q</math>. Ma ona pierwiastki <math>Q = \frac{1}{2}, 1</math>. Przyjmuje więc wartości ujemne dla <math>Q < \frac{1}{2}</math>.




W ogólności, jeśli każdy bit zostanie powtórzony n razy i odbiorca będzie zawsze brał wartość częściej występującą (dla uproszczenia załóżmy że n jest nieparzyste), otrzymamy kanał BSC określony macierzą
Ogólnie, jeśli każdy bit zostanie powtórzony n razy i odbiorca będzie zawsze brał wartość częściej występującą (dla uproszczenia załóżmy że n jest nieparzyste), otrzymamy kanał BSC określony macierzą
<center><math>\left(
<center><math>\left(
\begin{matrix}
\begin{matrix}
Linia 78: Linia 78:


Prawdopodobieństwo błędu wynosi
Prawdopodobieństwo błędu wynosi
<center><math> Pr_E ( \Delta_{\max } ) = \sum_{i= 0}^{\lfloor  \frac{n}{2} \rfloor}
<center><math>Pr_E ( \Delta_{\max } ) = \sum_{i= 0}^{\lfloor  \frac{n}{2} \rfloor}
{n \choose i} P^i \cdot Q^{n-i} \leq \underbrace{\sum_{i= 0}^{\lfloor  \frac{n}{2} \rfloor}
{n \choose i} P^i \cdot Q^{n-i} \leq \underbrace{\sum_{i= 0}^{\lfloor  \frac{n}{2} \rfloor}
{n \choose i} }_{=2^{n-1}}
{n \choose i} }_{=2^{n-1}}
Linia 85: Linia 85:


Ponieważ <math>P \cdot Q < \frac{1}{4}</math>, możemy podstawić <math>PQ= \frac{\delta }{4}</math> dla pewnego <math>\delta < 1</math>. Wtedy
Ponieważ <math>P \cdot Q < \frac{1}{4}</math>, możemy podstawić <math>PQ= \frac{\delta }{4}</math> dla pewnego <math>\delta < 1</math>. Wtedy
<center><math> Pr_E ( \Delta_{\max } ) \leq 2^{n-1} \cdot (PQ)^{\lfloor  \frac{n}{2} \rfloor}  =
<center><math>Pr_E ( \Delta_{\max } ) \leq 2^{n-1} \cdot (PQ)^{\lfloor  \frac{n}{2} \rfloor}  =
2^{n-1} \cdot \frac{\delta^{\lfloor  \frac{n}{2} \rfloor}}{2^{2 \cdot \lfloor  \frac{n}{2} \rfloor }}= \delta^{\lfloor  \frac{n}{2} \rfloor}</math></center>
2^{n-1} \cdot \frac{\delta^{\lfloor  \frac{n}{2} \rfloor}}{2^{2 \cdot \lfloor  \frac{n}{2} \rfloor }}= \delta^{\lfloor  \frac{n}{2} \rfloor}</math></center>


A więc <math> Pr_E ( \Delta_{\max } ) \to 0</math> gdy <math> n \to \infty</math>.
A więc <math>Pr_E ( \Delta_{\max } ) \to 0</math> gdy <math>n \to \infty</math>.
 
Pokazaliśmy że możemy sprowadzić prawdopodobieństwo błędu do dowolnie małej wartości, za cenę wydłużania coraz bardziej wiadomości. Główne twierdzenie Shannona (które poznamy na następnym wykładzie) pokazuje że, w pewnym sensie, ta cena nie jest konieczna. Dla wyrobienia intuicji że coś takiego jest możliwe, zauważmy że wybraliśmy powtarzanie tego samego symbolu dla uproszczenia, i możliwe są inne kodowania. Przykładowo, dyktując komuś przez telefon trudne słowo, każdą literę opisujemy całym słowem: przykładowo nazwę stolicy Gruzji, powiemy: T jak Teresa, B jak Barbara, I jak Iwona, L jak Lucyna, I jak Iwona, S jak Stanisław, I jak Iwona.


Pokazaliśmy, że możemy sprowadzić prawdopodobieństwo błędu do dowolnie małej wartości za cenę wydłużania coraz bardziej wiadomości. Główne twierdzenie Shannona (które poznamy na następnym wykładzie) pokazuje, że w pewnym sensie ta cena nie jest konieczna. Dla wyrobienia intuicji, że coś takiego jest możliwe, zauważmy, że wybraliśmy powtarzanie tego samego symbolu dla uproszczenia i że możliwe są inne kodowania. Przykładowo, dyktując komuś przez telefon trudne słowo, każdą literę opisujemy całym słowem: przykładowo nazwę stolicy Gruzji, powiemy: T jak Teresa, B jak Barbara, I jak Iwona, L jak Lucyna, I jak Iwona, S jak Stanisław, I jak Iwona.


==Odległość Hamminga==
==Odległość Hamminga==


{{definicja|[Odległość Hamminga]|hamming| Dla skończonego zbioru <math>\mathcal{A}</math> i <math>n \in \mathbb{N}</math>, '''odległość Hamminga''' między słowami <math>u, v \in \mathcal{A}^n</math> definiujemy jako
{{definicja|[Odległość Hamminga]|hamming| Dla skończonego zbioru <math>\mathcal{A}</math> i <math>n \in \mathbb{N}</math> '''odległość Hamminga''' między słowami <math>u, v \in \mathcal{A}^n</math> definiujemy jako:
<center><math>d (u,v) = | \{ i : u_i \neq v_i \}|</math></center>}}
<center><math>d (u,v) = | \{ i : u_i \neq v_i \}|</math></center>}}


Łatwo sprawdzić że ta odległość spełnia warunki metryki
Łatwo sprawdzić, że ta odległość spełnia warunki metryki:


*<math>d(u,v)\ge 0</math>
*<math>d(u,v)\ge 0</math>
*<math>d(u,v) = 0 \Longleftrightarrow u = v </math>
*<math>d(u,v) = 0 \Longleftrightarrow u = v</math>
*<math>d(u,v) = d(v,u)</math>
*<math>d(u,v) = d(v,u)</math>
*<math>d(u,w) \leq d(u,v) + d(v,w)</math>
*<math>d(u,w) \leq d(u,v) + d(v,w)</math>


(ostatnia nierówność wynika z faktu że <math>\{ i : u_i \neq w_i  \} \subseteq \{ i : u_i \neq v_i \} \cup \{ i : v_i \neq w_i  \} </math>)
(ostatnia nierówność wynika z faktu że <math>\{ i : u_i \neq w_i  \} \subseteq \{ i : u_i \neq v_i \} \cup \{ i : v_i \neq w_i  \}</math>)




Pojęcie odległości Hamminga umożliwia wygodne zapisywanie prawdopodobieństwa warunkowego sekwencji wyjściowej <math>\vec{b} = b_1 \ldots b_k</math> dla sekwencji wejściowej <math>\vec{a} = a_1 \ldots a_k</math>. Dla BSC prawdopodobieństwo to ma wartość:
Pojęcie odległości Hamminga umożliwia wygodne zapisywanie prawdopodobieństwa warunkowego sekwencji wyjściowej <math>\vec{b} = b_1 \ldots b_k</math> dla sekwencji wejściowej <math>\vec{a} = a_1 \ldots a_k</math>. Dla BSC prawdopodobieństwo to ma wartość:
<center><math>p( b_1 \ldots b_k | a_1 \ldots a_k ) = Q^{d (\vec{a},\vec{b})} \cdot P^{1 - d (\vec{a},\vec{b})}</math></center>
<center><math>p( b_1 \ldots b_k | a_1 \ldots a_k ) = Q^{d (\vec{a},\vec{b})} \cdot P^{k - d (\vec{a},\vec{b})}</math></center>

Aktualna wersja na dzień 22:13, 11 wrz 2023

Poprawa jakości kanału

Załóżmy, że korzystamy z symetrycznego kanału Γ określonego przez macierz

(PQQP)

gdzie P>Q. W takim przypadku Δmax(i)=i dla i=0,1 i dla dowolnego rozkładu A:

PrC(Δmax,A)=b{0,1}p(Δmax(b))p(Δmax(b)b)=p(A=0)P+p(A=1)P=P

Z konieczności PrE(Δmax,A)=Q. Ponieważ nie zależy to od A, będziemy zapisywać PrE(Δmax)=Q.

Czy jest możliwe uzyskanie mniejszego prawdopodobieństwa błędu przez jakieś sprytniejsze wykorzystanie kanału? Z pewnością tak, jeśli poświęcimy więcej bitów na przesłanie jednego znaku. Naturalnym pomysłem jest wysyłanie każdego bitu kilka (np. 3) razy. Skoro poprawna transmisja jest bardziej prawdopodobna niż przekłamanie (P>Q), odbiorca powinien sprawdzać po prostu, który bit na wyjściu pojawia się częściej.

00001111

00000101010001111101010111

Całą procedurę możemy interpretować jako nowy kanał Γ.

01

01

Jaka jest macierz tego kanału?

Korzystając z niezależności symboli, możemy policzyć, że prawdopodobieństwo p(0|0), że wyjściowy symbol 0 odpowiada wejściowemu 0, wynosi

p(000|000)+p(001|000)+p(010|000)+p(100|000)=P3+3P2Q

Podobne obliczenia dla pozostałych prawdopodobieństw pokazują, że Γ jest znów symetrycznym kanałem, charakteryzowanym przez macierz

(P3+3P2QQ3+3Q2PQ3+3Q2PP3+3P2Q)

Oczywiście Q3+3Q2P<P3+3P2Q. Prawdopodobieństwo błędu wynosi tu

PrE(Δmax)=Q3+3Q2P

Aby sprawdzić, czy to jest mniej niż Q, wystarczy przyjrzeć się funkcji Q3+3Q2(1Q)Q. Ma ona pierwiastki Q=12,1. Przyjmuje więc wartości ujemne dla Q<12.


Ogólnie, jeśli każdy bit zostanie powtórzony n razy i odbiorca będzie zawsze brał wartość częściej występującą (dla uproszczenia załóżmy że n jest nieparzyste), otrzymamy kanał BSC określony macierzą

(i=n2n(ni)PiQnii=0n2(ni)PiQnii=0n2(ni)PiQnii=n2n(ni)PiQni)

Prawdopodobieństwo błędu wynosi

PrE(Δmax)=i=0n2(ni)PiQnii=0n2(ni)=2n1Pn2Qn2

Ponieważ PQ<14, możemy podstawić PQ=δ4 dla pewnego δ<1. Wtedy

PrE(Δmax)2n1(PQ)n2=2n1δn222n2=δn2

A więc PrE(Δmax)0 gdy n.

Pokazaliśmy, że możemy sprowadzić prawdopodobieństwo błędu do dowolnie małej wartości za cenę wydłużania coraz bardziej wiadomości. Główne twierdzenie Shannona (które poznamy na następnym wykładzie) pokazuje, że w pewnym sensie ta cena nie jest konieczna. Dla wyrobienia intuicji, że coś takiego jest możliwe, zauważmy, że wybraliśmy powtarzanie tego samego symbolu dla uproszczenia i że możliwe są inne kodowania. Przykładowo, dyktując komuś przez telefon trudne słowo, każdą literę opisujemy całym słowem: przykładowo nazwę stolicy Gruzji, powiemy: T jak Teresa, B jak Barbara, I jak Iwona, L jak Lucyna, I jak Iwona, S jak Stanisław, I jak Iwona.

Odległość Hamminga

Definicja [Odległość Hamminga]

Dla skończonego zbioru 𝒜 i n odległość Hamminga między słowami u,v𝒜n definiujemy jako:
d(u,v)=|{i:uivi}|

Łatwo sprawdzić, że ta odległość spełnia warunki metryki:

  • d(u,v)0
  • d(u,v)=0u=v
  • d(u,v)=d(v,u)
  • d(u,w)d(u,v)+d(v,w)

(ostatnia nierówność wynika z faktu że {i:uiwi}{i:uivi}{i:viwi})


Pojęcie odległości Hamminga umożliwia wygodne zapisywanie prawdopodobieństwa warunkowego sekwencji wyjściowej b=b1bk dla sekwencji wejściowej a=a1ak. Dla BSC prawdopodobieństwo to ma wartość:

p(b1bk|a1ak)=Qd(a,b)Pkd(a,b)