Teoria informacji/TI Wykład 8: Różnice pomiędzy wersjami

Aktualna wersja na dzień 22:17, 11 wrz 2023

Reguły decyzyjne

Przypuśćmy, że na wyjściu z kanału $Γ$ otrzymujemy sekwencję znaków $b_{i_{1}}, \dots, b_{i_{k}}$ . Znając mapowanie $P (a \to b)$ dla $a \in 𝒜, b \in ℬ$ , czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?

W niektórych przypadkach jest to oczywiste. Przykładowo dla wiernego kanału odwracającego wystarczy, że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo, dla wadliwej maszyny do pisania tekst wynikowy afu mógł pochodzić z tekstu zet, ale również z tekstu aft i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia, które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).

Definicja [Reguła decyzyjna}

Regułą decyzyjną nazwiemy każde mapowanie

Δ : ℬ \to 𝒜

.

Jakość reguły mierzymy przez

P r_{C} (Δ, A) \overset{d e f}{=} p (Δ \circ B = A)

gdzie (A,B) są parą wejście-wyjście (zauważmy że B jest tu jednoznacznie określone, więc definicja jest spójna).

Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.:

\begin{aligned} p (Δ \circ B = A) & = \sum_{a \in 𝒜, b \in ℬ} p (A = a \land B = b \land Δ (b) = a) \\ = \sum_{b \in ℬ} p (B = b \land A = Δ (b)) \\ = \sum_{b \in ℬ} p (A = Δ (b)) \cdot (B = b | A = Δ (b)) \\ = \sum_{b \in ℬ} p (A = Δ (b)) \cdot P (Δ (b) \to b) \end{aligned}

Dualnie, prawdopodobieństwo błędu reguły $Δ$ , definiujemy jako

\begin{aligned} P r_{E} (Δ, A) & = 1 - P r_{C} (Δ, A) \\ = \sum_{a \in 𝒜, b \in ℬ} p (A = a \land B = b \land Δ (b) \neq a) \\ = \sum_{a \in 𝒜} p (A = a) \cdot p (Δ \circ B \neq a | A = a) \end{aligned}

Interesuje nas maksymalizacja $P r_{C} (Δ, A)$ , a więc minimalizacja $P r_{E} (Δ, A)$ .

Jeśli rozkład prawdopodobieństwa na A jest znany, możemy taką regułę jednoznacznie wyznaczyć:

Definicja [Reguła idealnego obserwatora]

Ta reguła odwzorowuje

b \in ℬ

na

Δ_{o} (b) = a

, takie że

p (a | b)

jest maksymalne.

p (a | b)

możemy wyznaczyć (znając rozkład A) ze wzoru:

p (a | b) = \frac{p (a \land b)}{p (b)} = \frac{p (a \to b) \cdot p (a)}{Σ_{a^{'} \in 𝒜} p (a^{'} \to b) \cdot p (a^{'})}

Z definicji wynika, że

P r_{C} (Δ_{o}, A) \geq P r_{C} (Δ, A)

dla dowolnej reguły decyzyjnej $Δ$ .

Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest

Definicja [Reguła maksymalnego podobieństwa]

Ta reguła odwzorowuje

b \in ℬ

na

Δ_{m a x} (b) = a

w taki sposób, że

p (a \to b) = p (b | a)

jest maksymalne.

Jeśli rozkład na A jest jednostajny ( $p (a) = \frac{1}{𝒜}$ ), to reguła ta odpowiada regule $Δ_{o}$ .

Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna. Jest jednak w pewnym sensie „globalnie optymalna”. Przedstawimy tutaj szkic dowodu:

Niech $𝒜 = {a_{1}, \dots, a_{m}}$ , i niech $𝒫$ będzie zbiorem wszystkich rozkładów prawdopodobieństwa na $𝒜$ ,

𝒫 = {p : \sum_{a \in 𝒜} p (a) = 1}

Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa $p$ . Średnią (globalną) jakością reguły $Δ$ niech będzie

\begin{aligned} \int_{p \in 𝒫} P r_{C} (Δ, p) d p & = \int_{p \in 𝒫} \sum_{b \in ℬ} p (Δ (b)) \cdot p (Δ (b) \to b) d p \\ = \sum_{b \in ℬ} p (Δ (b) \to b) \cdot \int_{p \in 𝒫} p (Δ (b)) d p \end{aligned}

Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue'a), że $\int_{p \in 𝒫} p (a) d p$ nie zależy od wyboru a. Zatem $\int_{p \in 𝒫} p (Δ (b)) d p$ jest zawsze takie samo, i żeby zmaksymalizować $\int_{p \in 𝒫} P r_{C} (Δ, p) d p$ , musimy maksymalizować $\sum_{b \in ℬ} p (Δ (b) \to b)$ , co realizuje właśnie reguła maksymalnego podobieństwa.

Wielokrotne używanie kanału

Przypuśćmy, że wysyłamy przez kanał ciąg symboli $a_{1}, a_{2}, \dots, a_{k}$ . Jakie jest prawdopodobieństwo, że wyjściowym ciągiem będzie $b_{1}, b_{2}, \dots, b_{k}$ ? Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych $P (a \to b)$ .

Przypomnijmy, że zmienne losowe $X_{1}, X_{2}, \dots, X_{k}$ są niezależne, jeśli

P (X_{1} = x_{1} \land \dots \land X_{k} = x_{k}) = p (X_{1} = x_{1}) \cdot \dots \cdot p (X_{k} = x_{k})

(warto zauważyć, że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych).

Rozszerzając naszą konwencję zapisową, będziemy skracać $p (X_{1} = x_{1} \land \dots \land X_{k} = x_{k})$ do $p (x_{1} \dots x_{k})$ .

Lemat

Jeśli zmienne losowe (X,Y) oraz (X',Y') są niezależne, to

p (Y = y \land Y^{'} = y^{'} | X = x \land X^{'} = x^{'}) = p (Y = y | X = x) \cdot p (Y^{'} = y^{'} | X^{'} = x^{'})

o ile zachodzi zachodzi

p (X = x \land X^{'} = x^{'}) > 0

.

Dowód

Po pierwsze, zauważmy, że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'.

p (x \land x^{'}) = p ((x \land ⋁ 𝒴) \land (x^{'} \land ⋁ 𝒴^{'})) = \sum_{y, y^{'}} p (x \land y) \cdot p (x^{'} \land y^{'}) = p (x) \cdot p (x^{'})

Zatem

p (y \land y^{'} | x \land x^{'}) = \frac{p (y \land y^{'} \land x \land x^{'})}{p (x \land x^{'})} = \frac{p (y \land x) \cdot p (y^{'} \land x^{'})}{p (x) \cdot p (x^{'})} = p (y | x) \cdot p (y^{'} | x^{'})

Wniosek [Niezależność symboli]

Załóżmy, że

(A_{1}, B_{1}), \dots, (A_{k}, B_{k})

są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para

(A_{i}, B_{i})

jest parą wejście-wyjście dla kanału

Γ

. Wtedy

p (b_{1} \dots b_{k} | a_{1} \dots a_{k}) = p (b_{1} | a_{1}) \cdot \dots \cdot p (b_{k} | a_{k})

Dowód

Niezależność

(A_{1}, B_{1}), \dots, (A_{k}, B_{k})

implikuje, że

(A_{i}, B_{i})

jest niezależne od

(A_{2}, B_{2}), \dots, (A_{k}, B_{k})

. Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego lematu.

Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne i w większości wypadków nie możemy go użyć. Okazuje się, że można je zastąpić czymś znacznie słabszym:

Twierdzenie

Załóżmy, że

(A_{1}, B_{1}), \dots, (A_{k}, B_{k})

spełniają poniższe wymagania:

Bezstanowość

p (b_{k} | a_{1} \dots a_{k}, b_{1} \dots b_{k - 1}) = p (b_{k} | a_{k})

Brak feedbacku

p (a_{k} | a_{1} \dots a_{k - 1}, b_{1} \dots b_{k - 1}) = p (a_{k} | a_{1} \dots a_{k - 1})

Wtedy niezależność symboli jest zachowana.

Dowód

Przez indukcję możemy pokazać, że

p (a_{1} \land \dots \land a_{k} \land b_{1} \land \dots \land b_{k}) = p (b_{1} | a_{1}) \cdot \dots \cdot p (b_{k} | a_{k}) \cdot p (a_{1} \land \dots \land a_{k})

jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek $k = 1$ jest trywialny. Krok indukcyjny uzyskujemy łącząc bezstanowość:

p (a_{1} \land \dots \land a_{k} \land b_{1} \land \dots \land b_{k}) = p (b_{k} | a_{k}) \cdot p (a_{1} \dots a_{k}, b_{1} \dots b_{k - 1})

z brakiem feedbacku:

p (a_{1} \dots a_{k}, b_{1} \dots b_{k - 1}) = p (a_{1} \land \dots \land a_{k - 1} \land b_{1} \land \dots \land b_{k - 1}) \cdot \frac{p (a_{1} \land \dots \land a_{k})}{p (a_{1} \land \dots \land a_{k - 1})}

i włączając założenie indukcyjne:

\frac{p (a_{1} \land \dots \land a_{k - 1} \land b_{1} \land \dots \land b_{k - 1})}{p (a_{1} \land \dots \land a_{k - 1})} = p (b_{1} | a_{1}) \cdot \dots \cdot p (b_{k - 1} | a_{k - 1})

co kończy dowód.

Komentarz Od tej pory domyślnie będziemy przyjmować, że niezależność symboli jest zachowana za każdym razem, gdy wielokrotnie używamy kanału BSC.

@@ Linia 1: / Linia 1: @@
 ===Reguły decyzyjne===
-Przypuśćmy że na wyjściu z kanału <math>\Gamma</math> otrzymujemy sekwencję znaków <math> b_{i_1}, \ldots , b_{i_k}</math>. Znając mapowanie <math>P(a \to b)</math> dla <math>a \in \mathcal{A}, b \in \mathcal{B}</math>, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?
+Przypuśćmy, że na wyjściu z kanału <math>\Gamma</math> otrzymujemy sekwencję znaków <math>b_{i_1}, \ldots , b_{i_k}</math>. Znając mapowanie <math>P(a \to b)</math> dla <math>a \in \mathcal{A}, b \in \mathcal{B}</math>, czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?
-W niektórych przypadkach jest to oczywiste. Przykładowo dla wiernego kanału odwracającego (TODO link), wystarczy że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo dla wadliwej maszyny do pisania (TODO link) tekst wynikowy ''afu'' mógł pochodzić z tekstu ''zet'', ale również z tekstu ''aft'', i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).
+W niektórych przypadkach jest to oczywiste. Przykładowo dla [[Teoria informacji/TI Wykład 7#odwracajacy_kanal|wiernego kanału odwracającego]] wystarczy, że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo, dla [[Teoria informacji/TI Wykład 7#maszyna_kanal|wadliwej maszyny do pisania]] tekst wynikowy ''afu'' mógł pochodzić z tekstu ''zet'', ale również z tekstu ''aft'' i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia, które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).
@@ Linia 9: / Linia 9: @@
 '''Jakość reguły''' mierzymy przez
-:<math> Pr_C ( \Delta , A ) =_{{\mathit def}}p ( \Delta \circ B = A)</math>
+<center><math>Pr_C ( \Delta , A ) \stackrel{def}{=} p ( \Delta \circ B = A)</math></center>
 gdzie (A,B) są parą wejście-wyjście (zauważmy że B jest tu jednoznacznie określone, więc definicja jest spójna).}}
@@ Linia 15: / Linia 15: @@
 Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.:
-<math>p ( \Delta \circ B = A) & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) = a ) </math>
+<center><math>\begin{align}
+p( \Delta \circ B = A) & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) = a ) \\
-::<math>= \sum_{b \in {\mathcal B}} p ( B = b \wedge A = \Delta (b) )</math>
+& = \sum_{b \in {\mathcal B}} p ( B = b \wedge A = \Delta (b) )\\
-::<math>= \sum_{b \in {\mathcal B}}  p(A = \Delta (b)) \cdot (B = b | A = \Delta (b) )</math>
+& = \sum_{b \in {\mathcal B}}  p(A = \Delta (b)) \cdot (B = b | A = \Delta (b) )\\
-::<math>= \sum_{b \in {\mathcal B}}  p(A = \Delta (b)) \cdot P (\Delta (b) \to b)</math>
+& = \sum_{b \in {\mathcal B}}  p(A = \Delta (b)) \cdot P (\Delta (b) \to b)
+\end{align}
+</math></center>
 Dualnie, '''prawdopodobieństwo błędu reguły <math>\Delta</math>''', definiujemy jako
+<center><math>\begin{align}
-<math>Pr_E ( \Delta , A )  = 1 - Pr_C ( \Delta , A ) </math>
+Pr_E ( \Delta , A ) & = 1 - Pr_C ( \Delta , A ) \\
-::<math> =  \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) \neq  a )</math>
+& =  \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) \neq  a )\\
-::<math> = \sum_{a \in {\mathcal A}} p (A = a) \cdot p (\Delta \circ B \neq a | A = a)</math>
+& = \sum_{a \in {\mathcal A}} p (A = a) \cdot p (\Delta \circ B \neq a | A = a)
+\end{align}
+</math></center>
@@ Linia 34: / Linia 38: @@
-{{definicja|[Reguła idealnego obserwatora]|idealny_obs|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_o (b)=a</math>, takie że <math>p(a|b)</math> jest maksymalne. <math>p(a|b)</math> możemy wyznaczyć (znając rozkład A), ze wzoru:
+{{definicja|[Reguła idealnego obserwatora]|idealny_obs|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_o (b)=a</math>, takie że <math>p(a|b)</math> jest maksymalne. <math>p(a|b)</math> możemy wyznaczyć (znając rozkład A) ze wzoru:
-:<math>p(a|b) = \frac{p( a \wedge b )}{p(b)} = \frac{p (a \to b ) \cdot p(a)}{\sum_{a' \in {\mathcal A}} p (a' \to b )  \cdot  p (a')}</math>}}
+<center><math>
+p(a|b) = \frac{ p(a \wedge b)}{p(b)} =
+\frac{ p (a \to b ) \cdot p(a)}
+{ \Sigma_{a' \in {\cal A}} p (a' \to b )  \cdot  p (a')}
+</math></center>}}
-Z definicji wynika że
+Z definicji wynika, że
-:<math>Pr_C ( \Delta_o , A ) \geq Pr_C ( \Delta , A )</math>
+<center><math>Pr_C ( \Delta_o , A ) \geq Pr_C ( \Delta , A )</math></center>
 dla dowolnej reguły decyzyjnej <math>\Delta</math>.
@@ Linia 44: / Linia 52: @@
 Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest
-{{definicja|[Reguła maksymalnego podobieństwa]|maks_podob|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_{max}(b)=a</math>, w taki sposób że <math>p(a \to b)=p(b|a)</math> jest maksymalne.}}
+{{definicja|[Reguła maksymalnego podobieństwa]|maks_podob|Ta reguła odwzorowuje <math>b \in \mathcal{B}</math> na <math>\Delta_{max}(b)=a</math> w taki sposób, że <math>p(a \to b)=p(b|a)</math> jest maksymalne.}}
 Jeśli rozkład na A jest jednostajny (<math>p(a)=\frac{1}{\mathcal{A}}</math>), to reguła ta odpowiada regule <math>\Delta_o</math>.
-Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna (TODO ćwiczenie). Jest jednak w pewnym sensie „globalnie optymalna”. Przedstawimy tutaj szkic dowodu:
+Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna. Jest jednak w pewnym sensie „globalnie optymalna”. Przedstawimy tutaj szkic dowodu:
 Niech <math>\mathcal{A}=\{a_1,\ldots,a_m\}</math>, i niech <math>\mathcal{P}</math> będzie zbiorem wszystkich rozkładów prawdopodobieństwa na <math>\mathcal{A}</math>,
-:<math>\mathcal{P}=\{ {\textbf p} : \sum_{a \in {\mathcal A}} {\textbf p}(a) = 1 \}</math>
+<center><math>\mathcal{P}=\{ {\textbf p} : \sum_{a \in {\mathcal A}} {\textbf p}(a) = 1 \}</math></center>
 Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa <math>\textbf{p}</math>. Średnią (globalną) jakością reguły <math>\Delta</math> niech będzie
-<math>\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta  , {\textbf p})\, d {\textbf p}
+<center><math>\begin{align}
-=  \int_{{\textbf p} \in {\mathcal P}} \sum_{b \in {\mathcal B}} {\textbf p} (\Delta (b))  \cdot p (\Delta (b) \to b)\, d {\textbf p}</math>
+\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta  , {\textbf p})\, d {\textbf p}
+& = \int_{{\textbf p} \in {\mathcal P}} \sum_{b \in {\mathcal B}} {\textbf p} (\Delta (b))  \cdot p (\Delta (b) \to b)\, d {\textbf p}\\
+& = \sum_{b \in {\mathcal B}} p (\Delta (b) \to b) \cdot \int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta (b)) \, d {\textbf p}
+\end{align}
+</math></center>
-::<math> = \sum_{b \in {\mathcal B}} p (\Delta (b) \to b) \cdot \int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta (b)) \, d {\textbf p}</math>
-Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue), że <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (a)\, d {\textbf p}</math> nie zależy od wyboru a. Zatem <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta(b))\, d {\textbf p}</math> jest zawsze takie samo, i żeby zmaksymalizować <math>\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta  , {\textbf p})\, d {\textbf p}</math>, musimy maksymalizować <math>\sum_{b \in {\mathcal B}} p (\Delta (b) \to b)</math>, co realizuje właśnie reguła maksymalnego podobieństwa.
+Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue'a), że <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (a)\, d {\textbf p}</math> nie zależy od wyboru a. Zatem <math>\int_{{\textbf p} \in {\mathcal P}} {\textbf p} (\Delta(b))\, d {\textbf p}</math> jest zawsze takie samo, i żeby zmaksymalizować <math>\int_{{\textbf p} \in {\mathcal P}} Pr_C (\Delta  , {\textbf p})\, d {\textbf p}</math>, musimy maksymalizować <math>\sum_{b \in {\mathcal B}} p (\Delta (b) \to b)</math>, co realizuje właśnie reguła maksymalnego podobieństwa.
 ===Wielokrotne używanie kanału===
-Przypuśćmy że wysyłamy przez kanał ciąg symboli <math>a_1, a_2, \ldots, a_k</math>. Jakie jest prawdopodobieństwo że wyjściowym ciągiem będzie <math>b_1, b_2, \ldots, b_k</math>. Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych <math>P(a \to b)</math>.
+Przypuśćmy, że wysyłamy przez kanał ciąg symboli <math>a_1, a_2, \ldots, a_k</math>. Jakie jest prawdopodobieństwo, że wyjściowym ciągiem będzie <math>b_1, b_2, \ldots, b_k</math>? Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych <math>P(a \to b)</math>.
-Przypomnijmy że zmienne losowe <math>X_1, X_2, \ldots, X_k</math> są niezależne jeśli
+Przypomnijmy, że zmienne losowe <math>X_1, X_2, \ldots, X_k</math> są niezależne, jeśli
-:<math> P(X_1=x_1 \wedge \ldots \wedge X_k = x_k ) = p (X_1 = x_1) \cdot \ldots \cdot p (X_k = x_k )</math>
+<center><math>P(X_1=x_1 \wedge \ldots \wedge X_k = x_k ) = p (X_1 = x_1) \cdot \ldots \cdot p (X_k = x_k )</math></center>
-(warto zauważyć że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych TODO ćwiczenie).
+(warto zauważyć, że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych).
-Rozszerzając naszą konwencję zapisową, będziemy skracać <math>p (X_1 = x_1 \wedge \ldots \wedge X_k = x_k )</math> do <math>p (x_1\ldots x_k ) </math>.
+Rozszerzając naszą konwencję zapisową, będziemy skracać <math>p (X_1 = x_1 \wedge \ldots \wedge X_k = x_k )</math> do <math>p (x_1\ldots x_k )</math>.
 {{lemat||wielokrotne|Jeśli zmienne losowe (X,Y) oraz (X',Y') są niezależne, to
-:<math>p (Y = y \wedge Y' = y' | X = x \wedge X' = x')=p(Y = y | X = x) \cdot p (Y' = y' | X' = x')</math>
+<center><math>p (Y = y \wedge Y' = y' | X = x \wedge X' = x')=p(Y = y | X = x) \cdot p (Y' = y' | X' = x')</math></center>
 o ile zachodzi zachodzi <math>p  (X = x \wedge X' = x') > 0</math>.}}
-{{dowod||dw_wielokrotnie|Zauważmy po pierwsze że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'.
+{{dowod||dw_wielokrotnie|Po pierwsze, zauważmy, że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'.
-:<math>p (x \wedge x') = p \left( (x \wedge \bigvee {\mathcal Y}) \wedge (x' \wedge \bigvee {\mathcal Y}') \right) = \sum_{y,y'} p (x \wedge y) \cdot p(x' \wedge y') = p(x) \cdot p(x')</math>.}}
+<center><math>p (x \wedge x') = p \left( (x \wedge \bigvee {\mathcal Y}) \wedge (x' \wedge \bigvee {\mathcal Y}') \right) = \sum_{y,y'} p (x \wedge y) \cdot p(x' \wedge y') = p(x) \cdot p(x')</math></center>
 Zatem
-:<math>p (y \wedge y' | x \wedge x') = \frac{p(y \wedge y' \wedge  x \wedge x')}{p(x \wedge x')} = \frac{p(y \wedge x) \cdot p(y' \wedge x')}{p(x) \cdot p(x')} = p (y |x) \cdot p (y'|x')</math>}}
+<center><math>p (y \wedge y' | x \wedge x') = \frac{p(y \wedge y' \wedge  x \wedge x')}{p(x \wedge x')} = \frac{p(y \wedge x) \cdot p(y' \wedge x')}{p(x) \cdot p(x')} = p (y |x) \cdot p (y'|x')</math></center>}}
+{{wniosek|[Niezależność symboli]|niez_symboli|Załóżmy, że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para <math>(A_i,B_i)</math> jest parą wejście-wyjście dla kanału <math>\Gamma</math>. Wtedy
+<center><math>p( b_1 \ldots b_k | a_1 \ldots a_k ) = p( b_1| a_1) \cdot \ldots  \cdot p( b_k | a_k )</math></center>}}
-{{wniosek|[Niezależność symboli]|niez_symboli|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para <math>(A_i,B_i)</math> jest parą wejście-wyjście dla kanału <math>\Gamma</math>. Wtedy
+{{dowod||dw_niez_symboli|Niezależność <math>(A_1,B_1), \ldots, (A_k,B_k)</math> implikuje, że <math>(A_i,B_i)</math> jest niezależne od <math>(A_2,B_2), \ldots, (A_k,B_k)</math>. Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego lematu.}}
-:<math>p( b_1 \ldots b_k | a_1 \ldots a_k ) = p( b_1| a_1) \cdot \ldots  \cdot p( b_k | a_k )</math>}}
-{{dowod||dw_niez_symboli|Niezależność <math>(A_1,B_1), \ldots, (A_k,B_k)</math> implikuje że <math>(A_i,B_i)</math> jest niezależne od <math>(A_2,B_2), \ldots, (A_k,B_k)</math>. Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego Lematu.}}
+Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne i w większości wypadków nie możemy go użyć. Okazuje się, że można je zastąpić czymś znacznie słabszym:
-Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne, i w większości wypadków nie możemy go użyć. Okazuje się że można je zastąpić czymś znacznie słabszym:
+{{twierdzenie||bezstan|Załóżmy, że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> spełniają poniższe wymagania:}}
-{{twierdzenie||bezstan|Załóżmy że <math>(A_1,B_1), \ldots, (A_k,B_k)</math> spełniają poniższe wymagania:
+{{kotwica|bezstanowosc|'''Bezstanowość'''}}
+<center><math>p( b_k | a_1 \ldots a_k, b_1\ldots b_{k-1}) = p( b_k | a_k)</math></center>
-'''Bezstanowość'''
+{{kotwica|brak feedbacku|'''Brak feedbacku'''}}
-:<math> p( b_k | a_1 \ldots a_k, b_1\ldots b_{k-1}) = p( b_k | a_k)</math>
+<center><math>p( a_k | a_1 \ldots a_{k-1}, b_1\ldots b_{k-1}) = p( a_k | a_1 \ldots a_{k-1})</math></center>
-'''Brak feedbacku'''
+Wtedy [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana.
-:<math>p( a_k | a_1 \ldots a_{k-1}, b_1\ldots b_{k-1}) = p( a_k | a_1 \ldots a_{k-1})</math>
-Wtedy [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana.}}
-{{dowod||dw_bezstan|Przez indukcję możemy pokazać że
+{{dowod||dw_bezstan|Przez indukcję możemy pokazać, że
-:<math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = p (b_1 | a_1) \cdot \ldots \cdot p (b_k | a_k) \cdot p (a_1 \wedge \ldots \wedge a_k) </math>
+<center><math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) = p (b_1 | a_1) \cdot \ldots \cdot p (b_k | a_k) \cdot p (a_1 \wedge \ldots \wedge a_k)</math></center>
-jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek <math>k=1</math> jest trywialny. Krok indukcyjny uzyskujemy porównując (link TODO)
+jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek <math>k=1</math> jest trywialny.
-:<math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) =
+Krok indukcyjny uzyskujemy łącząc [[Teoria informacji/TI Wykład 8#bezstanowosc|bezstanowość]]:
-p( b_k | a_k) \cdot p (a_1 \ldots a_k, b_1\ldots b_{k-1}) </math>
+<center><math>p (a_1 \wedge \ldots \wedge a_k \wedge b_1 \wedge \ldots \wedge b_k ) =
-z (link TODO)
+p( b_k | a_k) \cdot p (a_1 \ldots a_k, b_1\ldots b_{k-1})</math></center>
-:<math> p (a_1 \ldots a_k, b_1\ldots b_{k-1}) = p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} ) \cdot \frac{p (a_1 \wedge \ldots \wedge a_k )}{p (a_1 \wedge \ldots \wedge a_{k-1})}</math>.
+z [[Teoria informacji/TI Wykład 8#brak feedbacku|brakiem feedbacku]]:
+<center><math>p (a_1 \ldots a_k, b_1\ldots b_{k-1}) = p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} ) \cdot \frac{p (a_1 \wedge \ldots \wedge a_k )}{p (a_1 \wedge \ldots \wedge a_{k-1})}</math></center>
-Ale korzystając z założenia indukcyjnego
+i włączając założenie indukcyjne:
-:<math>\frac{p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} )}{p (a_1 \wedge \ldots \wedge a_{k-1})} = p (b_1 | a_1) \cdot \ldots \cdot p (b_{k-1} | a_{k-1})</math>
+<center><math>\frac{p (a_1 \wedge \ldots \wedge a_{k-1} \wedge b_1 \wedge \ldots \wedge b_{k-1} )}{p (a_1 \wedge \ldots \wedge a_{k-1})} = p (b_1 | a_1) \cdot \ldots \cdot p (b_{k-1} | a_{k-1})</math></center>
 co kończy dowód.}}
-'''Komentarz''' Od tej pory domyślnie będziemy przyjmować że  [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana za każdym razem gdy wielokrotnie używamy kanału BSC.
+'''Komentarz''' Od tej pory domyślnie będziemy przyjmować, że  [[Teoria informacji/TI Wykład 8#niez_symboli|niezależność symboli]] jest zachowana za każdym razem, gdy wielokrotnie używamy kanału BSC.

Teoria informacji/TI Wykład 8: Różnice pomiędzy wersjami

Aktualna wersja na dzień 22:17, 11 wrz 2023

Reguły decyzyjne

Wielokrotne używanie kanału

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia