Teoria informacji/TI Wykład 8

Reguły decyzyjne

Przypuśćmy że na wyjściu z kanału $Γ$ otrzymujemy sekwencję znaków $b_{i_{1}}, \dots, b_{i_{k}}$ . Znając mapowanie $P (a \to b)$ dla $a \in 𝒜, b \in ℬ$ , czy możemy odzyskać pierwotną wiadomość wysłaną kanałem?

W niektórych przypadkach jest to oczywiste. Przykładowo dla wiernego kanału odwracającego, wystarczy że odwrócimy wszystkie bity w sekwencji. W większości przypadków jednak nie ma jedynej pewnej metody odkodowania. Przykładowo dla wadliwej maszyny do pisania tekst wynikowy afu mógł pochodzić z tekstu zet, ale również z tekstu aft, i wielu innych. W ogólności zadaniem dla odbiorcy jest wybranie w jakiś sposób wejścia które mogło dać wskazany wynik. Oczywiście odbiorca chce zmaksymalizować p(A=a|B=b).

Definicja [Reguła decyzyjna}

Regułą decyzyjną nazwiemy każde mapowanie

Δ : ℬ \to 𝒜

.

Jakość reguły mierzymy przez

P r_{C} (Δ, A) =_{d e f} p (Δ \circ B = A)

gdzie (A,B) są parą wejście-wyjście (zauważmy że B jest tu jednoznacznie określone, więc definicja jest spójna).

Używając prawdopodobieństwa warunkowego, jakość reguły możemy policzyć na kilka sposobów, np.:

Parser nie mógł rozpoznać (błąd składni): {\displaystyle p ( \Delta \circ B = A) & = \sum_{a \in {\mathcal A}, b \in {\mathcal B}} p (A = a \wedge B = b \wedge \Delta (b) = a ) }

= \sum_{b \in ℬ} p (B = b \land A = Δ (b))

= \sum_{b \in ℬ} p (A = Δ (b)) \cdot (B = b | A = Δ (b))

= \sum_{b \in ℬ} p (A = Δ (b)) \cdot P (Δ (b) \to b)

Dualnie, prawdopodobieństwo błędu reguły $Δ$ , definiujemy jako

$P r_{E} (Δ, A) = 1 - P r_{C} (Δ, A)$

= \sum_{a \in 𝒜, b \in ℬ} p (A = a \land B = b \land Δ (b) \neq a)

= \sum_{a \in 𝒜} p (A = a) \cdot p (Δ \circ B \neq a | A = a)

Interesuje nas maksymalizacja $P r_{C} (Δ, A)$ , a więc minimalizacja $P r_{E} (Δ, A)$ .

Jeśli rozkład prawdopodobieństwa na A jest znany, możemy taką regułę jednoznacznie wyznaczyć:

Definicja [Reguła idealnego obserwatora]

Ta reguła odwzorowuje

b \in ℬ

na

Δ_{o} (b) = a

, takie że

p (a | b)

jest maksymalne.

p (a | b)

możemy wyznaczyć (znając rozkład A), ze wzoru:

p (a | b) = \frac{p (a \land b)}{p (b)} = \frac{p (a \to b) \cdot p (a)}{\sum_{a^{'} \in 𝒜} p (a^{'} \to b) \cdot p (a^{'})}

Z definicji wynika że

P r_{C} (Δ_{o}, A) \geq P r_{C} (Δ, A)

dla dowolnej reguły decyzyjnej $Δ$ .

Jeśli rozkład prawdopodobieństwa na A jest nieznany, racjonalnym wyborem jest

Definicja [Reguła maksymalnego podobieństwa]

Ta reguła odwzorowuje

b \in ℬ

na

Δ_{m a x} (b) = a

, w taki sposób że

p (a \to b) = p (b | a)

jest maksymalne.

Jeśli rozkład na A jest jednostajny ( $p (a) = \frac{1}{𝒜}$ ), to reguła ta odpowiada regule $Δ_{o}$ .

Jeśli rozkład na A nie jest jednostajny, ta reguła nie musi być optymalna (TODO ćwiczenie). Jest jednak w pewnym sensie „globalnie optymalna”. Przedstawimy tutaj szkic dowodu:

Niech $𝒜 = {a_{1}, \dots, a_{m}}$ , i niech $𝒫$ będzie zbiorem wszystkich rozkładów prawdopodobieństwa na $𝒜$ ,

𝒫 = {p : \sum_{a \in 𝒜} p (a) = 1}

Utożsamiamy tutaj zmienną losową A z jej rozkładem prawdopodobieństwa $p$ . Średnią (globalną) jakością reguły $Δ$ niech będzie

$\int_{p \in 𝒫} P r_{C} (Δ, p) d p = \int_{p \in 𝒫} \sum_{b \in ℬ} p (Δ (b)) \cdot p (Δ (b) \to b) d p$

= \sum_{b \in ℬ} p (Δ (b) \to b) \cdot \int_{p \in 𝒫} p (Δ (b)) d p

Można teraz zauważyć (lub udowodnić formalnie, korzystając z całki Lebesgue), że $\int_{p \in 𝒫} p (a) d p$ nie zależy od wyboru a. Zatem $\int_{p \in 𝒫} p (Δ (b)) d p$ jest zawsze takie samo, i żeby zmaksymalizować $\int_{p \in 𝒫} P r_{C} (Δ, p) d p$ , musimy maksymalizować $\sum_{b \in ℬ} p (Δ (b) \to b)$ , co realizuje właśnie reguła maksymalnego podobieństwa.

Wielokrotne używanie kanału

Przypuśćmy że wysyłamy przez kanał ciąg symboli $a_{1}, a_{2}, \dots, a_{k}$ . Jakie jest prawdopodobieństwo że wyjściowym ciągiem będzie $b_{1}, b_{2}, \dots, b_{k}$ . Jeśli transmisje są niezależne, prawdopodobieństwo to będzie iloczynem kolejnych $P (a \to b)$ .

Przypomnijmy że zmienne losowe $X_{1}, X_{2}, \dots, X_{k}$ są niezależne jeśli

P (X_{1} = x_{1} \land \dots \land X_{k} = x_{k}) = p (X_{1} = x_{1}) \cdot \dots \cdot p (X_{k} = x_{k})

(warto zauważyć że jest to wymaganie silniejsze niż niezależność każdej pary zmiennych TODO ćwiczenie).

Rozszerzając naszą konwencję zapisową, będziemy skracać $p (X_{1} = x_{1} \land \dots \land X_{k} = x_{k})$ do $p (x_{1} \dots x_{k})$ .

Lemat

Jeśli zmienne losowe (X,Y) oraz (X',Y') są niezależne, to

p (Y = y \land Y^{'} = y^{'} | X = x \land X^{'} = x^{'}) = p (Y = y | X = x) \cdot p (Y^{'} = y^{'} | X^{'} = x^{'})

o ile zachodzi zachodzi

p (X = x \land X^{'} = x^{'}) > 0

.

Dowód

Zauważmy po pierwsze że niezależność (X,Y) i (X',Y') implikuje niezależność X i X'.

p (x \land x^{'}) = p ((x \land ⋁ 𝒴) \land (x^{'} \land ⋁ 𝒴^{'})) = \sum_{y, y^{'}} p (x \land y) \cdot p (x^{'} \land y^{'}) = p (x) \cdot p (x^{'})

.

Zatem

p (y \land y^{'} | x \land x^{'}) = \frac{p (y \land y^{'} \land x \land x^{'})}{p (x \land x^{'})} = \frac{p (y \land x) \cdot p (y^{'} \land x^{'})}{p (x) \cdot p (x^{'})} = p (y | x) \cdot p (y^{'} | x^{'})

}}

Wniosek [Niezależność symboli]

Załóżmy że

(A_{1}, B_{1}), \dots, (A_{k}, B_{k})

są niezależnymi zmiennymi losowymi o takim samym rozkładzie, takimi że każda para

(A_{i}, B_{i})

jest parą wejście-wyjście dla kanału

Γ

. Wtedy

p (b_{1} \dots b_{k} | a_{1} \dots a_{k}) = p (b_{1} | a_{1}) \cdot \dots \cdot p (b_{k} | a_{k})

Dowód

Niezależność

(A_{1}, B_{1}), \dots, (A_{k}, B_{k})

implikuje że

(A_{i}, B_{i})

jest niezależne od

(A_{2}, B_{2}), \dots, (A_{k}, B_{k})

. Dowód sprowadza się zatem do skorzystania wielokrotnie z powyższego Lematu.

Założenie o niezależności kolejnych par w powyższym wniosku jest bardzo silne, i w większości wypadków nie możemy go użyć. Okazuje się że można je zastąpić czymś znacznie słabszym:

Twierdzenie

Załóżmy że

(A_{1}, B_{1}), \dots, (A_{k}, B_{k})

spełniają poniższe wymagania:

Bezstanowość

p (b_{k} | a_{1} \dots a_{k}, b_{1} \dots b_{k - 1}) = p (b_{k} | a_{k})

Brak feedbacku

p (a_{k} | a_{1} \dots a_{k - 1}, b_{1} \dots b_{k - 1}) = p (a_{k} | a_{1} \dots a_{k - 1})

Wtedy niezależność symboli jest zachowana.

Dowód

Przez indukcję możemy pokazać że

p (a_{1} \land \dots \land a_{k} \land b_{1} \land \dots \land b_{k}) = p (b_{1} | a_{1}) \cdot \dots \cdot p (b_{k} | a_{k}) \cdot p (a_{1} \land \dots \land a_{k})

jeśli tylko ostatnie prawdopodobieństwo jest niezerowe. Przypadek $k = 1$ jest trywialny. Krok indukcyjny uzyskujemy łącząc bezstanowość:

p (a_{1} \land \dots \land a_{k} \land b_{1} \land \dots \land b_{k}) = p (b_{k} | a_{k}) \cdot p (a_{1} \dots a_{k}, b_{1} \dots b_{k - 1})

z brakiem feedbacku:

p (a_{1} \dots a_{k}, b_{1} \dots b_{k - 1}) = p (a_{1} \land \dots \land a_{k - 1} \land b_{1} \land \dots \land b_{k - 1}) \cdot \frac{p (a_{1} \land \dots \land a_{k})}{p (a_{1} \land \dots \land a_{k - 1})}

.

i włączając założenie indukcyjne:

\frac{p (a_{1} \land \dots \land a_{k - 1} \land b_{1} \land \dots \land b_{k - 1})}{p (a_{1} \land \dots \land a_{k - 1})} = p (b_{1} | a_{1}) \cdot \dots \cdot p (b_{k - 1} | a_{k - 1})

co kończy dowód.

Komentarz Od tej pory domyślnie będziemy przyjmować że niezależność symboli jest zachowana za każdym razem gdy wielokrotnie używamy kanału BSC.

Teoria informacji/TI Wykład 8

Reguły decyzyjne

Wielokrotne używanie kanału

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia