Teoria informacji/TI Wykład 3

Z Studia Informatyczne
Wersja z dnia 09:20, 16 lip 2006 autorstwa Stromy (dyskusja | edycje)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacjiPrzejdź do wyszukiwania

Jak widzieliśmy na przykładzie z grą, jeśli wszystkie prawdopodobieństwa są potęgami 12, to entropia jest równa średniej długości optymalnego kodu. Udowodnimy że zawsze stanowi ona dolne ograniczenie:


Definicja [długość kodu]

Dla danego kodu φ, długość kodu definiujemy jako
L(φ)=sSp(s)|φ(s)|

Dla danego S i parametru r>1 niech Lr(S) będzie minimum ze wszystkich L(φ) gdzie φ jest dowolnym kodem φ:SΣ*, gdzie |Σ|=r. Zauważmy że na mocy Twierdzenia Mcmillana wystarczy że znajdziemy minimum dla wszystkich kodów bezprefiksowych.


Twierdzenie

Dla dowolnej skończonej przestrzeni probabilistycznej S
Hr(S)Lr(S)
i równość zachodzi wtedy i tylko wtedy gdy wszystkie prawdopodobieństwa p(s) są potęgami 1r

Dowód Rozważmy dowolny kod φ:SΣ* gdzie |Σ|=r. Pokażmy że

Hr(S)L(φ)

Wystarczy w tym celu użyć Złotego Lematu dla xi=p(si) i yi=1r|φ(si)|.

Pozostało jedynie pokazać drugą część twierdzenie. Jeśli Hr(S)=Lr(S), to znaczy że Hr(S)=L(φ) dla pewnego kodu φ. Znów na podstawie Złotego Lematu dostajemy p(s)=1r|φ(s)| dla wszystkich sS. Z drugiej strony, jeśli wszystkie prawdopodobieństwa są postaci 1r(s), to na mocy nierówności Krafta, istnieje kod φ z |φ(s)|=(s), i dla tego kodu L(φ)=Hr(S). A zatem Lr(S)Hr(S), czyli musi zachodzić równość. QED.


Druga część tego twierdzenia może wyglądać na pesymistyczną, gdyż dowodzi że w większości wypadków nasze kodowanie nie będzie idealne (Lr(S)>Hr(S)). Zauważmy że prawdopodobieństwa zwykle nie są wybierane przez nas, tylko musimy się dostosować do jakichś już ustalonych. Okazuje się jednak że dla dowolnego zadanego S i p możemy zmniejszać średnią długość kodu dowolnie zbliżając się do Hr(S). Uzyskuje się to przez lekkie poszerzenie pojęcia kodu.


Przykład:

Niech S={s1,s2} z p(s1)=34,p(s2)=14. Oczywiście L2(S)=1. (Jednocześnie łatwo oszacować że H2(S)<1). Oznacza to że nie możemy zakodować wiadomości αΣ* w postaci krótszej niż sama α. Wyobraźmy sobie jednak następujące kodowanie par:

s1s10
s1s210
s2s1110
s2s2111

Nie jest to w dosłownym sensie kod dla S, ale wygląda na to że możemy go użyć do zakodowania wiadomości o parzystej długości. Faktycznie, zgodnie z definicją to jest kod dla S2. Rozważmy S2=S×S jako produkt (probabilistyczny) przestrzeni, w którym

p(si,sj)=p(si)p(sj)

Średnia długość naszego kodowania dwuznakowych bloków będzie wynosić

(34)21+3414(2+3)+(14)23=916+1516+316=2716<2

Jak można się spodziewać, podążając tym tropem dla kodów złożonych z trzech, czterech i więcej znaków będziemy mogli otrzymać coraz efektywniejsze kodowania. Czy jednak możemy zejść poniżej granicy entropii, czyli uzyskać

Lr(Sn)n<Hr(S)

dla pewnego n? Udowodnimy później że to jest niemożliwe, ale Pierwsze Twierdzenie Shannona pokaże że możemy zbliżyć się do niej dowolnie blisko, dla n.

Najpierw jednak policzmy entropię H(Sn) przestrzeni Sn interpretowanej jako przestrzeń produktowa. Można to zrobić przez żmudne elementarne wyliczenia, ale spróbujemy uzyskać wynik na podstawie ogólnych własności zmiennych losowych.

Przypomnijmy że wartość oczekiwana zmiennej losowej X:S można przedstawić na dwa równoważne sposoby:

EX=sSp(s)X(s)=tX(S)(R)tp(X=t)

Drugi sposób często zapisuje się prościej jako

t(R)tp(X=t)

przyjmując że suma dowolnie wielu zer daje 0.

Używana tutaj notacja p(X=t) jest szczególnym przypadkiem notacji p(ψ(X)), określającej prawdopodobieństwo że zachodzi ψ(X), czyli sumę p(s) po wszystkich s dla których ψ(X(S)) jest spełnione.

Przypominamy z Rachunku Prawdopodobieństwa:


Fakt [Liniowość wartości oczekiwanej]

Jeśli X i Y są dowolnymi zmiennymi losowymi (określonymi na tej samej przestrzeni probabilistycznej), to dla dowolnych α,β(R):
E(αX+βY)=αEX+βEY


Rozważmy teraz przypadek gdy mamy dwie przestrzenie probabilistyczne S i Q. (Zwyczajowo, jeśli nie powoduje to niejasności, będziemy używać tej samej litery p na określenie prawdopodobieństwa we wszystkich przestrzeniach).

Niech S×Q będzie przestrzenią produktową, z prawdopodobieństwem określonym następująco

p(s,q)=p(s)p(q)

Dla zmiennych losowych X:S(R) i Y:Q(R), definiujemy zmienne (^X), (^Y) na S×Q jako

X^(s,q)=X(s)
Y^(s,q)=Y(q)

Oczywiście mamy:

p(X^=t)=X^(s,q)=tp(s,q)=X(s)=tqQp(s)p(q)=X(s)=tp(s)=P(X=t)

i analogicznie p(Y^=t)=p(Y=t). Zatem EX^=EX i EY^=EY. Z liniowości wartości oczekiwanej

E(X^+Y^)=EX^+EY^=EX+EY

Niech teraz X:slogr1p(s) i Y:qlogr1p(q). Rozkład sumy tych zmiennych będzie miał postać

(X^+Y^)(s,q)=logr1p(s)+logr1p(q)=logr1p(s)1p(q)=logr1p(s,q)

Ale zgodnie z definicją, to jest dokładnie zmienna losowa na S×Q której wartość oczekiwana jest entropią S×Q. Czyli

Hr(S×Q)=E(X^+Y^)=Hr(S)+Hr(Q).

W konsekwencji:

HrSn=nHrS