Teoria informacji/TI Wykład 14

Z Studia Informatyczne
Wersja z dnia 22:14, 11 wrz 2023 autorstwa Luki (dyskusja | edycje) (Zastępowanie tekstu – „<math> ” na „<math>”)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacjiPrzejdź do wyszukiwania

Stała Chaitina

Tak jak w poprzednim wykładzie, ustalamy jakieś bezprefiksowe kodowanie maszyn Turinga oraz bezprefiksową maszynę uniwersalną U.

Definicja [Stała Chaitina]

Stałą Chaitina określamy jako sumę szeregu
Ω=U(v)2|v|


Stałą Chaitina można interpretować jako prawdopodobieństwo, że losowo wybrane dane dla maszyny U spowodują jej zatrzymanie; innymi słowy, że losowo wybrany program (z danymi) się zatrzymuje.

Dokładniej, rozważmy zbiór nieskończonych ciągów zero-jedynkowych, {0,1}ω. Dla w1wn{0,1}n, określamy

p(w1wn{0,1}ω)=12n,

w szczególności p({0,1}ω)=1. Funkcję p można rozszerzyć na Borelowskie podzbiory {0,1}ω tak, by stanowiła prawdopodobieństwo. Prawdopodobieśtwo to możemy też określić patrząc na ciąg x{0,1}ω jak na wynik nieskończonego procesu Bernoulliego X1,X2,, gdzie p(Xi=0)=p(Xi=1)=12.

W szczególności Ω stanowi prawdopodobieństwo zdarzenia, że ciąg x{0,1}ω zawiera prefiks v, dla którego U(v) (z bezprefiksowości wynika, że jest co najwyżej jeden taki prefiks). Oczywiście konkretna wartość Ω zależy od wyboru kodowania i maszyny uniwersalnej, ale jej istotne własności od tego nie zależą.

Twierdzenie [Własności Ω]

Stała Chaitina ma następujące własności.

(1) Ω1.

(2) Istnieje maszyna Turinga T z dodatkową taśmą nieskończoną, na której wypisane są kolejne cyfry binarnego rozwinięcia Ω, która dla danego kodu M maszyny M odpowiada na pytanie, czy M(ε).

(3) Istnieje stała c taka, że

KU(ω1ωn)nc
gdzie ω1ωn oznacza pierwszych n bitów liczby Ω.


Punkt (2) oznacza, że "znając" stałą Chaitina potrafilibyśmy rozstrzygać problem stopu, natomiast (3) mówi nam, że z dokładnością do stałej, Ω jest niekompresowalna.

Dowód

Ad 1. Ponieważ zbiór

L(U)={w:U(w)}

jest bezprefiksowy, każdy skończony podzbiór 𝒮L(U), tworzy kod bezprefiksowy, a zatem z nierówności Krafta spełnia nierówność x𝒮2|x|1, co po przejściu do supremum daje żądaną nierówność.

Ad 2. Zanim opiszemy konstrukcję maszyny T, zróbmy pewne obserwacje na temat liczby Ω. Znanym problemem w dowodach własności liczb rzeczywistych jest, że a priori liczba może mieć dwie różne reprezentacje (w szczególności binarne). Działoby się tak, gdyby liczba Ω była dwójkowo wymierna, tzn.

(a) Ω=0.ω1ω2ωk0111

(b) Ω=0.ω1ω2ωk1000

Jakkolwiek w przyszłości wykluczymy taką możliwość, w tej chwili musimy jeszcze wziąć ją pod uwagę. Otóż bez zmniejszenia ogólności możemy założyć, że Ω dana jest w postaci (a). Istotnie, gdybyśmy mieli maszynę T dla tego przypadku, to łatwo moglibyśmy ją zmodyfikować do maszyny T, która radziłaby sobie z przypadkiem (b). Maszyna T działałaby tak samo jak maszyna T, z tym że począwszy od k+1-szej cyfry Ω, "widziałaby na odwrót", tzn. 0 traktowałaby jak 1 a 1 jak 0.


Jeśli wybierzemy wariant (a), lub jeśli Ω nie jest dwójkowo wymierna, to dla każdego n istnieje skończony podzbiór 𝒮nL(U), taki że liczba wyznaczona przez pierwszych n cyfr Ω spełnia

0.ω1ω2ωnx𝒮n2|x|

(pamiętamy, że i=n+12i=12n).

Opiszemy teraz działanie maszyny T. Jak zwykle w takich przypadkach, opiszemy algorytm, pozostawiając Czytelnikowi jego formalizację w języku maszyn Turinga. Jeśli na wejściu jest słowo w, |w|=n, maszyna T symuluje działanie U na w, a równolegle przegląda kolejne słowa z {0,1}*, v, powiedzmy w porządku wojskowym: ε=v0,v1,v2, i symuluje działanie U na vi ruchem zygzakowym, podobnie jak w algorytmie z dowodu Faktu.


W trakcie swojego obliczenia, maszyna T utrzymuje zmienną, powiedzmy 𝒮', której aktualną wartością jest (skończony) zbiór tych słów v dla których już udało się stwierdzić, że U(v).

Zgodnie z powyższą oberwacją, w skończonym czasie jeden z dwóch przypadków ma miejsce.

(i) T stwierdza, że U(w); wtedy daje odpowiedź TAK.

(ii) T stwierdza, że

0.ω1ω2ωnv𝒮2|v|,

ale w∉𝒮; wtedy daje odpowiedź NIE.

Zauważmy, że w tej chwili możemy już wykluczyć możliwość, że Ω jest liczbą dwójkowo wymierną. Istotnie, Czytelnik pamięta zapewne doskonale, że problem stopu jest nierozstrzygalny, tzn. nie istnieje maszyna bez dodatkowej taśmy, realizująca postulat z warunku (2). Gdyby jednak Ω była dwójkowo wymierna, to opisaną wyżej konstrukcję maszyny T można przeprowadzić bez reprezentowania liczby Ω; zamiast pobierać bity liczby Ω z dodatkowej nieskończonej taśmy, maszyna T mogłaby je sobie łatwo obliczyć. Podobny argument pokazuje znacznie więcej: Ω nie jest liczba wymierną ani algebraiczną, ani w ogole "obliczalną" (zobacz Ćwiczenie).


Ad 3. Opiszemy działanie pewnej maszyny R. Na słowie wejściowym x, R najpierw symuluje działanie maszyny uniwersalnej U na słowie x. Dalszy opis prowadzimy przy założeniu, że obliczenie się zakończyło z wynikiem U(x) i co więcej

U(x)=ω1ω2ωn,

stanowi pierwsze n cyfr rozwinięcia binarnego Ω, dla pewnego n. Niech

Ωn=ω1ω2ωn

Oczywiście, dla wielu x nie będzie to prawdą; wtedy maszyna R zgodnie z naszym opisem będzie wykonywać jakieś działania, których wynik nas nie interesuje. Ważne jest jednak, że dla pewnego x istotnie zajdzie U(x)=Ωn (z własności maszyny uniwersalnej).

Z kolei, podobnie jak maszyna T w dowodzie punktu (2), maszyna R ruchem zygzakowym przegląda kolejne słowa y i symuluje działanie na U na y, gromadząc w zmiennej 𝒮' te słowa y, dla których obliczenie już się zakończyło. Dodatkowo, dla każdego y𝒮, R zapamiętuje U(y). Pamiętamy, że wykluczyliśmy już możliwość podwójnej reprezentacji Ω. Dlatego też, po pewnym skończonym czasie R stwierdzi, że

y𝒮2|y|Ωn

Niech v będzie pierwszym w porządku wojskowym słowem takim, że vU(y), dla każdego y𝒮. Zauważmy, że KU(v)n (z definicji Ω). Wtedy wreszcie nasza maszyna R zatrzymuje się z wynikiem R(x)=v.

Zgodnie z Faktem z poprzedniego wykładu, istnieje stała cUR, że

KU(v)KR(v)+cUR

Ale KR(v)|x| (skoro R wygenerowała v z wejścia x). To daje nam

nKU(v)KR(v)+cUR|x|+cUR

i nierówność ta zachodzi dla każdego x, takiego że U(x)=Ωn. A zatem

nKU(Ωn)+cUR

dla każdego n, tak więc c=cUR może być żądaną stałą.

Związek z entropią Shannona

Jeśli stałą Chaitina interpretujemy jako prawdopodobieństwo, że bezprefiksowa maszyna uniwersalna U się zatrzymuje, to dla y{0,1}*,

pU(y)=v:U(v)=y2|v|

stanowi prawdopodobieństwo zdarzenia, że maszyna U zatrzymuje się z wynikiem y.

Zauważmy, że pU nie stanowi miary prawdopodobieństwa na {0,1}*, w szczególności

y{0,1}*pU(y)=Ω,

a nie 1.

Ale już

p(y)=pU(y)Ω

wyznacza prawdopodobieństwo na {0,1}*.


Jak pamiętamy z wykładu 3, dla skończonej przestrzeni probabilistycznej S, optymalne kodowanie φ:S{0,1}* było osiągnięte wtedy, gdy

|φ(y)|log2(p(y))

Dokładniej, równość była osiągnięta dla prawdopodobieństw będących potęgami 12, a w ogólności mamy zbieżność asymptotyczną.

Otóż podobny związek możemy wskazać dla bezprefiksowej złożoności Kołmogorowa, która w pewnym sensie wyznacza optymalne kodowanie słów w {0,1}*, przy określonym wyżej prawdopodobieństwie p.

Mówiąc nieformalnie, mamy

K(y)log2p(y)

Dokładniej, pokażemy następujący

Fakt [Entropia Kołmogorowa]

Istnieje stała c, że dla dowolnego y{0,1}*,
K(y)clog2p(y)K(y)+c

Dowód

Oczywiście, wystarczy jeśli pokażemy
K(y)clog2pU(y)K(y)+c

Mamy K(y)=|x|, dla pewnego x, takiego, że U(x)=y, a zatem

12|x|pU(y),

skąd

log2pU(y)|x|=K(y)

Pozostaje dowieść, że

K(y)log2pU(y)+c,

dla pewnej stałej c. Wobec Faktu o niezmienniczości, wystarczy tym celu skonstruować maszynę T taką, że T(wy)=y oraz

|wy|log2pU(y)+c,

gdzie T i c nie zależą od y.

Ustawmy wszystkie słowa y{0,1}* w porządku wojskowym: y0,y1,y2,

Z kolei rozważmy ciąg przedziałów domkniętych na prostej Iy0,Iy1,Iy2,, gdzie początkiem Iy0 jest 0; koniec Iym jest początkiem Iym+1 i długością przedziału Iym jest pU(ym).

Zauważmy, że suma wszystkich przedziałów Iym zawiera się w odcinku [0,1].

Przedziałem binarnym jest z definicji przedział postaci

[a112+a2122++ak12kL,L+12k),

gdzie a1,,ak{0,1}; ak=1.

Dla przedziału Iy, znajdźmy największy przedział binarny J w nim zawarty, a gdyby było więcej przedziałów o tej samej długości, to ten, którego początek jest położony najbardziej na lewo. Niech L=a112+a2122++ak12k będzie początkiem tego największego przedziału binarnego. Połóżmy

wy=a1a2ak

(a zatem |wy|=k).

Oszacujemy teraz długość przedziału Iy (równą pU(y)) w zależności od k.

Kluczowe jest spostrzeżenie, ile kroków długości 12k możemy zrobić z punktu L w lewo lub w prawo, pozostając cały czas w przedziale Iy. Analiza przypadków pokazuje, że możemy zrobić co najwyżej 2 kroki w lewo i 5 kroków w prawo. W każdym razie długość przedziału Iy spełnia nierówność

pU(y)82k=12k3

skąd otrzymujemy

k3logpU(y),

a zatem

k=|wy|logpU(y)+3

Pozostaje pokazać, że znając wy, potrafimy algorytmicznie odtworzyć y, a zatem żądana maszyna T, taka że T(wy)=y, istnieje. Konstrukcja jest żmudna, ale rutynowa. Używając ruchu zygzakowego, znajdujemy coraz lepsze przybliżenia końców przedziałów Iy0,Iy1,Iy2, tak długo, aż zdobywamy pewność, że liczba reprezentowana przez wy znajduje się w przedziale Iy, jest to właśnie poszukiwane y. Zauważmy, że dla każdego n, od pewnego momentu krańce przedziałów mogą się przesuwać co najwyżej o 12n, a zatem oczekiwana chwila nastąpi.