Języki, automaty i obliczenia/Wykład 6: Automat niedeterministyczny. Lemat o pompowaniu

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

W tym wykładzie zdefiniujemy automat niedeterministyczny, udowodnimy jego równoważność z automatem deterministycznym oraz podamy algorytm konstrukcji równoważnego automatu deterministycznego. Wprowadzimy także automaty niedeterministyczne z pustymi przejściami. W ostatniej części wykładu sformułujemy lemat o pompowaniu dla języków rozpoznawanych przez automaty skończenie stanowe.

Automat niedeterministyczny

Wprowadzony wcześniej automat jest modelem obliczeń, czy też mówiąc ogólniej, modelem procesu o bardzo prostym opisie. Stan procesu zmienia się w sposób jednoznaczny pod wpływem sygnału zewnętrznego reprezentowanego przez literę alfabetu. Opisem tych zmian jest więc funkcja. Pewnym uogólnieniem powyższej sytuacji może być dopuszczenie relacji, która opisuje zmiany stanu. W efekcie opis zmiany stanów staje się niedeterministyczny w tym sensie, że z danego stanu automat przechodzi w pewien zbiór stanów. Jak udowodnimy pó{z}niej, z punktu widzenia rozpoznawania lub poprawnych obliczeń, takie uogólnienie nie rozszerza klasy języków rozpoznawanych przez automaty.

Definicja 1.1.

Automatem niedeterministycznym nad alfabetem A nazywamy system 𝒜ND=(S,f), w którym S jest dowolnym zbiorem, zwanym zbiorem stanów, a f:S×A𝒫(S) funkcją przejść.

Funkcję przejść rozszerzamy do funkcji f:S×A*𝒫(S) określonej na całym wolnym monoidzie A* w następujący sposób:

dla każdego sSf(s,1)={s}

dla każdego sS,aA oraz dowolnego wA*f(s,wa)=f(f(s,w),a).

Zwróćmy uwagę, że prawa strona ostatniej równości to obraz przez funkcję f zbioru f(s,w) i litery a. Funkcję przejść automatu niedeterministycznego można także traktować jako relację

f(S×A*)×S.

W związku z powyższą definicją automat wprowadzony wcześniej, w wykładzie 3, będziemy nazywać automatem deterministycznym.

Definicja 1.2.

Język LA* jest rozpoznawalny przez automat niedeterministyczny 𝒜ND=(S,f) wtedy i tylko wtedy, gdy istnieje IS -- zbiór stanów początkowych oraz FS - zbiór stanów końcowych taki, że

L={wA*:f(I,w)F}.

Niedeterministyczny automat rozpoznający język L będziemy oznaczać jako system 𝒜ND=(S,A,f,I,F) lub 𝒜ND=(S,f,I,F) jeśli wiadomo, nad jakim alfabetem określono automat.

Na pierwszy rzut oka mogłoby się wydawać, że wprowadzony automat istotnie rozszerza możliwości automatu deterministycznego, że jego moc obliczeniowa jest istotnie większa. Okazuje się jednak, że z punktu widzenia rozpoznawania języków, czyli właśnie z punktu widzenia mocy obliczeniowej, automaty deterministyczne i niedeterministyczne są równoważne.

Twierdzenie 1.1.

Język LA* jest rozpoznawany przez automat deterministyczny wtedy i tylko wtedy, gdy jest rozpoznawany przez automat niedeterministyczny.

Dowód

Rozpocznijmy dowód od oczywistej obserwacji. Zauważmy, iż każdy automat deterministyczny można przekształcić w niedeterministyczny, modyfikując funkcję przejść w ten sposób, że jej wartościami są zbiory jednoelementowe. Modyfikacja ta prowadzi w konsekwencji do równoważnego automatu niedeterministycznego.

Dla dowodu implikacji w stronę przeciwną załóżmy, że język L=L(𝒜ND) , gdzie 𝒜ND=(S,f,I,F), jest automatem niedeterministycznym. Określamy teraz równoważny, jak się okaże, automat deterministyczny. Jako zbiór stanów przyjmujemy 𝒫(S) , czyli ogół podzbiorów zbioru S. Funkcję przejść f:𝒫(S)×A*𝒫(S) określamy kładąc dla

dowolnego stanu S1𝒫(S) oraz dowolnej litery aA
f(S1,a)=sS1f(s,a),

a następnie rozszerzamy ją do A* . Łatwo sprawdzić, że funkcja f spełnia warunki funkcji przejść. Przyjmując następnie zbiór I𝒫(S) jako stan początkowy oraz zbiór T={𝒮1𝒫(S):S1F} , jako zbiór stanów końcowych stwierdzamy, dla określonego automatu 𝒜D=(𝒫(S),f,I,T) , równość

L(𝒜D)={wA*: :f(I,w)T}=L=L(𝒜ND).

Skonstruowany automat jest zatem deterministyczny i równoważny wyjściowemu, co kończy dowód twierdzenia.

Uwaga 1.1.

Dla określonego w dowodzie automatu 𝒜D na ogół nie wszystkie stany są osiągalne ze stanu I. Aby uniknąć takich stanów, które są bezużyteczne, funkcję przejść należy zacząć definiować od stanu I i kolejno określać wartości dla już osiągniętych stanów.

Przykład 1.1.

Automat 𝒜ND=(Q,A,f,I,F) nad alfabetem A={a,b} określony przez zbiory Q={q0,q1,q2,q4},I={q0},F={q3} i

zadany poniższym grafem jest przykładem automatu niedeterministycznego.
Rysunek 1

Automat ten, jak łatwo teraz zauważyć, rozpoznaje język L(𝒜)=A*abb .

Przedstawimy teraz algorytm, który mając na wejściu automat niedeterministyczny konstruuje równoważny automat deterministyczny.

Algorytm Determinizacja - buduje deterministyczny automat równoważny automatowi niedeterministycznemu



  1  Wejście: 𝒜=(S,A,f,s0,T) - automat niedeterministyczny.
  2  Wyjście: 𝒜=(S,A,f,s0,T) - automat deterministyczny taki,
że L(𝒜)=L(𝒜). 3 S{{s0}}; 4 s0{s0}; 5 {{s0}}; jest kolejką 6 while = do 7 M zdejmij (); 8 if TM= then TT{M}; 9 for each aA do 10 NmMf(m,a); 11 if N∉S  then 12 SS{N}; 13 włóż (,N); 14 end if 15 f(M,a)N; 16 end for 17 end while 18 return 𝒜;


Funkcja zdejmij, występująca w linii 7., zdejmuje z kolejki element znajdujący się na jej początku i zwraca go jako swoją wartość. Procedura włóż(,N) z linii 13. wstawia na koniec kolejki element N.

Należy zauważyć, że algorytm determinizujący automat jest algorytmem eksponencjalnym. Stany wyjściowego automatu deterministycznego etykietowane są podzbiorami zbioru stanów Q. Jeśli pewien stan qQ etykietowany jest zbiorem zawierającym stan końcowy z F, to q staje się stanem końcowym w automacie 𝒜.

Z analizy algorytmu Determinacja wynika, że w ogólności zbiór stanów wyjściowego automatu deterministycznego może osiągać wartość rzędu O(2n), gdzie n jest ilością stanów automatu niedeterministycznego.

Zastosujemy powyższy algorytm do uzyskania automatu deterministycznego równoważnego automatowi z przykładu 1.1. (patrz przykład 1.1.) Kolejne etapy działania ilustruje zamieszczona tu animacja 1.

Automaty niedeterministyczne z przejściami pustymi

Rozszerzenie definicji automatu skończenie stanowego do automatu niedeterministycznego nie spowodowało, jak wiemy, zwiększenia mocy obliczeniowej takich modeli. Nasuwać się może pytanie, czy dołączenie do tego ostatniego modelu możliwości wewnętrznej zmiany stanu, zmiany stanu bez ingerencji sygnału zewnetrznego, czyli bez czytania litery nie zwiększy rodziny jezyków rozpoznawanych.

Model taki, zwany automatem z pustymi przejściami (w skrócie: automat z p-przejściami), zdefiniujemy poniżej.

Definicja 2.1.

Automatem niedeterministycznym z pustymi przejściami nad alfabetem A nazywamy system 𝒜pND=(S,f), w którym S jest dowolnym zbiorem, zwanym zbiorem stanów, a f:S×(A{1})𝒫(S) funkcją przejść.

Uwaga 2.1.

Słowo puste 1 występuje w powyższej definicji w dwóch rolach. Pierwsza, to znana nam rola elementu neutralnego katenacji słów. Druga, to rola jakby "dodatkowej" litery, która może powodować zmianę aktualnego stanu automatu na inny. Ponieważ słowo puste może wystąpić przed i po każdej literze dowolnego słowa wA* (i to wielokrotnie), dlatego też czytając słowo w, automat zmienia stany zgodnie nie tylko z sekwencją liter tego słowa, ale także z uwzględnieniem tej drugiej roli słowa pustego.

Rozszerzając powyższą definicję poprzez dodanie zbioru stanów początkowych i zbioru stanów końcowych, uzyskamy niedeterministyczny automat z pustymi przejściami 𝒜pND=(S,A,f,I,F), dla którego będziemy mogli zdefiniować język rozpoznawany. W tym celu określimy najpierw działanie takiego automatu pod wpływem dowolnego słowa wA*. Jeśli sS oraz w=aA, to

f(s,a)={f(f(f(s,1n),a),1m):n,m0}.

Zwróćmy uwagę, iż zbiór określający wartość rozszerzonej funkcji jest skończony i efektywnie obliczalny, bo zbiór stanów automatu jest skończony. Jeśli teraz sS oraz w=uaA, to

f(s,w)=f(s,ua)=f(f(s,u),a).

Stany ze zbioru f(s,w) będziemy nazywać stanami osiągalnymi z s pod wpływem słowa w. Prawdziwe jest następujące twierdzenie, które orzeka, iż z punktu widzenia rozpoznawania automaty niedeterministyczne z pustymi przejściami rozpoznają dokładnie te same języki, co automaty niedeterministyczne.

Twierdzenie 2.1.

Język LA* jest rozpoznawany przez automat niedeterministyczny z pustymi przejściami wtedy i tylko wtedy, gdy jest rozpoznawany przez automat niedeterministyczny.

Dowód

(szkic) Fakt, że język L rozpoznawany przez automat niedeterministyczny jest rozpoznawany przez automat niedeterministyczny z pustymi przejściami jest oczywisty.

Dowód implikacji w drugą stronę polega na takiej modyfikacji automatu niedeterministycznego z pustymi przejściami rozpoznającego jezyk L, by uzyskać automat bez pustych przejść i nie ograniczyć ani nie zwiększyć jego możliwości rozpoznawania. Zarysujemy ideę tej konstrukcji. Niech 𝒜pND=(S,A,f,I,F), będzie automatem niedeterministycznym z pustymi przejściami akceptującym język L. W konstruowanym automacie pozostawiamy zbiór stanów i zbiór stanów początkowych I bez zmian. Jeśli z któregoś ze stanów początkowych z I jest możliwość osiągnięcia jakiegoś stanu końcowego z F, to dodajemy stan początkowy do zbioru stanów końcowych, czyli zbiór stanów końcowych w konstruowanym automacie ma postać FI. Jeśli nie ma takiej możliwości, to zbiór stanów końcowych pozostaje niezmieniony. Określamy wartość funkcji przejść dla dowolnego stanu sS i litery aA jako zbiór wszystkich stanów osiągalnych ze stanu s pod wpływem a. Tak skonstruowany automat niedeterministyczny nie ma pustych przejść i jak można wykazać, indukcyjnie ze względu na długość słowa, rozpoznaje dokładnie język L.

Algorytm usuwania przejść pustych i prowadzący do równoważnego automatu niedeterministycznego przedstawiony jest w ćwiczeniach do tego wykładu.

Lemat o pompowaniu

Jedną z wielu własności języków rozpoznawanych przez automaty skończone, i chyba jedną z najważniejszych, przedstawia prezentowane poniżej twierdzenie, zwane tradycyjnie w literaturze lematem o pompowaniu. Istota własności "pompowania" polega na tym, iż automat, mając skończoną ilość stanów, czytając i rozpoznając słowa dostatecznie długie, wykorzystuje w swoim działaniu pętlę, czyli powraca do stanu, w którym znajdował się wcześniej. Przez taką pętlę automat może przechodzić wielokrotnie, a co za tym idzie, "pompować" rozpoznawane słowo, wprowadzając do niego wielokrotnie powtarzane podsłowo odpowiadające tej pętli.

Twierdzenie 3.1. (Lemat o pompowaniu)

Niech LA* będzie językiem rozpoznawalnym. Istnieje liczba naturalna N1 taka, że dowolne słowo wL o długości wN można rozłożyć na katenację w=v1uv2, gdzie v1,v2A*,uA+, v1uN oraz

v1u*v2L.

Dowód

Niech L=L(𝒜) , gdzie 𝒜=(S,A,f,s0,T) jest deterministycznym automatem skończenie stanowym. Niech N=#S i rozważmy dowolne słowo w=a1....akL takie, że wN. Oznaczmy:

s1=f(s0,a1),s2=f(s1,a2),...,si+1=f(si,ai+1),,sk=f(sk1,ak).

Słowo w jest akceptowane przez automat 𝒜 , więc skT. Ponieważ #S=N oraz k=wN, to istnieją i,j{1,,N} , i<j takie, że si=sj.

Przyjmując teraz v1=a1...ai,v2=aj+1...ak,u=ai+1...aj, dochodzimy do nastepującej konkluzji:

f(s0,v1)=si,f(sj,v2)=skT,f(si,u)=si=sj.


A to oznacza, że słowo v1ukv2 jest rozpoznawane przez automat 𝒜 dla dowolnej liczby k0 , co kończy dowód. Nierówność v1uN wynika w oczywisty sposób z przyjętego na początku dowodu założenia, że N=#S.

Istotę dowodu przedstawia następująca animacja 2.


Wniosek 3.1.

Jeśli rozpoznawalny język LA* jest nieskończony, to istnieją słowa v1,u,v2A* takie, że

v1u*v2Liu1.

Wniosek 3.2.

Jeśli rozpoznawalny język LA* nie jest zbiorem pustym, to istnieje słowo wL takie, że w<N , gdzie N jest stałą występującą w lemacie o pompowaniu.
Jeśli słowo wL i wN , to zgodnie z lematem o pompowaniu możemy przedstawić słowo w jako w=v1uv2 , gdzie u1 oraz v1uiv2L dla i=0,1,2 . Przyjmując i=0 , mamy v1v2L i v1v2<w . Powtarzając powyższy rozkład skończoną ilość razy, otrzymamy słowo należące do języka L , o długości mniejszej od N .

Lemat o pompowaniu wykorzystuje się najczęściej do uzasadnienia faktu, iż pewne języki nie są rozpoznawane przez automaty skończone. Przyjrzyjmy się bliżej technice takiego uzasadnienia.

Przykład 3.1.

Rozważmy język L={anbn:n0} nad alfabetem A={a,b}. W oparciu o lemat o pompowaniu wykażemy, że język L nie jest rozpoznawany. Dla dowodu nie wprost, przypuszczamy, że L jest rozpoznawany. Na podstawie udowodnionego lematu istnieją zatem słowa v1,u,v2A* takie, że v1u*v2L oraz u1. Biorąc pod uwagę formę słów języka L , wnioskujemy, że

  • słowo u nie może składać się tylko z liter a, gdyż słowo v1u2v2 zawierałoby więcej liter a niż b,
  • słowo u nie może składać się tylko z liter b, gdyż słowo v1u2v2 zawierałoby więcej liter b niż a,
  • słowo u nie może składać się z liter aib, gdyż w słowie v1u2v2 litera b poprzedzałaby literę a.

Ponieważ słowo v1u2v2, należy do języka L , więc każdy z wyprowadzonych powyżej wniosków prowadzi do sprzeczności.