Algorytmy i struktury danych/Algorytmy tekstowe I: Różnice pomiędzy wersjami

Wersja z 19:39, 14 wrz 2006

Algorytmy tekstowe I

Tekst jest ciągiem symboli, przyjmujemy że jest on zadany tablicą x[1..n] elementami której są symbole ze zbioru A (zwanego alfabetem). Liczba $n = | x |$ jest długością (rozmiarem)tekstu. W większości naszych algorytmów jedyne operacje dopuszczalne na symbolach wejściowych to porównania dwóch symboli.

Algorytmy na tekstach wyróżniają się tym, że wykorzystują specyficzne kombinatoryczne własności tekstów. Okresem tekstu $x$ jest każda liczba naturalna niezerowa $p$ taka, że $x [i] = x [i + p]$ , dla każdego i dla którego obie strony są zdefiniowane. Przez per(x) oznaczmy minimalny okres x.

Pojęciem dualnym do okresu jest prefikso-sufiks tekstu, jest to najdłuższy własciwy (nie będący całym x) prefiks tekstu x będący jednocześnie sufiksem x. Oczywistym jest, że $| x | - p e r (x)$ jest długością prefikso-sufiksu x. Jeśli $p e r (x) = | x |$ to prefikso-sufiksem x jest słowo puste o długości zerowej.

Oznaczmy przez $P [k]$ rozmiar prefikso-sufiksu $x [1 . . k]$ , zatem $p e r (x) = n - P [n]$ , gdzie $n = | x |$ .

Przykład

Dla $x = a b a b a b a b a b b$ mamy:

P [1 . . 11] = [0, 0, 1, 2, 3, 4, 5, 6, 7, 8, 0] .

Wartość $P [0]$ jest wartością sztuczną (przyjmiemy potem $P [0] = - 1$ ).

Liczenie tablicy Prefikso-Sufiksów

Przedstawimy jeden z możliwych algorytmów liniowych obliczania tablicy P, jest to iteracyjna wersja algorytmu rekurencyjnego, który moglibyśmy otrzymać korzystając z faktu:

x [j] = x [t + 1] oraz t = P [j - 1] \Rightarrow P [j] = t + 1

W algorytmie do liczenia $P [j]$ korzystamy z wartości $P [k]$ dla $k < j$ .

Algorytm Prefikso-Sufiksy

$P [0] : = - 1$ ; $t : = - 1$ ;
for $j : = 1$ to $m$ do
while $t \geq 0$ and $x [t + 1] \neq x [j]$ do $t : = P [t]$
$t : = t + 1$ ; $P [j] : = t$ ;

Złożoność liniowa wynika stąd, że w każdej iteracji zwiększamy wartość t co najwyżejo jeden, a wykonanie każdej operacji $t : = P [t]$ zmniejsza wartość t co najmniej o jeden. Proste zastosowanie zasady magazynu (lub potencjału) implikuje, że operacji $t : = P [t]$ wykonujemy conajwyżej n. Dowód poprawności pozostawiamy jako ćwiczenie.

Minimalne słowo pokrywające

Pokażemy pewne proste zastosowanie tablice prefikso-sufisków. Słowem pokrywającym tekst x jest każdy taki tekst y, którego wystąpienia w x pokrywają cały tekst x. Na przykład słowo y=aba pokrywa tekst x=ababaaba, natomiast nie pokrywa tekstu abaaababa. Zajmiemy się problemem: obliczyć w czasie liniowym długość najkrótszego słowa pkrywającego dany tekst x.

Niech $S [i]$ będzie rozmiarem minimalnego pokrywajćego słowa dla prefiksu $x [1 . . i]$ . Następujący algorytm liczy długość minimalnego słowa pokrywającego tekstu x. Liczymy wartości $S [i]$ najmniejszej długości minimalnego słowa pokrywającego $x [1 \dots i]$ dla każdego $1 \leq i \leq n$ . W $i$ -tej iteracji algorytm pamięta jaki jest ``znany zakres każdego minimalnego słowa pokrywającego.

Rysunek 3: $i$ -ta iteracja algorytmu, dla $i = 15$ , oraz słowa $x = a b a a b a b a b a a b a b a \dots$ . Tuż przed rozpoczęciem tej iteracji mamy $P [i] = 8$ , $q = S [8] = 3$ , $Z a k r e s [3] = 13$ . Po zakończeniu $i$ -tej iteracji

mamy

S [15] = 3, Z a k r e s [3] = 15

, ponieważ

i - Z a k r e s [3] \leq q

.

Algorytm Rozmiar-Minimalnego-Pokrycia

for $i : = 2$ to $n$ do
$Z a k r e s [i] = i, S [i] = i$

for $i : = 2$ to $n$ do
if $P [i] > 0$ oraz $i - Z a k r e s [S [P [i]] \leq S [P [i]]$ then
$S [i] : = S [P [i]]$ ; $Z a k r e s [S [P [i]] : = i$ ;

return $S [n]$ ;

Poprawność jest pozostawiona jako ćwiczenie.

Tablica Silnych Prefikso-Sufiksów

Wprowadzimy silną tablicę prefikso-sufisów dla wzorca $x [1 . . m]$ : jeśli $j < | x |$ to $P^{'} [j] = k$ , gdzie $k$ jest maksymalnym rozmiarem słowa będącego właściwym prefiksem i sufiksem $x [1 . . j]$ i spełniającego dodatkowy warunek $x [k + 1] \neq x [j + 1]$ dla $j < n$ .
Jeśli takiego k nie ma to przyjmujemy $P^{'} [j] = - 1$ . Przyjmujemy ponadto, że $P^{'} [m] = P [m]$ .

Wartości tablicy P' mogą być znacznie mniejsze niż wartości tablicy P.

Szablon:Przykład

Algorytm bazuje na następującej relacji między P i P':

(t = P [j] oraz x [t + 1] \neq x [j + 1]) \Rightarrow P^{'} [j] = t

(t = P [j], t \geq 0, oraz x [t + 1] = x [j + 1]) \Rightarrow P^{'} [j] = P^{'} [t]

Nie musimy liczyć tablicy P, potrzebna jest jedynie ostatnia wartość $t = P [j]$ , którą liczymy on-line.

Algorytm Silne-Prefikso-Sufiksy

$P^{'} [0] : = - 1$ ; $t : = -$ 1;
for $j : =$ 1 to $m$ do // $t = P [j - 1]$
   while $t \geq 0$ and $x [t + 1] \neq x [j]$ do
       $t : = P^{'} [t]$ ;
    $t : = t + 1$ ;
   if $j = m$ or $x [t + 1] \neq x [j + 1]$
      then $P^{'} [j] : = t$ else $P^{'} [j] : = P^{'} [t]$ ;

Gdyweżmiemy $x = a b a^{m - 2}$ to $P^{'} [0] = - 1$ , $P^{'} [1] = 0$ , $P^{'} [2] = - 1$ ,oraz $P^{'} [j] = 1$ , dla $3 \leq j \leq m$ . To jest pesymistyczny przypadek dla algorytmu Silne-Prefikso-Sufiksy, algorytm wykonuje $3 m - 5$ porównań symboli.

String-matching: algorytm Knutha-Morrisa-Pratta

Przedstawimy klasyczny algorytm Knutha-Morrisa-Pratta (w skrócie KMP) dla problemu string-matchingu: obliczyć w w tekście $y$ wszystkie (lub pierwsze) wystąpienia danego tekstu $x$ , zwanego wzorcem (ang. pattern).

Oznaczmy $m = | x |, n = | y |$ , gdzie $m \leq n$ .

Operacją dominującą w algorytmie jest porównanie dwóch symboli.

Zaczniemy od obliczania jedynie pierwszego wystąpienia. Algorytm KMP przegląda tekst y od lewej do prawej, sprawdzając, czy jest zgodność na pozycji $j + 1$ we wzorcu x, oraz na pozycji $i + j + 1$ w tekście y. Jeśli jest niezgodność to przesuwamy potencjalny początek (pozycja i) wystąpienia x w y. Zakładamy, że algorytm zwraca wartość false gdy nie zwróci wcześniej true. Pozostawiamy dowód poprawności(określenie niezmienników) jako ćwiczenie.

Algorytm Algorytm KMP

$i : = 0$ ; $j : = 0$ ;
while $i \leq n - m$ do
   while $j < m$ and $x [j + 1] = y [i + j + 1]$ do $j = j + 1$ ;
   if $j = m$ then return(true);
    $i : = i + j - P^{'} [j]$ ; $j : = \max (0, P^{'} [j])$

Operacją dominującą w algorytmie jest operacja: $x [j + 1] = y [i + j + 1]$ .

Udowodnimy, że algorytm KMP wykonuje co najwyżej 2n-m porównań symboli. Zauważmy, że dla danej pozycji w tekście y jest ona co najwyżej raz porównana z pewną pozycją we wzorcu w porównaniu pozytywnym (gdy symbole są równe). Jednocześnie każde negatywne porównanie powoduje przesunięcie pozycji $i$ co najmniej o jeden, maksymalna wartość i wynosi n-m, zatem mamy takich porównań co najwyżej n-m, w sumie co najwyżej 2n-m porównań w algorytmie KMP.

<flash>file=KMP.swf|width=450|height=220</flash>

Algorytm dla $x = a b$ , $y = a a . . a$ wykonuje 2n-2porównania, zatem 2n-m jest dolną i jednocześnie górną granicą na liczbę porównań w algorytmie.

Obserwacja. Tablicę P' możemy w algorytmie KMP zamienić na P bez zmiany złożoności pesymistycznej.

W wersji on-line algorytmu okaże się, że jest zdecydowana różnica między użyciem P' i P,to właśnie jest motywem wprowadzenia silnych prefikso-sufiksów.

Rysunek 1: Jedna iteracja algorytmu KMP. Przesunięcie

s h i f t = j - P^{'} [j]

potencjalnego początku wystąpienia wzorca gdy

x [j + 1] \neq y [i + j + 1]

.

Wersja on-line algorytmu KMP

Przedstawimy teraz wersję on-line algorytmu KMP. Wczytujemy kolejne symbole $y$ i wypisujemy on-line (nabieżąco) odpowiedż:

0 - gdy dotychczas wczytany tekst nie zawiera x jako sufiks,
1 - jeśli zawiera

Algorytm On-Line-KMP

repeat forever
   read( $s y m b o l$ );
   while $j > - 1$ and $x [j + 1] \neq s y m b o l$ do $j : = P^{'} [j]$ ;
    $j : = j + 1$ ;
   if $j = m$ then
      write(1); $j : = P^{'} [m]$ ;
   else write(0);

Oznaczmy przez delay(m) maksymalną liczbę kroków algorytmu On-Line-KMP między wczytaniem symbolu i daniem odpowiedzi. Przez delay'(m) oznaczmy podobną wielkość, w sytuacji gdy zamiast tablicy P' użyjemy P.

Przykład

Jeśli $x = a a a a \dots a$ oraz Parser nie mógł rozpoznać (błąd składni): {\displaystyle y=a^{m-1b} , to $d e l a y (m) = O (1)$ , $d e l a y^{'} (m) = Θ (m)$ .

Z lematu o okresowości wynika, że zachodzi następujący fakt:

d e l a y (m) = Θ (\log m)

Uzasadnienie pozostawiamy jako ćwiczenie.

Wersja real-time algorytmu KMP

Pokażemy teraz wersje algorytmu on-line która działa real-time, tzn. czas reakcji między wczytaniem symbolu i daniem odpowiedzi jest O(1) niezależnie od rozmiaru alfabetu.

Algorytm zachowuje się podobnie jak algorytm On-Line-KMP, podstawowa różnica polega na tym, że algorytm wkłada do kolejki wczytane symbole, które jeszcze nie są przetworzone w sensie algorytmu KMP. Algorytm zachowuje się podobnie jak algorytm on-line, ale wczytuje kolejne symbole z kolejki, a nie bezpośrednio z wejścia. Rysunek pokazuje relacje tego algorytmu do algorytmu KMP. Symbole z wejścia najpierw wędrują do kolejki.

Rysunek 2: Typowa konfiguracja w algorytmie real-time-KMP.

Algorytm Real-Time-KMP

inicjalizacja: $j : = 0$ ; Kolejka $: = \emptyset$ ;
repeat forever
   read(symbol);
   insert(symbol,Kolejka);
   write(OUTPUT(Kolejka, j));

W celu skrócenia zapisów pojedynczych algorytmów rozbijamy algorytm na dwie części. Zasadnicza część jest zapisana jako osobna funkcja OUTPUT(Kolejka, j). Funkcja ta liczy 0 lub 1, w zależności od tego czy ostatnio wczytany symbol kończy wystąpienie wzorca x. Zmienne Kolejka, j są globalne.

Oczywistym jest że opóźnienie (czas reakcji) tego algorytmu jest O(1).

Pozostawiamy jako ćwiczenie uzasadnienie tego, że algorytm Real-Time-KMP jest poprawny.

Algorytm Real-Time-KMP: funkcja OUTPUT(Kolejka, j)

output $: =$ 0;
repeat 2 times
   if Kolejka niepusta then
      if $j = - 1$ then
         j $: =$ 0; delete(Kolejka);
      else if $x [j + 1] \neq f i r s t (K o l e j k a)$ then $j : = P^{'} [j]$ ;
      else
          $j : = j + 1$ ; delete(Kolejka);
         if $j = m$
            output $: =$ 1; j $: = P^{'} [m]$ ;
return(output);

Wersja algorytmu KMP z 3/2.n porównaniami

Algorytm KMP wykonuje co najmniej 2n-m porównań symboli. Załóżmy, że są to operacje dominujące i spróbujmy zmniejszyć stały współczynnik 2 do $\frac{3}{2}$ . Na początku załóżmy, że $x = a b$ .Następujący algorytm znajduje wszystkie wystąpienia wzorca ab w tekście y.

Algorytm Szukanie-ab

wzorcem jest $a b$
$i : = 0$ ;
while $i \leq n - m$ do
   while $y [i + 2] \neq b$ do $i = i + 1$ ;
   if $y [i + 1] = a$ then
      wypisz-wystąpienie;i $: =$ i+2

Algorytm KMP dla wzorca ab wykonywał 2n-2 porównań symboli, nowy algorytm jest lepszy. Zachodzi fakt: algorytm Szukanie-ab wykonuje co najwyżej n porównań w tym przypadku.

Uzasadnienie pozostawimay jako ćwiczenie.

Uogólnimy algorytm na dowolne wzorce. Niech x zawiera co najmniej dwa różne symbole, $x = a^{k} b α$ , gdzie $a \neq b$ .Oznaczmy $x^{'} = b α$ skrócony wzorzec

Przykład

$x = a a a a b a a a a b a b a$ , wtedy $x^{'} = b a a a a b a b a$ , $α = a a a a b a b a$ .

Podamy nieformalny zarys działania oszczędniejszej wersji algorytmu KMP, w której osobno szukamy x' i osobno części $a^{k}$ .

Niech $K M P^{'}$ będzie taką wersją algorytmu KMP w której jedynie szukamy wzorca $x^{'}$ , ale tablica $P^{'}$ jest policzona względem wzorca $x$ .Jeśli $j > 0$ i $s h i f t \leq k$ to wykonujemy przesunięcie potencjalnego początku i wzorca w y o k+1, gdzie $s h i f t = j - P^{'} [j]$ . Inaczej mówiąc, nie szukamy wszystkich wystąpień x', ale jedynie takich, które mają sens pod względem potencjalnego znalezienia na lewo ciągu $a^{k}$ .

Tak zmodyfikowany algorytm KMP zastosujemy jako część algorytmu Oszczędny-KMP. Graficzna ilustracja działania algorytmu Oszczędny-KMP jest pokazana na rysunku.

Algorytm Oszczędny-KMP

Znajdujemy wystąpienia x' w tekście $y [k + 1 . . m]$ algorytmem KMP';
dla każdego wystąpienia x' sprawdzamy czy na lewo jest wystąpienie $a^{k}$ ;
nie sprawdzamy tych pozycji w y, których zgodność z pewną pozycją w x jest znana;

Rysunek 3:Typowa konfiguracja w algorytmie Oszczędny-KMP.

Pozostawiamy jako ćwiczenie dokładny zapis algorytmu w pseudokodzie oraz dowód tego, że algorytm Oszczędny-KMP wykonuje co najwyżej $\frac{3}{2} n$ porównan.

Ogólna idea jest przedstawiona na rysunku.

Rysunek 4: Ilustracja tego, że liczba operacji dodatkowych jest ograniczona przez

\frac{1}{2} n

.

Niech zasadniczymi operacjami będą operacje sprawdzania pierwszego b na danej pozycji tekstu y, oraz te sprawdzania symboli które sa z wynikiem pozytywnym. Takich operacji jest co najwyżej n. Pozostałe operacje to

(1) sprawdzanie w części $α$ z wynikiem negatywnym, wtedy przesuwamy wzorzec co najmniej o k,

(2) sprawdzanie części $a^{k}$ na lewo od pozytywnego $b$ (w kwadraciku na rysunku), na pozycjach gdzie wcześniej było sprawdzanie negatywnego b. Wtedy odległość między pozytywnymi kolejnymi b jest co najmniej 2w, gdzie $w \leq k$ liczba sprawdzanych na lewo symboli a. Zatem lokalnie przesunięcie jest co najmniej dwukrotnie większe niż liczba dodatkowych operacji.

Suma przesunięć wzorca na tekście $y$ wynosi co najwyżej n, tak więc sumaryczna liczba dodatkowych operacji jest co najwyżej $\frac{1}{2} n$ , a liczb wszstkich nie przekracza $\frac{3}{2} n$ .

Równoważność cykliczna słów

W poprzednich algorytmach porównywaliśmy symbole jedynie w sensie ich równości. Pokażemy teraz problem, który pokazuje użyteczność porządku liniowego na alfabecie.

Rotacją słowa $u = u [1 . . n]$ jest kaz'rde słowo postaci $u^{(k)} = u [k + 1 . . n] u [1 . . k]$ . (w szczególności $u^{(0)} = u^{(n)} = u)$ . Niech $u, w$ będą słowami długości $n$ , mówimy, że są one cyklicznie równoważne gdy $u^{(i)} = w^{(j)}$ dla pewnych $i, j$ .

Naturalnym algorytmem sprawdzania cyklicznej równoważności jest szukanie słowa $u$ w słowie $w w$ , ale podamy algorytm znacznie prostszy bazujący na porządku leksykograficznym , który będzie działał w czasie liniowym i w miejscu (dodatkowa pamięć jest stała).

W algorytmie rozszerzamy tablice $u, w$ na $u u, w w$ ale robimy to jedynie dla uproszczenia, w rzeczywistości możemy poruszać się cyklicznie po $u$ i po $w$ , pozostawiamy modyfikację jako ćwiczenie.

Algorytm Równoważność-Cykliczna

$x : = u u$ ; $y : = w w$ ;
$i : = 0$ ; $j : = 0$ ;
while $(i < n)$ and $(j < n)$ do
    $k : = 1$ ;
   while $x [i + k] = y [j + k]$ do $k : = k + 1$ ;
   if $k > n$ then return true;
   if $x [i + k] > y [i + k]$ then $i : = i + k$ else $j : = j + k$ ;
return false;

Problem poprawności pozostawiamy jako ćwiczenie.

Liczba porównań jest oczywiście liniowa. Pozostawiamy jako ćwiczenie policzenie dokładnego wzoru na maksymalną liczbę porównań symboli dla tekstów długości $n$ .

@@ Linia 5: / Linia 5: @@
 Tekst jest ciągiem symboli, przyjmujemy że jest on zadany tablicą x[1..n] elementami której są symbole ze zbioru A (zwanego alfabetem). Liczba <math>n=|x|</math> jest długością (rozmiarem)tekstu. W większości naszych algorytmów jedyne operacje dopuszczalne na symbolach wejściowych to porównania dwóch symboli.
-Algorytmy na tekstach wyróżniają się tym, że wykorzystują specyficzne kombinatorycznewłasności tekstów. Okresem tekstu <math>x</math> jest każda liczba naturalna niezerowa <math>p</math> taka, że<math>x[i]=x[i+p]</math>, dla każdego i dla którego obie strony są zdefiniowane. Przez per(x) oznaczmyminimalny okres x.
+Algorytmy na tekstach wyróżniają się tym, że wykorzystują specyficzne kombinatoryczne własności tekstów. Okresem tekstu <math>x</math> jest każda liczba naturalna niezerowa <math>p</math> taka, że <math>x[i]=x[i+p]</math>, dla każdego i dla którego obie strony są zdefiniowane. Przez per(x) oznaczmy minimalny okres x.
-Pojęciem dualnym do okresu jest prefikso-sufiks tekstu, jest to najdłuższy własciwy (nie będący całym x) prefiks tekstu x  będącyjednocześnie sufiksem x.  Oczywistym jest, że <math>|x|-per(x)</math> jest długością prefikso-sufiksu x.Jeśli <math>per(x)=|x|</math> to prefikso-sufiksem x jest słowo puste o długości zerowej.
+Pojęciem dualnym do okresu jest prefikso-sufiks tekstu, jest to najdłuższy własciwy (nie będący całym x) prefiks tekstu x  będący jednocześnie sufiksem x.  Oczywistym jest, że <math>|x|-per(x)</math> jest długością prefikso-sufiksu x. Jeśli <math>per(x)=|x|</math> to prefikso-sufiksem x jest słowo puste o długości zerowej.
 Oznaczmy przez <math>P[k]</math> rozmiar prefikso-sufiksu <math>x[1..k]</math>, zatem <math>per(x)=n-P[n]</math>, gdzie <math>n=|x|</math>.
@@ Linia 18: / Linia 18: @@
 <center><math>P[1..11]\ =\ [0,\ 0,\ 1,\ 2,\ 3,\ 4,\ 5,\ 6,\ 7,\ 8,\ 0].</math></center>
-Wartość <math>P[0]</math> jest warością sztuczną  (przyjmiemy potem <math>P[0]=-1</math>).
+Wartość <math>P[0]</math> jest wartością sztuczną  (przyjmiemy potem <math>P[0]=-1</math>).
 }}
 == Liczenie tablicy  Prefikso-Sufiksów==
-Przedstawimy jeden z możliwych algorytmów liniowych oblicznaia tablicy P, jest to iteracyjna wersja algorytmu rekurencyjnego, który moglibyśmy otrzymac korzystając z faktu:
+Przedstawimy jeden z możliwych algorytmów liniowych obliczania tablicy P, jest to iteracyjna wersja algorytmu rekurencyjnego, który moglibyśmy otrzymać korzystając z faktu:
 <center><math>x[j]=x[t+1]\ \textrm{oraz}\ t=P[j-1] \ \Rightarrow\ P[j]= t+1</math></center>
@@ Linia 71: / Linia 71: @@
 ==Tablica Silnych Prefikso-Sufiksów==
 Wprowadzimy silną tablicę prefikso-sufisów dla wzorca <math>x[1..m]</math>:
-&nbsp;&nbsp;&nbsp;jeśli <math>j<|x|</math> to <math>P'[j]=k</math>, gdzie <math>k</math> jest maksymalnym rozmiarm słowa będącego prefiksem i sufiksem <math>x[1..j]</math>najdłuższego własciwegoi spełniającego dodatkowy warunek <math>x[k+1]\ne x[j+1]</math> dla <math>j<n</math>.
+&nbsp;&nbsp;&nbsp;jeśli <math>j<|x|</math> to <math>P'[j]=k</math>, gdzie <math>k</math> jest maksymalnym rozmiarem słowa będącego właściwym prefiksem i sufiksem <math>x[1..j]</math> i spełniającego dodatkowy warunek <math>x[k+1]\ne x[j+1]</math> dla <math>j<n</math>.
-<br>Jeśli takiego k nie ma toprzyjmujemy <math>P'[j]=-1</math>. Przyjmujemy ponadto, że <math>P'[m]=P[m]</math>.
+<br> Jeśli takiego k nie ma to przyjmujemy <math>P'[j]=-1</math>. Przyjmujemy ponadto, że <math>P'[m]=P[m]</math>.
 Wartości tablicy P' mogą być znacznie mniejsze niż wartości tablicy P.
-{{przyklad|||
+{{przykład|||
 Dla <math>x\ =\ abaab</math> mamy:
 <center><math>P[0..5]\ =\ [-1,\ 0,\ 0,\ 1,\ 1,\ 2\ ];\ \ P'[0..5]\ =\ [-1,\ 0,\ -1,\ 1,\ 0,\ 2\ ].</math></center>
@@ Linia 104: / Linia 104: @@
 Przedstawimy klasyczny algorytm Knutha-Morrisa-Pratta (w skrócie KMP) dla problemu ''string-matching''u:
-&nbsp;obliczyć w w tekście <math>y</math> wszystkie (lub pierwsze) wystąpienia danego tekstu <math>x</math>, zwanego wzorcem (ang. pattern).
+&nbsp; obliczyć w w tekście <math>y</math> wszystkie (lub pierwsze) wystąpienia danego tekstu <math>x</math>, zwanego wzorcem (ang. pattern).
 Oznaczmy <math>m=|x|, n=|y|</math>, gdzie <math>m\le n</math>.
@@ Linia 110: / Linia 110: @@
 Operacją ''dominującą'' w algorytmie jest porównanie dwóch symboli.
-Zaczniemy od obliczania jedynie pierwszego wystąpienia. Algorytm KMP przegląda tekst y od lewej do prawej, sprawdzając, czy jest zgodność na pozycji <math>j+1</math> we wzorcu x, oraz na pozycji <math>i+j+1</math> w tekście y. Jeśli jest niezgodność to przesuwamy potencjalny początek (pozycja i) wystąpienia x w y.Zakładamy, że algorytm ''zwraca'' wartość ''false'' gdy nie zwróci wcześniej ''true''. Pozostawiamy dowód poprawności(określenie niezmienników) jako ćwiczenie.
+Zaczniemy od obliczania jedynie pierwszego wystąpienia. Algorytm KMP przegląda tekst y od lewej do prawej, sprawdzając, czy jest zgodność na pozycji <math>j+1</math> we wzorcu x, oraz na pozycji <math>i+j+1</math> w tekście y. Jeśli jest niezgodność to przesuwamy potencjalny początek (pozycja i) wystąpienia x w y. Zakładamy, że algorytm ''zwraca'' wartość ''false'' gdy nie zwróci wcześniej ''true''. Pozostawiamy dowód poprawności(określenie niezmienników) jako ćwiczenie.
-{{algorytm|Algorithm KMP|algorytm_kmp|
+{{algorytm|Algorytm KMP|algorytm_kmp|
 <math>i:=0</math>; <math>j:=0</math>;<br>
 '''while''' <math>i\leq n-m</math> '''do'''<br>
@@ Linia 123: / Linia 123: @@
 Operacją '''dominującą''' w algorytmie jest  operacja: <math>x[j+1]=y[i+j+1]</math>.
-Udowodnimy, że algorytm KMP wykonuje co najwyżej 2n-m porównań symboli. Zauważmy, że dla danejpozycji w tekście y jest ona co najwyżej raz porównana z pewną pozycją we wzorcu w porównaniupozytywnym (gdy symbole są równe). Jednocześnie każde negatywne porównanie powoduje przesunięciepozycji <math>i</math> co najmniej o jdeden, maksymalna wartość i wynosi n-m, zatem mamy takich porównań conajwyżej n-m, w sumie co najwyżej 2n-m porównań w algorytmi KMP.
+Udowodnimy, że algorytm KMP wykonuje co najwyżej 2n-m porównań symboli. Zauważmy, że dla danej pozycji w tekście y jest ona co najwyżej raz porównana z pewną pozycją we wzorcu w porównaniu pozytywnym (gdy symbole są równe). Jednocześnie każde negatywne porównanie powoduje przesunięcie pozycji <math>i</math> co najmniej o jeden, maksymalna wartość i wynosi n-m, zatem mamy takich porównań co najwyżej n-m, w sumie co najwyżej 2n-m porównań w algorytmie KMP.
@@ Linia 155: / Linia 155: @@
 }}
-Oznaczmy przez delay(m) maksymalną liczbę kroków algorytmu On-Line-KMP między  wczytaniem symbolui daniem odpowiedzi. Przez delay'(m) oznaczmy podobną wielkość, w sytuacji gdy zamiast tablicy P' użyjemy P.
+Oznaczmy przez delay(m) maksymalną liczbę kroków algorytmu On-Line-KMP między  wczytaniem symbolu i daniem odpowiedzi. Przez delay'(m) oznaczmy podobną wielkość, w sytuacji gdy zamiast tablicy P' użyjemy P.
 {{przyklad|||
@@ Linia 168: / Linia 168: @@
 ==Wersja real-time algorytmu KMP==
-Pokażemy teraz wersje algorytmu on-line która działa real-time, tzn. czas reakcji między wczytaniem symbolui daniem odpowiedzi jest O(1) niezalżnie od rozmiaru alfabetu.
+Pokażemy teraz wersje algorytmu on-line która działa real-time, tzn. czas reakcji między wczytaniem symbolu i daniem odpowiedzi jest O(1) niezależnie od rozmiaru alfabetu.
-Algorytm zachowuje się podobnie jak algorytm On-Line-KMP, podstawowa różnica polega na tym, że algorytm wkłada do kolejki wczytane symbole, które jeszcze nie są przetworzone w sensie algorytmu KMP.  Algorytm zachowuje siępodobnie jak algorytm on-line, ale wczytuje kolejne symbole z kolejki, a nie bezpośrednio z wejścia. Rysunekpokazuje relacje tego algorytmu do algorytmu KMP. Symbole z wejścia najpierw wędrują do kolejki.
+Algorytm zachowuje się podobnie jak algorytm On-Line-KMP, podstawowa różnica polega na tym, że algorytm wkłada do kolejki wczytane symbole, które jeszcze nie są przetworzone w sensie algorytmu KMP.  Algorytm zachowuje się podobnie jak algorytm on-line,  ale wczytuje kolejne symbole z kolejki, a nie bezpośrednio z wejścia. Rysunek pokazuje relacje tego algorytmu do algorytmu KMP. Symbole z wejścia najpierw wędrują do kolejki.
 <center>[[Grafika:Rtkmp.png]]<br>
 Rysunek 2: Typowa konfiguracja w algorytmie real-time-KMP.</center>
@@ Linia 183: / Linia 183: @@
 }}
-W celu skrócenia zapisów pojedyńczych algorytmów rozbijamy algorytm na dwie części. Zasadniczaczęść jest zapisana jako osobna funkcja OUTPUT(Kolejka,\ j). Funkcja taliczy 0 lub 1, w zależności od tego czy ostatnio wczytany symbol kończy wystąpieniewzorca x. Zmienne Kolejka, j  są globalne.
+W celu skrócenia zapisów pojedynczych algorytmów rozbijamy algorytm na dwie części. Zasadnicza część jest zapisana jako osobna funkcja OUTPUT(Kolejka,  j). Funkcja ta liczy 0 lub 1, w zależności od tego czy ostatnio wczytany symbol kończy wystąpienie wzorca x. Zmienne Kolejka, j  są globalne.
-Oczywistym jest że opóżnienie (czas reakcji) tego algorytmu jest O(1).
+Oczywistym jest że opóźnienie (czas reakcji) tego algorytmu jest O(1).
 Pozostawiamy jako ćwiczenie uzasadnienie tego, że algorytm Real-Time-KMP jest poprawny.
@@ Linia 206: / Linia 206: @@
 ==Wersja algorytmu KMP z 3/2.n  porównaniami==
-Algorytm KMP wykonuje co najmniej 2n-m porównań symboli. Załóżmy, że są to operacje dominujące ispróbujmy zmniejszyć stały wspó:lczynnik 2 do <math>\frac{3}{2}</math>. Na początku załóżmy, że <math>x=ab</math>.Następujący algorytm znajduje wszystkie wystąpienia wzorca ab w tekście y.
+Algorytm KMP wykonuje co najmniej 2n-m porównań symboli. Załóżmy, że są to operacje dominujące i spróbujmy zmniejszyć stały współczynnik 2 do <math>\frac{3}{2}</math>. Na początku załóżmy, że <math>x=ab</math>.Następujący algorytm znajduje wszystkie wystąpienia wzorca ab w tekście y.
 {{algorytm|Szukanie-ab|algorytm_szukanie_ab|
@@ Linia 218: / Linia 218: @@
 Algorytm KMP dla wzorca ab wykonywał 2n-2 porównań symboli, nowy algorytm jest lepszy. Zachodzi fakt:
-&nbsp;&nbsp;&nbsp;algorytm Szukanie-ab wykonuje co najwyżej n porównań w tym przypadku.
+&nbsp;&nbsp;&nbsp; algorytm Szukanie-ab wykonuje co najwyżej n porównań w tym przypadku.
 Uzasadnienie pozostawimay jako ćwiczenie.
@@ Linia 253: / Linia 253: @@
 <center>[[Grafika:Okmp2.png]]<br>Rysunek 4: Ilustracja tego, że liczba operacji dodatkowych jest ograniczona przez <math>\frac{1}{2}n</math>.</center>
-Niech zasadniczymi operacjami będą operacje sprawdzania pierwszego b na danej pozycji tekstu y,oraz te sprawdzania symboli ktore sa z wynikiem pozytywnym. Takich operacji jest co najwyżej n. Pozostałe operacje to
+Niech zasadniczymi operacjami będą operacje sprawdzania pierwszego b na danej pozycji tekstu y, oraz te sprawdzania symboli które sa z wynikiem pozytywnym. Takich operacji jest co najwyżej n. Pozostałe operacje to
 (1) sprawdzanie w części <math>\alpha</math> z wynikiem negatywnym, wtedy przesuwamy wzorzec co najmniej o k,
-(2) sprawdzanie części <math>a^k</math> na lewo od ''pozytywnego'' <math>b</math> (w kwadraciku na rysunku), na pozycjach gdzie wcześniej było sprawdzanie ''negatywnego'' b. Wtedy odległość między pozytywnymi kolejnymi b jest co najmniej 2w, gdzie <math>w\le k</math> liczba sprawdzanych na lewo symboli a.Zatem lokalnie przesunięcie jest co najmniej dwukrotnie większe niż liczba dodatkowych operacji.
+(2) sprawdzanie części <math>a^k</math> na lewo od ''pozytywnego'' <math>b</math> (w kwadraciku na rysunku), na pozycjach gdzie wcześniej było sprawdzanie ''negatywnego'' b. Wtedy odległość między pozytywnymi kolejnymi b jest co najmniej 2w, gdzie <math>w\le k</math> liczba sprawdzanych na lewo symboli a. Zatem lokalnie przesunięcie jest co najmniej dwukrotnie większe niż liczba dodatkowych operacji.
 Suma przesunięć wzorca na tekście <math>y</math> wynosi co najwyżej n, tak więc sumaryczna liczba  dodatkowych  operacji jest co najwyżej <math>\frac{1}{2}n</math>, a liczb wszstkich nie przekracza <math>\frac{3}{2}n</math>.
@@ Linia 271: / Linia 271: @@
 Naturalnym algorytmem sprawdzania cyklicznej równoważności jest szukanie słowa <math>u</math> w słowie <math>ww</math>, ale podamy
-algorytm znacznie prostszy bazujący na porządku leksykograficznym , który  będzie działal  w czasie liniowym i  ''w miejscu'' (dodatkowa
+algorytm znacznie prostszy bazujący na porządku leksykograficznym , który  będzie działał  w czasie liniowym i  ''w miejscu'' (dodatkowa
 pamięć jest stała).
-W algorytmie roszerzamy tablice  <math>u,w</math> na <math>uu,\ ww</math> ale robimy to jedynie dla
+W algorytmie rozszerzamy tablice  <math>u,w</math> na <math>uu,\ ww</math> ale robimy to jedynie dla
 uproszczenia, w rzeczywistości możemy poruszać się cyklicznie po <math>u</math> i po <math>w</math>, pozostawiamy modyfikację jako
 ćwiczenie.
-{{algorytm|Równoważność-Cykliczna|algorytm_rownowaznosc_cykliczna|
+{{algorytm|Równoważność-Cykliczna|algorytm_równoważność_cykliczna|
 <math>x:=uu</math>; <math>y:=ww</math>;<br>
 <math>i:=0</math>; <math>j:=0</math>;<br>

Algorytmy i struktury danych/Algorytmy tekstowe I: Różnice pomiędzy wersjami

Wersja z 19:39, 14 wrz 2006

Spis treści

Liczenie tablicy Prefikso-Sufiksów

Minimalne słowo pokrywające

Tablica Silnych Prefikso-Sufiksów

String-matching: algorytm Knutha-Morrisa-Pratta

Wersja on-line algorytmu KMP

Wersja real-time algorytmu KMP

Wersja algorytmu KMP z 3/2.n porównaniami

Równoważność cykliczna słów

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia