Algorytmy i struktury danych/Algorytmy tekstowe I
From Studia Informatyczne
Algorytmy tekstowe I
Spis treści |
Algorytmy tekstowe mają decydujące znaczenie przy wyszukiwaniu informacji typu tekstowego, ten typ informacji jest szczególnie popularny w informatyce, np. w edytorach tekstowych i wyszukiwarkach internetowych. Tekst jest ciągiem symboli. Przyjmujemy, że jest on zadany tablicą
, elementami której są symbole ze skończonego zbioru A (zwanego alfabetem). Liczba
jest długością (rozmiarem) tekstu. W większości naszych algorytmów jedyne operacje dopuszczalne na symbolach wejściowych to porównania dwóch symboli.
Algorytmy na tekstach wyróżniają się tym, że wykorzystują specyficzne, kombinatoryczne własności tekstów. Okresem tekstu
jest każda niezerowa liczba naturalna
taka, że
, dla każdego
, dla którego obie strony są zdefiniowane. Przez per(x) oznaczmy minimalny okres x.
Pojęciem dualnym do okresu jest prefikso-sufiks tekstu. Jest to najdłuższy właściwy (nie będący całym tekstem) prefiks tekstu x będący jednocześnie jego sufiksem. Oczywiste jest, że
jest długością prefikso-sufiksu x. Jeśli
to prefikso-sufiksem x jest słowo puste o długości zerowej.
Oznaczmy przez
rozmiar prefikso-sufiksu
. Zatem
, gdzie
.
Przykład
Dla
mamy:
![P[1..11]\ =\ [0,\ 0,\ 1,\ 2,\ 3,\ 4,\ 5,\ 6,\ 7,\ 8,\ 0].](/images/math/1/0/7/1070b32d62096c115a897a93ba7d2514.png)
Wartość
jest wartością sztuczną (przyjmiemy, że
).
Wprowadzimy również tablicę ‘’'silnych prefikso-sufiksów dla wzorca
:
jeśli
, to
, gdzie
jest maksymalnym rozmiarem słowa będącego właściwym prefiksem i sufiksem
i spełniającego dodatkowy warunek
dla
.
Jeśli takiego k nie ma, to przyjmujemy
.
Przyjmujemy ponadto, że
.
Wartości tablicy P' mogą być znacznie mniejsze niż wartości tablicy P.
Przykład
Dla
mamy:
![P[0..5]\ =\ [-1,\ 0,\ 0,\ 1,\ 1,\ 2\ ];\ \ P'[0..5]\ =\ [-1,\ 0,\ -1,\ 1,\ 0,\ 2\ ].](/images/math/6/f/8/6f8560ce4366a62add61e57902fd4165.png)
Obliczanie tablicy Prefikso-Sufiksów
Przedstawimy jeden z możliwych algorytmów liniowych obliczania tablicy P. Jest to iteracyjna wersja algorytmu rekurencyjnego, który moglibyśmy otrzymać korzystając z faktu:
oraz
, to ![P[j]= t+1](/images/math/2/a/a/2aacb994a137156d6913e3216209fbb6.png)
W algorytmie obliczania
korzystamy z wartości
, dla
.
Algorytm Prefikso-Sufiksy
1;
; 2 for
to
do 3 begin 4 while
and
do
5
;
; 6 end;
Złożoność liniowa wynika stąd, że w każdej iteracji zwiększamy wartość t co najwyżej o jeden, a wykonanie każdej operacji
zmniejsza wartość t co najmniej o jeden. Proste zastosowanie zasady magazynu (lub potencjału) implikuje, że operacji
wykonujemy co najwyżej n. Dowód poprawności pozostawiamy jako ćwiczenie.
Minimalne słowo pokrywające
Pokażemy pewne proste zastosowanie tablic prefikso-sufiksów. Słowem pokrywającym tekst x jest każdy taki tekst y, którego wystąpienia w x pokrywają cały tekst x. Na przykład słowo y=aba pokrywa tekst x=ababaaba, natomiast nie pokrywa tekstu abaaababa. Zajmiemy się problemem: obliczyć w czasie liniowym długość najkrótszego słowa pokrywającego dany tekst x.
Niech
będzie rozmiarem minimalnego słowa pokrywającego tekst
.
Następujący algorytm oblicza długość minimalnego słowa
pokrywającego tekstu x. Algorytm jest efektywny ponieważ liczy dodatkową tablicę Zakres.
W
-tej
iteracji algorytmu pamiętany jest znany dotychczas zakres każdego minimalnego słowa pokrywającego.
Rysunek 1:
-ta iteracja algorytmu dla
oraz słowa
. Tuż przed
rozpoczęciem tej iteracji mamy
,
.
Zatem spełniony jest warunek
. Po zakończeniu
-tej iteracji
mamy
.
Algorytm Rozmiar-Minimalnego-Pokrycia
for i:=2 to n do begin Zakres[i]=i; S[i]=i; end; for i:=2 to n do if P[i]>0 and i-Zakres[S[P[i]]] <= S[P[i]] then begin S[i] := S[P[i]]; Zakres[S[P[i]] := i end; return S[n];
Algorytmy Knutha-Morrisa-Pratta i Morrisa-Pratta
Przedstawimy klasyczne algorytmy Knutha-Morrisa-Pratta (w skrócie KMP) oraz Morrisa-Pratta (w skrócie MP)
dla problemu string-matchingu:
obliczyć w w tekście
wszystkie (lub pierwsze) wystąpienia danego tekstu
, zwanego wzorcem.
Algorytmy MP i KMP różnią się jedynie tym że jeden używa tablicy P a drugi P'. Tablica P' jest bardziej skomplikowana, będziemy się zatem głównie koncentrować na algorytmie MP, poza wersją on-line (gdzie waśnie P' ma przewagę).
Oznaczmy
, gdzie
.
Zaczniemy od obliczania jedynie pierwszego wystąpienia. Algorytm MP przegląda tekst y od lewej do prawej, sprawdzając, czy jest zgodność na pozycji
we wzorcu x oraz na pozycji
w tekście y. Jeśli jest niezgodność, to przesuwamy potencjalny początek (pozycja i) wystąpienia x w y. Zakładamy, że algorytm zwraca na końcu wartość false, jeśli nie zwróci wcześniej true.
Algorytm Algorytm MP
1;
; 2 while
do begin 3 while
and
do
; 4 if
then return(true); 5
;
6 end;
Uwaga: Algorytm działa podobnie gdy zamiast prefikso-sufiksów użyjemy tablicy P' silnych prefisko-sufksów. Algorytm w całości jest wtedy bardziej skomplikowany ze względu na trudniejszy preprocessing
(liczenie P' jest trudniejsze od P).
Algorytm MP z tablicą P' zamiast P nazywamy algorytmem Knutha-Morrisa-Pratta i oznaczamy przez KMP.
Operacją dominującą w algorytmach KMP i MP jest operacja porównania symboli:
.
Algorytmy KMP i MP wykonują co najwyżej 2n-m porównań symboli. Zauważmy, że dla danej pozycji w tekście y jest ona co najwyżej raz porównana z pewną pozycją we wzorcu w porównaniu pozytywnym (gdy symbole są równe). Jednocześnie każde negatywne porównanie powoduje przesunięcie pozycji
co najmniej o jeden, maksymalna wartość i wynosi n-m, zatem mamy takich porównań co najwyżej n-m, w sumie co najwyżej 2n-m porównań.
Poniższa animacja pokazuje przykładowe działanie algorytmu KMP.
,
wykonuje 2n-2porównania, zatem 2n-m jest dolną i jednocześnie górną granicą na liczbę porównań w algorytmie.Obserwacja. W wersji on-line algorytmu okaże się, że jest zdecydowana różnica między użyciem P' i P; to właśnie jest motywacją dla wprowadzenia silnych prefikso-sufiksów.
Rysunek 1: Jedna iteracja algorytmu KMP. Przesunięcie
potencjalnego początku wystąpienia wzorca gdy
.Wersja on-line algorytmu KMP
Przedstawimy teraz wersję on-line algorytmu KMP. Wczytujemy kolejne symbole
i wypisujemy on-line (na bieżąco) odpowiedź:
- 0 - gdy dotychczas wczytany tekst nie zawiera x jako sufiks,
- 1 - jeśli zawiera
Algorytm On-Line-KMP
01 repeat forever 2 read(
); 3 while
and
do
; 4
; 5 if
then 6 write(1);
; 7 else write(0);
Oznaczmy przez delay(m) maksymalną liczbę kroków algorytmu On-Line-KMP między wczytaniem symbolu i daniem odpowiedzi. Przez delay'(m) oznaczmy podobną wielkość, w sytuacji gdy zamiast tablicy P' użyjemy P.
Przykład
Jeśli
oraz
, to
,
.
Z lematu o okresowości wynika, że zachodzi następujący fakt:

Uzasadnienie pozostawiamy jako ćwiczenie.
Wersja ‘’real-time’’ algorytmu Morrisa-Pratta
Pokażemy teraz wersję algorytmu on-line, która działa w czasie rzeczywistym, tzn. czas reakcji między wczytaniem symbolu a daniem odpowiedzi jest O(1), niezależnie od rozmiaru alfabetu. Zamiast KMP użyjemy algorytm MP, którego preprocessing jest prostszy.
Algorytm zachowuje się podobnie jak algorytm On-Line-KMP; podstawowa różnica polega na tym, że algorytm wkłada do kolejki wczytane symbole, które jeszcze nie są przetworzone w sensie algorytmu MP. Rysunek pokazuje relacje tego algorytmu do algorytmu MP. Symbole z wejścia najpierw wędrują do kolejki.

Rysunek 2: Typowa konfiguracja w algorytmie real-time-MP.
Algorytm Real-Time-MP
1 inicjalizacja:; Kolejka
;
2 repeat forever (niezmiennik:)
3 read(symbol); 4 insert(symbol,Kolejka); 5 write(OUTPUT(Kolejka, j));
W celu skrócenia zapisów pojedynczych algorytmów rozbijamy algorytm na dwie części. Zasadnicza część jest zapisana jako osobna funkcja OUTPUT(Kolejka, j). Wynikiem funkcji jest 0 lub 1, w zależności od tego czy ostatnio wczytany symbol kończy wystąpienie wzorca x. Zmienne Kolejka, j są globalne. Oczywiste jest, że opóźnienie (czas reakcji) tego algorytmu jest O(1).
Algorytm OUTPUT(Kolejka, j)
1 output0; (początkowo Kolejka niepusta)
2 repeat 2 times
3 if Kolejka niepusta then
4 ifthen 5 j
0; delete(Kolejka); 6 else if
then
; 7 else 8
; delete(Kolejka); 9 if
(w tym momencie
) 10 output
1; j
;
11 return(output);
Oszczędna wersja algorytmu Morrisa-Pratta
Algorytm MP wykonuje co najmniej 2n-m porównań symboli. Załóżmy, że są to operacje dominujące i spróbujmy zmniejszyć stały współczynnik 2 do
. Na początku załóżmy, że
. Następujący algorytm znajduje wszystkie wystąpienia wzorca ‘’ab’’ w tekście y.
Algorytm Szukanie-ab
1 wzorcem jest2
; 3 while
do begin 4 while
do
; 5 if
then 6 wypisz-wystąpienie;i
i+2 7 end;
Algorytm MP dla wzorca ‘’ab’’ i tekstu ‘’aaa...aa’’ wykonywał 2n-2 porównań symboli, nowy algorytm jest lepszy. Algorytm Szukanie-ab wykonuje co najwyżej n porównań w tym przypadku. Dla tekstu ‘’abab’’ algorytm wykinuje n+1 porównań.
Pozostawiamy jako ćwiczenie policzenie maksymalnej liczby porównań dla tego algorytmu (wzorzec ‘’ab’’). Widać, że podstawowa idea to sprawdzanie najpierw pierwszego symbolu wzorca różnego od poprzednich.
Uogólnimy algorytm na dowolne wzorce. Niech x zawiera co najmniej dwa różne symbole,
, gdzie
.Oznaczmy
skrócony wzorzec
Przykład
, wtedy
,
.
Podamy nieformalny zarys działania oszczędniejszej wersji algorytmu MP, w której osobno szukamy x' i osobno części
.
Niech
będzie taką wersją algorytmu MP, w której szukamy jedynie wzorca
, ale tablica
jest obliczona dla wzorca
. Jeśli
i
, to wykonujemy przesunięcie potencjalnego początku i wzorca w y o k+1, gdzie
.
Inaczej mówiąc, nie szukamy wszystkich wystąpień x', ale jedynie takich, które mają sens z punktu widzenia potencjalnego znalezienia na lewo ciągu
.
Tak zmodyfikowany algorytm MP zastosujemy jako część algorytmu Oszczędny-MP. Graficzna ilustracja działania algorytmu Oszczędny-MP jest pokazana na rysunku.
Algorytm Oszczędny-MP
Znajdujemy wystąpienia x' w tekście
algorytmem MP';
dla każdego wystąpienia x' sprawdzamy, czy na lewo jest wystąpienie
;
nie sprawdzamy tych pozycji w y, których zgodność z pewną pozycją w x jest znana;

Rysunek 3:Typowa konfiguracja w algorytmie Oszczędny-MP.
Pozostawiamy jako ćwiczenie dokładny zapis algorytmu oraz dokładniejszy dowód tego, że algorytm Oszczędny-MP wykonuje co najwyżej
porównan.
Ogólna idea jest przedstawiona na rysunku.

Rysunek 4: Ilustracja tego, że liczba operacji dodatkowych jest ograniczona przez
.Niech zasadniczymi operacjami będą operacje sprawdzania pierwszego b na danej pozycji tekstu y oraz te sprawdzania symboli, które są z wynikiem pozytywnym. Takich operacji jest co najwyżej n. Pozostałe operacje to
(1) sprawdzanie w części
z wynikiem negatywnym; wtedy przesuwamy wzorzec co najmniej o k,
(2) sprawdzanie części
na lewo od pozytywnego
(w kwadraciku na rysunku), na pozycjach, gdzie wcześniej było sprawdzanie negatywnego b. Wtedy odległość między pozytywnymi kolejnymi b jest co najmniej 2w, gdzie
jest liczbą sprawdzanych na lewo symboli a. Zatem ‘’lokalnie’’ przesunięcie jest co najmniej dwukrotnie większe niż liczba dodatkowych operacji.
Suma przesunięć wzorca na tekście
wynosi co najwyżej n, sumaryczna liczba dodatkowych operacji jest więc co najwyżej
, a liczba wszystkich operacji nie przekracza
.
Obliczanie Tablicy Silnych Prefikso-Sufiksów
Algorytm liczenia silnych prefikso-sufiksów bazuje na następującej relacji między P a P':
![(t=P[j]\ \textrm{oraz}\ x[t+1]\neq x[j+1])\ \Rightarrow\ P'[j]=t](/images/math/3/f/3/3f3eebdaa01f845390569ee85258f461.png)
![(t=P[j],\ t\ge 0,\ \textrm{oraz}\ x[t+1]= x[j+1])\ \Rightarrow\ P'[j]=P'[t]](/images/math/1/5/8/158bb0b395bf1b1de0b40a5e8a68c67f.png)
Nie musimy obliczać tablicy P; potrzebna jest jedynie ostatnia wartość
, którą obliczamy on-line.
Algorytm Silne-Prefikso-Sufiksy
1;
;
2 for1 to
do
3 whileand
do 4
; 5
; 6 if
or
7 then
else
;
Gdy weźmiemy
to
,
,
, oraz dla
.
Jest to jest pesymistyczny przypadek dla algorytmu Silne-Prefikso-Sufiksy, algorytm wykonuje wtedy
porównań symboli.
;
;
2 for
to
do
3 begin
4 while
and
do
5
;
;
6 end;

;
;
2 while
do begin
3 while
and
;
4 if
then return(true);
5
;
6 end;
1 repeat forever
2 read(
);
3 while
and
do
;
4
;
5 if
;
7 else write(0);
;
)
0; (początkowo Kolejka niepusta)
then
5 j
then
;
7 else
8
)
10 output
1; j
;
2
do
;
5 if
then
6 wypisz-wystąpienie;i
;
1 to
;
5
7 then
else
;
