Zaawansowane algorytmy i struktury danych/Wykład 3

Zaawansowane algorytmy tekstowe III

W module tym zajmiemy się wykrywaniem regularności w tekstach: szukaniem symetrii i powtórzeń. Słowo jest powtórzeniem, gdy jest postaci $z z$ , gdzie $z$ jest niepustym tekstem. Powtórzenia w tekstach reprezentują strukturę wewnętrznych okresowości i regularności, których wyszukiwanie ma zastosowania np. w biologii obliczeniowej. Powtórzenia są związane z kompresją tekstów. Im więcej powtórzeń w słowie tym bardziej to słowo jest kompresowalne.

Słowo jest symetryczne gdy $x = x^{R}$ , gdzie $R$ jest operacją odwracania słowa. Algorytmicznie symetrie w słowach są bardzo interesujące.

Kompresja typu LZ i faktoryzacja tekstów

Powtarzające się segmenty tekstu związane są z kompresją. Jeśli mamy dwie kopie tego samego (być może długiego) podsłowa, to drugą z nich możemy zastąpić referencją do pierwszej. Jeśli czytamy tekst od lewej do prawej i napotkamy segment $x [i . . j]$ , który pojawił się wcześniej jako $x [p . . q]$ , gdzie $q < i$ to możemy reprezentować $x [i . . j]$ przez parę liczb $[p, q]$ . Filozofia ta prowadzi do rodziny algorytmów kompresji podanych przez Lempela i Ziva (kompresji typu LZ). Jest wiele różnych wariantów tego typu kompresji.

Zdefiniujmy teraz faktoryzację tekstów typu LZ. Faktoryzacją tekstu $x$ jest rozkład $x = v_{1} v_{2} \dots v_{m}$ , gdzie $v_{1} = x [1]$ , oraz
jeśli $| v_{1} v_{2} . . v_{k - 1} | = i - 1$ , to $v_{k}$ jest najdłuższym tekstem, który występuje w $v_{1} v_{2} . . v_{k - 1}$ , a jeśli takiego nie ma, to $v_{k} = x [i]$ .

Oznaczmy przez $L Z (x)$ faktoryzację $x$ .

Rysunek 1:

Obliczanie następnego czynnika w faktoryzacji typu LZ zaczynającego się na pozycji $i$ -tej (jako najdłuższego słowa, które występuje we wcześniejszym tekście). Poprzedni czynnik kończy się na pozycji $i - 1$ . $P o s (i)$ jest początkiem wcześniejszego segmentu który jest referencją aktualnego czynnika.

Przykład

Faktoryzacja przykładowego słowa Fibonacciego jest następująca:

LZ(abaababaabaab)

= v_{1} v_{2} v_{3} v_{4} v_{5} v_{6} = a b a a b a b a a b a a b

Korzystając z drzew sufiksowych można udowodnić następujący fakt:

dla danego tekstu $x$ długości $n$ możemy policzyć $L Z (x)$ w czasie liniowym. Zakładamy tutaj, że alfabet da się posortować w czasie liniowym (jest to naturalne założenie).

Powtórzenia zakotwiczone

Przypuśćmy, że $x = u v$ . Powtórzenie jest $(u, v)$ -zakotwiczone gdy zaczyna się w $u$ i kończy w $v$ . Wprowadzimy dwie funkcje logiczne $R i g h T e s t (u, v), L e f t T E s t (u, v)$ dla słów $u, v$ . $R i g h t T e s t (u, v)$ zachodzi, gdy istnieje $(u, v)$ -zakotwiczone powtórzenie którego środek znajduje się na początku, lub wewnątrz $v$ . Podobnie definiuJemy $L e f t T e s t$ .

Roważymy, tylko przypadek obliczania $R i g h t T e s t$ .

Rysunek 2:

P R E F [k] + S [k] \geq k

Dla każdej pozycji $k$ w $v$ liczymy

$P R E F [k]$ : długość maksymalnego podsłowa zaczynającego się w $k$ i będącego prefiksem $v$ ;
$S [k]$ : długość maksymalnego podsłowa kończącego się na pozycji $k - 1$ i będącego sufiksem $u$ .

Własność funkcji $R i g h t t e s t$ :
$R i g h t e s t (u, v)$ zachodzi wtedy i tylko wtedy gdy dla pewnego $k$ mamy nierówność $P R E F [k] + S [k] \geq k$ , patrz rysunek.

Wiemy już jak obliczyć tablicę $P R E F$ w czasie liniowym, tablicę $S$ liczymy symetrycznie. W ten sposób pokazaliśmy, że obliczenie $R i g h t T e s t (u, v)$ wymaga jedynie czasu liniowego. Podobnie jest dla $L e f t T e s t$ .

Szukanie dowolnych powtórzeń w czasie n log n

Niech $T e s t (u, v)$ będzie funkcją logiczną wyrażającą fakt posisadania przez $x$ powtórzenia $(u, v)$ -zakotwiczonego. Inaczej mówiąc $T e s t (u, v) \equiv R i g h t T e s t (u, v) lub L e f t t e s t (u, v)$ . Następujący algorytm ma strukturę taką jak merge-sort. Szukamy powtórzenia w lewej połowie, w prawej, oraz na styku obu połówek (funkcja Test).

Algorytm Powtórzenia - Rekurencyjne

if $n = 1$ then return false

   zastosuj algorytm rekurencyjnie do tekstu $x [1 . . ⌊ n / 2 ⌋]$ ;
   zastosuj algorytm rekurencyjnie do tekstu $x [⌊ n / 2 ⌋ + 1 . . n]$ ;
  if $T e s t (x [1 . . ⌊ n / 2 ⌋], x [⌊ n / 2 ⌋ + 1 . . n])$ then return true;

Algorytm w oczywisty sposób działa w czasie $O (n \log n)$ , gdyż liczenie funkcji $T e s t$ jest w czasie liniowym.

Dygresja. Istnieje ciekawa wersja tego algorytmu działająca w czasie $O (n \log n)$ i (dodatkowej) pamięci stałej (nie możemy mieć dodatkowych tablic $P R E F, S$ ).

Szukanie dowolnych powtórzeń w czasie liniowym

Algorytm liniowy szukania powtórzenia opiera się na faktoryzacji tekstów. Niech

L Z (x) = (v_{1}, v_{2}, \dots, v_{m})

Wtedy $x$ zawiera powtórzenie wtedy i tylko wtedy gdy dla pewnego $k$ zachodzi

$R i g h t T e s t (v_{1}, v_{2} \dots v_{k - 2}, v_{k - 1} v_{k}$ lub $R i g h t t e s t (v_{1}, v_{2} \dots v_{k - 1}, v_{k})$

Dowód tej własności pozostawiamy jako ćwiczenie.

Algorytm Szukanie-Powtórzeń

oblicz faktoryzację $L Z (x) = (z_{1}, z_{2}, \dots, z_{m})$ ;
for $k : = 1$ to $m$ do
    $u 1 : = z_{1}, z_{2} \dots z_{k - 2}; v 1 : = z_{k - 1} z_{k}$ ;
    $u 2 : = z_{1}, z_{2} \dots z_{k - 1}; v 2 : = z_{k}$ ;
   if $R i g h t T e s t (u 1, v 1)$ lub $R i g h t T e s t (u 2, v 2)$
      then return true;
return false;

Algorytm działa w czasie liniowym, gdyż złożoność liczenia alternatywy $R i g h t T e s t (u 1, v 1)$ lub $R i g h t T e s t (u 2, v 2)$ jest $O (| v_{k - 1} v_{k} |)$ , oraz zachodzi

\sum_{k = 1}^{m} | v_{k - 1} v_{k} | \leq 2 n

Wykrywanie symetrii w tekstach

Słowo $x$ nazwiemy palindromem gdy jest symetryczne oraz $| x | > 1$ . Palindromy parzyste to palindromy o parzystej długości. Oznaczmy zbiór wszystkich palindromów przez $P A L$ , a przez $P A L_{0}, P A L_{1}$ oznaczmy odpowiednio zbiory palindromów parzystych i nieparzystych.

Przykładami palindromów są słowa:

kajak, atypotopyta, zagwiżdżiwgaz

Problem najdłuższego prefikso-palindromu polega na rozkładzie danego słowa $x = u v$ , takim, że $u \in P A L$ oraz $u$ jest najdłuższy o tej własności. Istnieje prosty algorytm oparty na tablicy prefikso-sufiksów $P$ .

Algorytm Prefikso-Palindrom

oblicz tablicę P dla słowa-kompozycji $x # x^{R}$ (słowo długości $2 n + 1$ ),
jeśli $P (2 n + 1) > 0$ to jest to długość najdłuższego prefikso-palindromu
w przeciwnym przypadku $x$ nie ma prefikso-palindromu.

Podobnie możemy zdefiniować problem najkrótszego prefisko-palindromu. Algorytm powyższy można łatwo zmodyfikować aby znajdował najkrótszy prefikso-palindrom.

Chociaż powyższy algorytm działa w czasie liniowym, możliwy jest szybszy algorytm, który znajduje najkrótszy prefikso-palindrom w czasie $O (s)$ , gdzie $s$ jest długością najkrótszego prefikso-palindromu, zakładając że tekst posiada prefikso-palindrom.

Skoncentrujemy się na razie na palindromach parzystych. Definiujemy, dla każdej pozycji $i$ promień palindromu parzystego o środku w $i$ jako:

R a d [i] = \max {j : j = 0 lub x [i - j + 1 . . i] = x [i + 1 . . i + j]}

Załóżmy, dla uproszczenia, że tekst $x$ zaczyna się od specjalnego symbolu (marker początku), który występuje tylko na początku.

Opiszemy algorytm, który oblicza tablice promieni palindromów dla kolejnych pozycji $i$ od strony lewej do prawej, załóżmy że policzyliśmy już wartości:

R a d [1], R a d [2], \dots, R a d [i] .

Okazuje się, że korzystając z symetrii, możemy obliczyć pewne nowe elementy tablicy $R a d$ nie wykonując żdnych porównań symboli. Wynika to z następującego faktu.

Własność promieni palindromów

1 \leq k \leq R a d [i] oraz R a d [i - k] \neq R a d [i] - k \Rightarrow R a d [i + k] = \min (R a d [i - k], R a d [i] - k)

Uzasadnimy krótko tę własność rozważając dwa przypadki:

Przypadek (a): $R a d [i - k] < R a d [i] - k$ .

Wówczas palindrom $R a d [i - k]$ o środeku w $i - k$ jest całowicie zawarty w dłuższym palindromie o środku w $i$ . Pozycja $i - k$ jest symetryczna do $i + k$ ze względu na $i$ . Zatem z symetrii o środku $i$ wynika,że najdłuższy palindrom o środku $i + k$ m taki sam promień jak ten o środku $i - k$ . Zatem w tym przypadku $R a d [i + k] = R a d [i - k]$ .

Przypadek (b): $R a d [i - k] > R a d [i] - k$ .

Sytuacja jest pokazna na rysunku, który przedsatwi maksymalne palindromy o środkach $i - k$ , $i$ and $i + k$ . Ponieważ $a \neq b$ (z definicji maksymalności palindromu o środku w $i$ ), zatem $R a d [i + k] = R a d [i] - k$ .

Rysunek 3: Przypadek (b) dowodu własności promieni palindromów parzystych.

Poniżej przedstawiamy algorytm Promienie-Palindromów. W jednej iteracjigłównej pętli while algorytm oblicza $R a d [i + k]$ dla kolejnych $k = 1, 2, \dots$ dla których $R a d [i - k] \neq R a d [i] - k$ . Jeśli ostatnim takim $k$ jest $k^{'}$ , wtedy zaczynamy całą główną iterację od nowego $i$ równego $i + k^{'}$ .

Pozostawiamy jako ćwiczenie modyfikację algorytmu aby liczył promienie palindromów nieparzystych.

W pierwszsym momencie gdy algorytm wykryje prefikso-palindrom (promień palindromu sięga do początku tekstu) możemy algorytm zatrzymać i podać długość najkrótszego prefikso-palindromu. W sumie pokazaliśmy następujący fakt:

(a) Tablicę promieni palindromów (parzystych i nieparzystych) można policzyć w czasie liniowym.

(b) Długość $s$ najkrótszego prefikso-palindromu (zakładając że taki istnieje) można policzyć w czasie proporcjonalnym do jego długości.

Algorytm Promienie-Palindromów

$R a d [1] : = 0$ ; $j : = 0$ ;
$i : = 2$ ;

while $i \leq ⌊ n / 2 ⌋$ do
   while $x [i - j] = x [i + 1 + j]$ do $j : = j + 1$ ;
   if $j = i$ then $R a d [i] : = j$ ;
    $k : = 1$ ;
   while $R a d [i - k] \neq R a d [i] - k$ do
       $R a d [i + k] : = \min (R a d [i - k], R a d [i] - k)$ ; $k : = k + 1$ ;
    $j : = m a x (j - k, 0)$ ; $i : = i + k$ ;

Kompozycje słów symetrycznych

Rozważmy teraz interesujący (chociaż mało użyteczny w praktyce) problem sprawdzania, czy słowo jest nietrywialną kompozycją słów symetrycznych. Przez $P A L_{0}^{*}, P A L^{*}$ oznaczmy odpowiednio zbiór konkatenacji dowolnej liczby słów należących do $P A L_{0}, P A L$ .

Elementy $P A L^{*}$ nazywamy palstarami a elementy $P A L_{0}^{*}$ nazywamy palstarami parzystymi.

Niech $f i r s t (i)$ , $f i r s t_{0} (i)$ będzie (ze względów technicznych załóżmy, że słowo puste teź jest palstarem (parzystm i nieparzystym jednocześnie) odpowiednio pierwszą pozycją $j > i$ w słowie $x$ taką, że $x [i . . j] \in P A L$ , $x [i . . j] \in P A L_{0}$ , wartością funkcji jest zero gdy nie ma takiego $j$ .

Algorytm Parzyste-Palstary

$s : = 0$ ;
while $s < n$ do     $s : = s + 1$ ;
   if $f i r s t_{0} (s) = 0$ then return false;
    $s : = f i r s t (s)$ ;
return true;

Mówiąc nieformalnie, algorytm Parzyste-Palstary obcina słowo o najkrótszy prefikso-palindrom, aż tekst będzie pusty (sukces) albo aż się em zatnie (nie ma rozkładu na parzyste palindromy). Algorytm Parzyste-Palstary ma złożoność liniową ponieważ policzenie $f i r s t_{0} (i)$ zajmuje czas proporcjonalny do wartości $s = f i r s t (i)$ , zakładając, że $s \neq 0$ . Nietrywialna natomiast jest poprawność algorytmu. Zdefiniujmy

p a r s e_{0} (i) = \min {j : x [i . . j] \in P A L_{0}

oraz

j = n

lub

x [j + 1 . . n] \in P A L_{0}^{*}}

Własność parzystych palstarów: $x [i . . n] \in P A L_{0}^{*} \Rightarrow p a r s e_{0} (i) = f i r s t_{0} (i)$

Poprawność algorytmu wynika natychmiast powyższej własności. Pozostawimay dowód tej włsności jako ćwiczenie.

Możemy podobnie zdefiniować funkcję $p a r s e (i)$ dla dowolnych palstarów i dowolnych palindromów. Własność parzystych palstarów nie zachodzi dla dowolnych palstarów, ale zachodzi własność bardziej skomplikowana.

Własność dowolnych palstarów:

x [i . . n] \in P A L^{*} \Rightarrow p a r s e (i) \in {f i r s t (i), 2 \cdot f i r s t (i) + 1, 2 \cdot f i r s t (i) - 1}

Pozostawimay dowód tej własności jako ćwiczenie. Algorytm testowania dowolnych palstarów jest intersujący ponieważ pzebiega on zupełnie inaczej niż dla parzystych palstarów.

Piewszym krokiem algorytmu jest stablicowanie funkcji $f i r s t$ , obliczamy tablicę $F I R S T [i] = f i r s t (i)$ , w czasie liniowym dla wszystkich $i$ lącznie.

Pozostawiamy jako ćwiczenie policzenie tej tablicy w czasie $O (n)$ . Obliczenie takie opiera się na wykorzystaniu tablicy promieni palindromów.

Załóżmy teraz że mamy tablicę FIRST, funkcja $f i r s t$ działa teraz w czasie stałym (gotowe wartości z tablicy). Poniższy algorytm dla każdej pozycji $i$ sprawdza czy $x [i . . n] \in P A L^{*}$ . Odpowiedź jest zapisana w tablicy logicznej $P A L$ . Zakładamy, że początkowo tabica $P A L$ ma wartości {\em false} włącznie z elementami wykraczjącymi poza zakres tablicy (dla uproszczenia zapisu).

Algorytm Testowanie-Palstarów

$P A L [n] : =$ true;
for $i : = n - 1$ down to $0$ do     $f : = F I R S T [i]$ ;
   if $f = 0$ then $P A L [i] : =$ false
   else $P A L [i] : = (P A L [i + f]$ or $P A L [i + 2 f - 1]$ or $P A L [i + 2 f + 1])$

Interesującym problemem jest rozkład słowa $x$ w postaci $P A L^{k}$ , gdzie $k$ jest ustalone. Istnieją algorytmy liniowe dla $k = 2, 3, 4$ oparte na następującej własności zawężającej zbiór rozkładów do zweryfikowania: jeśli $x \in P A L^{2}$ to $x = u v$ , dla pewnych $u, v \in P A L$ gdzie $u$ jest najdłuższym palindromem będącym prefiksem $x$ lub $v$ jest najdłuższym palindromem będącym sufiksem $x$ .

Zaawansowane algorytmy i struktury danych/Wykład 3

Spis treści

Kompresja typu LZ i faktoryzacja tekstów

Powtórzenia zakotwiczone

Szukanie dowolnych powtórzeń w czasie n log n

Szukanie dowolnych powtórzeń w czasie liniowym

Wykrywanie symetrii w tekstach

Kompozycje słów symetrycznych

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia