Zaawansowane algorytmy i struktury danych/Wykład 3: Różnice pomiędzy wersjami

Wersja z 13:21, 25 wrz 2006

Zaawansowane algorytmy tekstowe III

W module tym zajmiemy się wykrywaniem regularności w tekstach: szukaniem symetrii i powtórzeń. Słowo jest powtórzeniem, gdy jest postaci $z z$ , gdzie $z$ jest niepustym tekstem. Powtórzenia w tekstach reprezentują strukturę wewnętrznych okresowości i regularności, których wyszukiwanie ma zastosowania np. w biologii obliczeniowej. Powtórzenia są związane z kompresją tekstów. Im więcej powtórzeń w słowie, tym bardziej jest kompresowalne.

Słowo jest symetryczne, gdy $x = x^{R}$ , gdzie $R$ jest operacją odwracania słowa. Algorytmicznie symetrie w słowach są bardzo interesujące.

Kompresja typu LZ i faktoryzacja tekstów

Powtarzające się segmenty tekstu związane są z kompresją. Jeśli mamy dwie kopie tego samego (być może długiego) podsłowa, to drugą z nich możemy zastąpić referencją do pierwszej. Jeśli czytamy tekst od lewej do prawej i napotkamy segment $x [i . . j]$ , który pojawił się wcześniej jako $x [p . . q]$ , gdzie $q < i$ , to możemy reprezentować $x [i . . j]$ przez parę liczb $[p, q]$ . Filozofia ta prowadzi do rodziny algorytmów kompresji podanych przez Lempela i Ziva (kompresji typu LZ). Jest wiele różnych wariantów tego typu kompresji.

Zdefiniujmy teraz faktoryzację tekstów typu LZ. Faktoryzacją tekstu $x$ jest rozkład $x = v_{1} v_{2} \dots v_{m}$ , gdzie $v_{1} = x [1]$ , oraz
jeśli $| v_{1} v_{2} . . v_{k - 1} | = i - 1$ , to $v_{k}$ jest najdłuższym tekstem, który występuje w $v_{1} v_{2} . . v_{k - 1}$ , a jeśli takiego nie ma, to $v_{k} = x [i]$ .

Oznaczmy przez $L Z (x)$ faktoryzację $x$ .

Rysunek 1:

Obliczanie następnego czynnika w faktoryzacji typu LZ zaczynającego się na pozycji $i$ -tej (jako najdłuższego słowa, które występuje we wcześniejszym tekście). Poprzedni czynnik kończy się na pozycji $i - 1$ . $P o s (i)$ jest początkiem wcześniejszego segmentu, który jest referencją aktualnego czynnika.

Przykład

Faktoryzacja przykładowego słowa Fibonacciego jest następująca:

LZ(abaababaabaab)

= v_{1} v_{2} v_{3} v_{4} v_{5} v_{6} = a b a a b a b a a b a a b

Korzystając z drzew sufiksowych można udowodnić następujący fakt:

Dla danego tekstu $x$ długości $n$ możemy policzyć $L Z (x)$ w czasie liniowym. Zakładamy tutaj, że alfabet da się posortować w czasie liniowym (jest to naturalne założenie).

Powtórzenia zakotwiczone

Przypuśćmy, że $x = u v$ . Powtórzenie jest $(u, v)$ -zakotwiczone, gdy zaczyna się w $u$ i kończy w $v$ . Wprowadzimy dwie funkcje logiczne $R i g h T e s t (u, v), L e f t T E s t (u, v)$ dla słów $u, v$ . $R i g h t T e s t (u, v)$ zachodzi, gdy istnieje $(u, v)$ -zakotwiczone powtórzenie, którego środek znajduje się na początku lub wewnątrz $v$ . Podobnie definiujemy $L e f t T e s t$ .

Rozważmy przypadek obliczania $R i g h t T e s t$ .

Rysunek 2:

P R E F [k] + S [k] \geq k

Dla każdej pozycji $k$ w $v$ liczymy

$P R E F [k]$ : długość maksymalnego podsłowa zaczynającego się w $k$ i będącego prefiksem $v$ ;
$S [k]$ : długość maksymalnego podsłowa kończącego się na pozycji $k - 1$ i będącego sufiksem $u$ .

Własność funkcji $R i g h t t e s t$ :
$R i g h t e s t (u, v)$ zachodzi wtedy i tylko wtedy, gdy dla pewnego $k$ mamy nierówność $P R E F [k] + S [k] \geq k$ , patrz rysunek.

Wiemy już jak obliczyć tablicę $P R E F$ w czasie liniowym, tablicę $S$ liczymy symetrycznie. W ten sposób pokazaliśmy, że obliczenie $R i g h t T e s t (u, v)$ wymaga jedynie czasu liniowego. Podobnie jest dla $L e f t T e s t$ .

Szukanie dowolnych powtórzeń w czasie n log n

Niech $T e s t (u, v)$ będzie funkcją logiczną wyrażającą fakt posiadania przez $x$ powtórzenia $(u, v)$ -zakotwiczonego. Inaczej mówiąc, $T e s t (u, v) \equiv R i g h t T e s t (u, v) lub L e f t t e s t (u, v)$ . Następujący algorytm ma strukturę taką, jak merge-sort. Szukamy powtórzenia w lewej połowie, w prawej oraz na styku obu połówek (funkcja Test).

Algorytm Powtórzenia - Rekurencyjne

if $n = 1$ then return false

   zastosuj algorytm rekurencyjnie do tekstu $x [1 . . ⌊ n / 2 ⌋]$ ;
   zastosuj algorytm rekurencyjnie do tekstu $x [⌊ n / 2 ⌋ + 1 . . n]$ ;
  if $T e s t (x [1 . . ⌊ n / 2 ⌋], x [⌊ n / 2 ⌋ + 1 . . n])$ then return true;

Algorytm w oczywisty sposób działa w czasie $O (n \log n)$ , gdyż liczenie funkcji $T e s t$ jest w czasie liniowym.

Dygresja. Istnieje ciekawa wersja tego algorytmu, działająca w czasie $O (n \log n)$ i (dodatkowej) pamięci stałej (nie możemy mieć dodatkowych tablic $P R E F, S$ ).

Szukanie dowolnych powtórzeń w czasie liniowym

Algorytm liniowy szukania powtórzenia opiera się na faktoryzacji tekstów. Niech

L Z (x) = (v_{1}, v_{2}, \dots, v_{m})

$x$ zawiera powtórzenie wtedy i tylko wtedy, gdy dla pewnego $k$ zachodzi

$R i g h t T e s t (v_{1}, v_{2} \dots v_{k - 2}, v_{k - 1} v_{k}$ lub $R i g h t t e s t (v_{1}, v_{2} \dots v_{k - 1}, v_{k})$

Dowód tej własności pozostawiamy jako ćwiczenie.

Algorytm Szukanie-Powtórzeń

oblicz faktoryzację $L Z (x) = (z_{1}, z_{2}, \dots, z_{m})$ ;
for $k : = 1$ to $m$ do
    $u 1 : = z_{1}, z_{2} \dots z_{k - 2}; v 1 : = z_{k - 1} z_{k}$ ;
    $u 2 : = z_{1}, z_{2} \dots z_{k - 1}; v 2 : = z_{k}$ ;
   if $R i g h t T e s t (u 1, v 1)$ lub $R i g h t T e s t (u 2, v 2)$
      then return true;
return false;

Algorytm działa w czasie liniowym, pozostawiamy to jako ćwiczenie.

Wykrywanie symetrii w tekstach

Słowo $x$ nazwiemy palindromem, gdy jest symetryczne oraz $| x | > 1$ . Palindromy parzyste to palindromy o parzystej długości. Oznaczmy zbiór wszystkich palindromów przez $P A L$ , a przez $P A L_{0}, P A L_{1}$ oznaczmy odpowiednio zbiory palindromów parzystych i nieparzystych.

Przykładami palindromów są słowa:

kajak, atypotopyta, zagwiżdżiwgaz

Problem najdłuższego prefikso-palindromu polega na rozkładzie danego słowa $x = u v$ takim, że $u \in P A L$ oraz $u$ jest najdłuższy o tej własności. Istnieje prosty algorytm oparty na tablicy prefikso-sufiksów $P$ .

Algorytm Prefikso-Palindrom

oblicz tablicę P dla słowa-kompozycji $x # x^{R}$ (słowo długości $2 n + 1$ ),
jeśli $P (2 n + 1) > 0$ to jest to długość najdłuższego prefikso-palindromu
w przeciwnym przypadku $x$ nie ma prefikso-palindromu.

Podobnie możemy zdefiniować problem najkrótszego prefisko-palindromu. Algorytm powyższy można łatwo zmodyfikować, aby znajdował najkrótszy prefikso-palindrom.

Chociaż powyższy algorytm działa w czasie liniowym, możliwy jest szybszy algorytm, który znajduje najkrótszy prefikso-palindrom w czasie $O (s)$ , gdzie $s$ jest długością najkrótszego prefikso-palindromu, założywszy że tekst posiada prefikso-palindrom.

Skoncentrujemy się na razie na palindromach parzystych. Definiujemy dla każdej pozycji $i$ promień palindromu parzystego o środku w $i$ jako:

R a d [i] = \max {j : j = 0 lub x [i - j + 1 . . i] = x [i + 1 . . i + j]}

Załóżmy, dla uproszczenia, że tekst $x$ zaczyna się od specjalnego symbolu (marker początku), który występuje tylko na początku.

Opiszemy algorytm, który oblicza tablice promieni palindromów dla kolejnych pozycji $i$ od strony lewej do prawej. Załóżmy, że policzyliśmy już wartości:

R a d [1], R a d [2], \dots, R a d [i] .

Okazuje się, że korzystając z symetrii możemy obliczyć pewne nowe elementy tablicy $R a d$ , nie wykonując żadnych porównań symboli. Wynika to z następującego faktu.

Własność promieni palindromów

1 \leq k \leq R a d [i] oraz R a d [i - k] \neq R a d [i] - k \Rightarrow R a d [i + k] = \min (R a d [i - k], R a d [i] - k)

Uzasadnimy krótko tę własność rozważając dwa przypadki:

Przypadek (a): $R a d [i - k] < R a d [i] - k$ .

Wówczas palindrom $R a d [i - k]$ o środku w $i - k$ jest całowicie zawarty w dłuższym palindromie o środku w $i$ . Pozycja $i - k$ jest symetryczna do $i + k$ ze względu na $i$ . Zatem z symetrii o środku $i$ wynika, że najdłuższy palindrom o środku $i + k$ ma taki sam promień jak ten o środku $i - k$ . Zatem w tym przypadku $R a d [i + k] = R a d [i - k]$ .

Przypadek (b): $R a d [i - k] > R a d [i] - k$ .

Sytuacja jest pokazna na rysunku, który przedstawia maksymalne palindromy o środkach $i - k$ , $i$ i $i + k$ . Ponieważ $a \neq b$ (z definicji maksymalności palindromu o środku w $i$ ), zatem $R a d [i + k] = R a d [i] - k$ .

Rysunek 3: Przypadek (b) dowodu własności promieni palindromów parzystych.

Poniżej przedstawiamy algorytm Promienie-Palindromów. W jednej głównej iteracji pętli while algorytm oblicza $R a d [i + k]$ dla kolejnych $k = 1, 2, \dots$ , dla których $R a d [i - k] \neq R a d [i] - k$ . Jeśli ostatnim takim $k$ jest $k^{'}$ , wtedy zaczynamy całą główną iterację od nowego $i$ równego $i + k^{'}$ .

Pozostawiamy jako ćwiczenie modyfikację algorytmu, aby liczył promienie palindromów nieparzystych.

W pierwszym momencie, gdy algorytm wykryje prefikso-palindrom (promień palindromu sięga do początku tekstu), możemy algorytm zatrzymać i podać długość najkrótszego prefikso-palindromu. W sumie pokazaliśmy następujący fakt:

(a) Tablicę promieni palindromów (parzystych i nieparzystych) można policzyć w czasie liniowym.

(b) Długość $s$ najkrótszego prefikso-palindromu (zakładając że taki istnieje) można policzyć w czasie proporcjonalnym do jego długości.

Algorytm Promienie-Palindromów

$R a d [1] : = 0$ ; $j : = 0$ ;
$i : = 2$ ;

while $i \leq ⌊ n / 2 ⌋$ do
   while $x [i - j] = x [i + 1 + j]$ do $j : = j + 1$ ;
   if $j = i$ then $R a d [i] : = j$ ;
    $k : = 1$ ;
   while $R a d [i - k] \neq R a d [i] - k$ do
       $R a d [i + k] : = \min (R a d [i - k], R a d [i] - k)$ ; $k : = k + 1$ ;
    $j : = m a x (j - k, 0)$ ; $i : = i + k$ ;

Kompozycje słów symetrycznych

Rozważmy teraz interesujący (chociaż mało użyteczny w praktyce) problem sprawdzania, czy słowo jest nietrywialną kompozycją słów symetrycznych. Przez $P A L_{0}^{*}, P A L^{*}$ oznaczmy odpowiednio zbiór konkatenacji dowolnej liczby słów należących do $P A L_{0}, P A L$ .

Elementy $P A L^{*}$ nazywamy palstarami a elementy $P A L_{0}^{*}$ nazywamy palstarami parzystymi.

Niech $f i r s t (i)$ , $f i r s t_{0} (i)$ będzie (ze względów technicznych załóżmy, że słowo puste też jest palstarem (parzystm i nieparzystym jednocześnie)) odpowiednio pierwszą pozycją $j > i$ w słowie $x$ taką, że $x [i . . j] \in P A L$ , $x [i . . j] \in P A L_{0}$ , wartością funkcji zaś jest zero, gdy nie ma takiego $j$ .

Algorytm Parzyste-Palstary

$s : = 0$ ;
while $s < n$ do     $s : = s + 1$ ;
   if $f i r s t_{0} (s) = 0$ then return false;
    $s : = f i r s t (s)$ ;
return true;

Mówiąc nieformalnie, algorytm Parzyste-Palstary obcina słowo o najkrótszy prefikso-palindrom, aż tekst będzie pusty (sukces) albo aż się em zatnie (nie ma rozkładu na parzyste palindromy). Algorytm Parzyste-Palstary ma złożoność liniową, ponieważ policzenie $f i r s t_{0} (i)$ zajmuje czas proporcjonalny do wartości $s = f i r s t (i)$ , zakładając, że $s \neq 0$ . Nietrywialna natomiast jest poprawność algorytmu. Zdefiniujmy

p a r s e_{0} (i) = \min {j : x [i . . j] \in P A L_{0}

oraz

j = n

lub

x [j + 1 . . n] \in P A L_{0}^{*}}

Własność parzystych palstarów: $x [i . . n] \in P A L_{0}^{*} \Rightarrow p a r s e_{0} (i) = f i r s t_{0} (i)$

Poprawność algorytmu wynika natychmiast z powyższej własności. Pozostawiamy dowód tej własności jako ćwiczenie.

Możemy podobnie zdefiniować funkcję $p a r s e (i)$ dla dowolnych palstarów i dowolnych palindromów. Własność parzystych palstarów nie zachodzi dla dowolnych palstarów, ale zachodzi własność bardziej skomplikowana.

Własność dowolnych palstarów:

x [i . . n] \in P A L^{*} \Rightarrow p a r s e (i) \in {f i r s t (i), 2 \cdot f i r s t (i) + 1, 2 \cdot f i r s t (i) - 1}

Pozostawimay dowód tej własności jako ćwiczenie. Algorytm testowania dowolnych palstarów jest interesujący, ponieważ przebiega on zupełnie inaczej niż dla parzystych palstarów.

Pierwszym krokiem algorytmu jest stablicowanie funkcji $f i r s t$ . Obliczamy tablicę $F I R S T [i] = f i r s t (i)$ w czasie liniowym dla wszystkich $i$ łącznie.

Pozostawiamy jako ćwiczenie policzenie tej tablicy w czasie $O (n)$ . Obliczenie takie opiera się na wykorzystaniu tablicy promieni palindromów.

Załóżmy teraz, że mamy tablicę FIRST. Funkcja $f i r s t$ działa teraz w czasie stałym (gotowe wartości z tablicy). Poniższy algorytm dla każdej pozycji $i$ sprawdza, czy $x [i . . n] \in P A L^{*}$ . Odpowiedź jest zapisana w tablicy logicznej $P A L$ . Zakładamy, że początkowo tablica $P A L$ ma wartości {\em false}, włącznie z elementami wykraczającymi poza zakres tablicy (dla uproszczenia zapisu).

Algorytm Testowanie-Palstarów

$P A L [n] : =$ true;
for $i : = n - 1$ down to $0$ do     $f : = F I R S T [i]$ ;
   if $f = 0$ then $P A L [i] : =$ false
   else $P A L [i] : = (P A L [i + f]$ or $P A L [i + 2 f - 1]$ or $P A L [i + 2 f + 1])$

Interesującym problemem jest rozkład słowa $x$ w postaci $P A L^{k}$ , gdzie $k$ jest ustalone. Istnieją algorytmy liniowe dla $k = 2, 3, 4$ oparte na następującej własności zawężającej zbiór rozkładów do zweryfikowania:

jeśli $x \in P A L^{2}$ to $x = u v$ , dla pewnych $u, v \in P A L$ gdzie $u$ jest najdłuższym palindromem będącym prefiksem $x$ lub $v$ jest najdłuższym palindromem będącym sufiksem $x$ .

@@ Linia 5: / Linia 5: @@
-W module tym  zajmiemy się wykrywaniem regularności w tekstach: szukaniem symetrii i powtórzeń. Słowo jest powtórzeniem, gdy jest postaci <math>zz</math>, gdzie <math>z</math> jest niepustym tekstem. Powtórzenia w tekstach reprezentują strukturę wewnętrznych okresowości i regularności, których wyszukiwanie ma zastosowania np. w biologii obliczeniowej. Powtórzenia są związane z kompresją tekstów. Im więcej powtórzeń w słowie tym bardziej to słowo jest kompresowalne.
+W module tym zajmiemy się wykrywaniem regularności w tekstach: szukaniem symetrii i powtórzeń. Słowo jest powtórzeniem, gdy jest postaci <math>zz</math>, gdzie <math>z</math> jest niepustym tekstem. Powtórzenia w tekstach reprezentują strukturę wewnętrznych okresowości i regularności, których wyszukiwanie ma zastosowania np. w biologii obliczeniowej. Powtórzenia są związane z kompresją tekstów. Im więcej powtórzeń w słowie, tym bardziej jest kompresowalne.
-Słowo jest symetryczne gdy <math>x\ =\ x^R</math>, gdzie <math>^R</math> jest operacją odwracania słowa. Algorytmicznie symetrie w
+Słowo jest symetryczne, gdy <math>x\ =\ x^R</math>, gdzie <math>^R</math> jest operacją odwracania słowa. Algorytmicznie symetrie w
 słowach są bardzo interesujące.
 == Kompresja typu LZ i faktoryzacja tekstów ==
-Powtarzające się segmenty tekstu związane są z kompresją. Jeśli mamy dwie kopie tego samego (być może długiego) podsłowa, to drugą z nich możemy zastąpić referencją do pierwszej.  Jeśli czytamy tekst od lewej do prawej i napotkamy segment <math>x[i..j]</math>, który pojawił się wcześniej jako <math>x[p..q]</math>, gdzie <math>q<i</math> to  możemy reprezentować <math>x[i..j]</math> przez parę liczb <math>[p,q]</math>. Filozofia ta prowadzi do rodziny algorytmów kompresji podanych przez Lempela i Ziva (kompresji typu LZ). Jest wiele różnych wariantów tego typu kompresji.
+Powtarzające się segmenty tekstu związane są z kompresją. Jeśli mamy dwie kopie tego samego (być może długiego) podsłowa, to drugą z nich możemy zastąpić referencją do pierwszej.  Jeśli czytamy tekst od lewej do prawej i napotkamy segment <math>x[i..j]</math>, który pojawił się wcześniej jako <math>x[p..q]</math>, gdzie <math>q<i</math>, to możemy reprezentować <math>x[i..j]</math> przez parę liczb <math>[p,q]</math>. Filozofia ta prowadzi do rodziny algorytmów kompresji podanych przez Lempela i Ziva (kompresji typu LZ). Jest wiele różnych wariantów tego typu kompresji.
 Zdefiniujmy teraz faktoryzację tekstów typu LZ. Faktoryzacją tekstu <math>x</math> jest rozkład <math>x\ =\ v_{1}v_{2}\dots v_{m}</math>, gdzie <math>v_1=x[1]</math>, oraz <br>
@@ Linia 23: / Linia 24: @@
 Obliczanie następnego czynnika  w faktoryzacji typu LZ zaczynającego się na pozycji <math>i</math>-tej (jako najdłuższego
 słowa, które występuje we wcześniejszym tekście).
-Poprzedni czynnik kończy się na pozycji <math>i-1</math>. <math>Pos(i)</math> jest początkiem wcześniejszego segmentu
+Poprzedni czynnik kończy się na pozycji <math>i-1</math>. <math>Pos(i)</math> jest początkiem wcześniejszego segmentu,
 który jest referencją aktualnego czynnika.
 </center>
@@ Linia 36: / Linia 37: @@
 Korzystając z drzew sufiksowych można udowodnić następujący fakt:
-dla danego tekstu <math>x</math> długości <math>n</math> możemy policzyć  <math>LZ(x)</math> w
+Dla danego tekstu <math>x</math> długości <math>n</math> możemy policzyć <math>LZ(x)</math> w
 czasie liniowym. Zakładamy tutaj, że alfabet da się posortować w czasie liniowym (jest to naturalne
 założenie).
@@ Linia 42: / Linia 43: @@
 == Powtórzenia zakotwiczone ==
-Przypuśćmy, że <math>x=uv</math>.  Powtórzenie jest <math>(u,v)</math>-zakotwiczone gdy zaczyna się w <math>u</math> i kończy w <math>v</math>.
+Przypuśćmy, że <math>x=uv</math>.  Powtórzenie jest <math>(u,v)</math>-zakotwiczone, gdy zaczyna się w <math>u</math> i kończy w <math>v</math>.
 Wprowadzimy dwie funkcje logiczne <math>RighTest(u,v), \ LeftTEst(u,v)</math> dla słów <math>u,\ v</math>. <math>RightTest(u,v)</math>
-zachodzi, gdy istnieje <math>(u,v)</math>-zakotwiczone powtórzenie którego środek znajduje się na początku, lub wewnątrz <math>v</math>. Podobnie definiuJemy <math>LeftTest</math>.
+zachodzi, gdy istnieje <math>(u,v)</math>-zakotwiczone powtórzenie, którego środek znajduje się na początku lub wewnątrz <math>v</math>. Podobnie definiujemy <math>LeftTest</math>.
-Roważymy, tylko przypadek obliczania <math>RightTest</math>.
+Rozważmy przypadek obliczania <math>RightTest</math>.
@@ Linia 55: / Linia 56: @@
 Dla każdej pozycji <math>k</math> w <math>v</math> liczymy
 # <math>PREF[k]</math>: długość maksymalnego podsłowa zaczynającego się w <math>k</math> i będącego prefiksem <math>v</math>;
-# <math>S[k]</math>: długość maksymalnego podsłowa kończącego  się na pozycji  <math>k-1</math> i będącego sufiksem <math>u</math>.
+# <math>S[k]</math>: długość maksymalnego podsłowa kończącego się na pozycji  <math>k-1</math> i będącego sufiksem <math>u</math>.
 '''Własność funkcji''' <math>Righttest</math>:<br>
-<math>Rightest(u,v)</math> zachodzi wtedy i tylko wtedy gdy dla pewnego <math>k</math> mamy nierówność
+<math>Rightest(u,v)</math> zachodzi wtedy i tylko wtedy, gdy dla pewnego <math>k</math> mamy nierówność
 <math>PREF[k]+S[k] \geq k</math>, patrz rysunek.
-Wiemy już jak obliczyć tablicę <math>PREF</math>  w czasie liniowym, tablicę <math>S</math> liczymy symetrycznie. W ten sposób pokazaliśmy, że obliczenie <math>RightTest(u,v)</math> wymaga  jedynie czasu liniowego. Podobnie jest dla <math>LeftTest</math>.
+Wiemy już jak obliczyć tablicę <math>PREF</math> w czasie liniowym, tablicę <math>S</math> liczymy symetrycznie. W ten sposób pokazaliśmy, że obliczenie <math>RightTest(u,v)</math> wymaga  jedynie czasu liniowego. Podobnie jest dla <math>LeftTest</math>.
 == Szukanie dowolnych powtórzeń w czasie n log n ==
 Niech <math>Test(u,v)</math> będzie funkcją logiczną wyrażającą fakt posiadania przez <math>x</math>
-powtórzenia <math>(u,v)</math>-zakotwiczonego. Inaczej mówiąc <math>Test(u,v) \equiv RightTest(u,v)\ \textrm{lub}\ Lefttest(u,v)</math>.
+powtórzenia <math>(u,v)</math>-zakotwiczonego. Inaczej mówiąc, <math>Test(u,v) \equiv RightTest(u,v)\ \textrm{lub}\ Lefttest(u,v)</math>.
-Następujący algorytm ma strukturę taką jak ''merge-sort''. Szukamy powtórzenia w lewej połowie, w prawej,
+Następujący algorytm ma strukturę taką, jak ''merge-sort''. Szukamy powtórzenia w lewej połowie, w prawej
-oraz ''na styku'' obu połówek (funkcja Test).
+oraz na styku obu połówek (funkcja Test).
@@ Linia 85: / Linia 86: @@
 '''Dygresja.'''
-Istnieje ciekawa wersja tego algorytmu działająca w czasie <math>O(n \log n)</math> i (dodatkowej) pamięci stałej (nie możemy mieć dodatkowych tablic <math>PREF,\ S</math>).
+Istnieje ciekawa wersja tego algorytmu, działająca w czasie <math>O(n \log n)</math> i (dodatkowej) pamięci stałej (nie możemy mieć dodatkowych tablic <math>PREF,\ S</math>).
 == Szukanie dowolnych powtórzeń w czasie liniowym ==
@@ Linia 92: / Linia 93: @@
   <center><math>LZ(x)\ =\ (v_{1},v_{2},\dots ,v_{m})</math></center>
-Wtedy <math>x</math> zawiera powtórzenie wtedy i tylko wtedy gdy dla pewnego <math>k</math> zachodzi
+<math>x</math> zawiera powtórzenie wtedy i tylko wtedy, gdy dla pewnego <math>k</math> zachodzi
 <math>RightTest(v_1, v_2\ldots v_{k-2},\ v_{k-1}v_k</math> lub <math>Righttest(v_1, v_2\ldots  v_{k-1},\ v_k)</math>
@@ Linia 113: / Linia 114: @@
 ==Wykrywanie symetrii w tekstach ==
-Słowo <math>x</math> nazwiemy palindromem gdy jest symetryczne oraz <math>|x|>1</math>. Palindromy parzyste to palindromy o parzystej długości. Oznaczmy zbiór wszystkich palindromów przez <math>PAL</math>, a przez <math>PAL_0,PAL_1</math> oznaczmy odpowiednio zbiory palindromów parzystych i nieparzystych.
+Słowo <math>x</math> nazwiemy palindromem, gdy jest symetryczne oraz <math>|x|>1</math>. Palindromy parzyste to palindromy o parzystej długości. Oznaczmy zbiór wszystkich palindromów przez <math>PAL</math>, a przez <math>PAL_0,PAL_1</math> oznaczmy odpowiednio zbiory palindromów parzystych i nieparzystych.
 Przykładami palindromów są słowa:
@@ Linia 120: / Linia 121: @@
-Problem '''najdłuższego prefikso-palindromu''' polega na rozkładzie danego słowa <math>x =\ uv</math>, takim, że <math>u\in PAL</math> oraz <math>u</math> jest
+Problem '''najdłuższego prefikso-palindromu''' polega na rozkładzie danego słowa <math>x =\ uv</math> takim, że <math>u\in PAL</math> oraz <math>u</math> jest
 najdłuższy  o tej własności. Istnieje prosty algorytm oparty na tablicy prefikso-sufiksów <math>P</math>.
@@ Linia 130: / Linia 131: @@
 }}
-Podobnie możemy zdefiniować problem najkrótszego prefisko-palindromu. Algorytm powyższy można łatwo zmodyfikować aby znajdował najkrótszy prefikso-palindrom.
+Podobnie możemy zdefiniować problem najkrótszego prefisko-palindromu. Algorytm powyższy można łatwo zmodyfikować, aby znajdował najkrótszy prefikso-palindrom.
-Chociaż powyższy algorytm działa w czasie liniowym, możliwy jest szybszy algorytm, który znajduje najkrótszy prefikso-palindrom w czasie <math>O(s)</math>, gdzie <math>s</math> jest długością najkrótszego prefikso-palindromu, zakładając że tekst posiada prefikso-palindrom.
+Chociaż powyższy algorytm działa w czasie liniowym, możliwy jest szybszy algorytm, który znajduje najkrótszy prefikso-palindrom w czasie <math>O(s)</math>, gdzie <math>s</math> jest długością najkrótszego prefikso-palindromu, założywszy że tekst posiada prefikso-palindrom.
 Skoncentrujemy się na razie na palindromach parzystych.
-Definiujemy, dla każdej pozycji <math>i</math> ''promień'' palindromu parzystego o środku w <math>i</math> jako:
+Definiujemy dla każdej pozycji <math>i</math> ''promień'' palindromu parzystego o środku w <math>i</math> jako:
 <center><math>Rad[i]\ =\ \max \{j\ :\ j=0 \ \textrm{lub}\ x[i-j+1.. i]=x[i+1.. i+j]\}</math></center>
@@ Linia 141: / Linia 142: @@
 Załóżmy, dla uproszczenia, że tekst <math>x</math> zaczyna się od specjalnego symbolu (marker początku), który występuje tylko na początku.
-Opiszemy algorytm, który oblicza tablice promieni palindromów dla kolejnych pozycji <math>i</math> od strony lewej do prawej, załóżmy że policzyliśmy już wartości:
+Opiszemy algorytm, który oblicza tablice promieni palindromów dla kolejnych pozycji <math>i</math> od strony lewej do prawej. Załóżmy, że policzyliśmy już wartości:
 <center><math>Rad[1],\, Rad[2],\, \dots ,\, Rad[i].</math></center>
-Okazuje się, że korzystając z symetrii, możemy obliczyć pewne nowe elementy tablicy  <math>Rad</math> nie wykonując żdnych porównań symboli. Wynika to z następującego faktu.
+Okazuje się, że korzystając z symetrii możemy obliczyć pewne nowe elementy tablicy <math>Rad</math>, nie wykonując żadnych porównań symboli. Wynika to z następującego faktu.
@@ Linia 156: / Linia 157: @@
 '''Przypadek (a):''' <math>Rad[i-k]<Rad[i]-k</math>.
-Wówczas palindrom <math>Rad[i-k]</math> o środeku w <math>i-k</math> jest całowicie zawarty w dłuższym palindromie o środku w  <math>i</math>. Pozycja <math>i-k</math> jest symetryczna do  <math>i+k</math> ze względu na <math>i</math>. Zatem z symetrii o środku <math>i</math> wynika,że najdłuższy palindrom o środku  <math>i+k</math> m taki sam promień jak ten o środku  <math>i-k</math>. Zatem w tym przypadku  <math>Rad[i+k]=Rad[i-k]</math>.
+Wówczas palindrom <math>Rad[i-k]</math> o środku w <math>i-k</math> jest całowicie zawarty w dłuższym palindromie o środku w <math>i</math>. Pozycja <math>i-k</math> jest symetryczna do  <math>i+k</math> ze względu na <math>i</math>. Zatem z symetrii o środku <math>i</math> wynika, że najdłuższy palindrom o środku  <math>i+k</math> ma taki sam promień jak ten o środku  <math>i-k</math>. Zatem w tym przypadku  <math>Rad[i+k]=Rad[i-k]</math>.
 '''Przypadek (b):''' <math>Rad[i-k]>Rad[i]-k</math>.
-Sytuacja jest pokazna na rysunku, który przedstawia maksymalne palindromy o środkach <math>i-k</math>, <math>i</math> and <math>i+k</math>.
+Sytuacja jest pokazna na rysunku, który przedstawia maksymalne palindromy o środkach <math>i-k</math>, <math>i</math> i <math>i+k</math>.
 Ponieważ <math>a\ne b</math> (z definicji maksymalności palindromu o środku w <math>i</math>), zatem <math>Rad[i+k]=Rad[i]-k</math>.
@@ Linia 166: / Linia 167: @@
 Przypadek  (b) dowodu własności promieni palindromów parzystych.</center>
-Poniżej przedstawiamy algorytm Promienie-Palindromów. W jednej głównej iteracji pętli  while algorytm oblicza  <math>Rad[i+k]</math> dla kolejnych  <math>k=1,2,\dots </math> dla których  <math>Rad[i-k]\neq Rad[i]-k</math>. Jeśli ostatnim takim <math>k</math> jest <math>k'</math>,
+Poniżej przedstawiamy algorytm Promienie-Palindromów. W jednej głównej iteracji pętli while algorytm oblicza  <math>Rad[i+k]</math> dla kolejnych <math>k=1,2,\dots </math>, dla których  <math>Rad[i-k]\neq Rad[i]-k</math>. Jeśli ostatnim takim <math>k</math> jest <math>k'</math>,
-wtedy zaczynamy całą główną iterację  od nowego <math>i</math> równego <math>i+k'</math>.
+wtedy zaczynamy całą główną iterację od nowego <math>i</math> równego <math>i+k'</math>.
-Pozostawiamy jako ćwiczenie modyfikację algorytmu aby liczył promienie palindromów nieparzystych.
+Pozostawiamy jako ćwiczenie modyfikację algorytmu, aby liczył promienie palindromów nieparzystych.
-W pierwszsym momencie gdy algorytm wykryje prefikso-palindrom (promień palindromu sięga do początku tekstu) możemy algorytm zatrzymać i podać długość najkrótszego prefikso-palindromu. W sumie pokazaliśmy następujący fakt:
+W pierwszym momencie, gdy algorytm wykryje prefikso-palindrom (promień palindromu sięga do początku tekstu), możemy algorytm zatrzymać i podać długość najkrótszego prefikso-palindromu. W sumie pokazaliśmy następujący fakt:
 '''(a)  ''' Tablicę promieni palindromów (parzystych i nieparzystych) można policzyć w czasie liniowym.
@@ Linia 199: / Linia 200: @@
 Elementy <math>PAL^*</math> nazywamy ''palstarami'' a elementy <math>PAL_0^*</math> nazywamy ''palstarami parzystymi''.
-Niech <math>first(i)</math>, <math>first_0(i)</math> będzie (ze względów technicznych załóżmy, że słowo puste teź jest palstarem (parzystm i nieparzystym jednocześnie) odpowiednio pierwszą pozycją <math>j>i</math> w słowie <math>x</math> taką, że  <math>x[i.. j]\in PAL</math>, <math>x[i.. j]\in PAL_0</math>, wartością funkcji jest zero gdy nie ma takiego <math>j</math>.
+Niech <math>first(i)</math>, <math>first_0(i)</math> będzie (ze względów technicznych załóżmy, że słowo puste też jest palstarem (parzystm i nieparzystym jednocześnie)) odpowiednio pierwszą pozycją <math>j>i</math> w słowie <math>x</math> taką, że <math>x[i.. j]\in PAL</math>, <math>x[i.. j]\in PAL_0</math>, wartością funkcji zaś jest zero, gdy nie ma takiego <math>j</math>.
@@ Linia 212: / Linia 213: @@
-Mówiąc nieformalnie, algorytm Parzyste-Palstary obcina słowo o najkrótszy prefikso-palindrom, aż tekst będzie pusty (sukces) albo aż się ''em zatnie'' (nie ma rozkładu na parzyste palindromy). Algorytm Parzyste-Palstary ma złożoność liniową ponieważ policzenie <math>first_0(i)</math> zajmuje czas proporcjonalny do wartości <math>s=first(i)</math>, zakładając, że <math>s \ne 0</math>.  Nietrywialna natomiast jest poprawność algorytmu. Zdefiniujmy
+Mówiąc nieformalnie, algorytm Parzyste-Palstary obcina słowo o najkrótszy prefikso-palindrom, aż tekst będzie pusty (sukces) albo aż się ''em zatnie'' (nie ma rozkładu na parzyste palindromy). Algorytm Parzyste-Palstary ma złożoność liniową, ponieważ policzenie <math>first_0(i)</math> zajmuje czas proporcjonalny do wartości <math>s=first(i)</math>, zakładając, że <math>s \ne 0</math>.  Nietrywialna natomiast jest poprawność algorytmu. Zdefiniujmy
 <center> <math>parse_0(i)=\min \{j\ :\ x[i.. j]\in PAL_0</math> oraz <math>j=n</math> lub <math>x[j+1.. n]\in PAL_0^{*}\}</math></center>
@@ Linia 219: / Linia 220: @@
 '''Własność parzystych palstarów:''' <math>x[i..n] \in PAL_0^* \ \Rightarrow\ parse_0(i)=first_0(i)</math>
-Poprawność algorytmu wynika natychmiast  powyższej własności. Pozostawiamy dowód tej własności jako ćwiczenie.
+Poprawność algorytmu wynika natychmiast z powyższej własności. Pozostawiamy dowód tej własności jako ćwiczenie.
 Możemy podobnie zdefiniować funkcję <math>parse(i)</math> dla dowolnych palstarów i dowolnych palindromów. Własność parzystych palstarów nie zachodzi dla dowolnych palstarów, ale zachodzi własność bardziej skomplikowana.
@@ Linia 227: / Linia 228: @@
-Pozostawimay dowód tej własności  jako ćwiczenie. Algorytm testowania dowolnych palstarów jest interesujący ponieważ przebiega on zupełnie inaczej niż dla parzystych palstarów.
+Pozostawimay dowód tej własności jako ćwiczenie. Algorytm testowania dowolnych palstarów jest interesujący, ponieważ przebiega on zupełnie inaczej niż dla parzystych palstarów.
-Pierwszym krokiem algorytmu jest stablicowanie funkcji <math>first</math>, obliczamy tablicę <math>FIRST[i]=first(i)</math>, w czasie
+Pierwszym krokiem algorytmu jest stablicowanie funkcji <math>first</math>. Obliczamy tablicę <math>FIRST[i]=first(i)</math> w czasie
 liniowym dla wszystkich <math>i</math> łącznie.
 Pozostawiamy jako ćwiczenie policzenie tej tablicy w czasie <math>O(n)</math>. Obliczenie takie opiera się na wykorzystaniu tablicy promieni palindromów.
-Załóżmy teraz że mamy tablicę FIRST, funkcja <math>first</math> działa teraz w czasie stałym (gotowe wartości z tablicy). Poniższy algorytm
+Załóżmy teraz, że mamy tablicę FIRST. Funkcja <math>first</math> działa teraz w czasie stałym (gotowe wartości z tablicy). Poniższy algorytm
-dla każdej pozycji <math>i</math> sprawdza czy <math>x[i..n]\in PAL^*</math>. Odpowiedź jest zapisana w tablicy logicznej <math>PAL</math>.
+dla każdej pozycji <math>i</math> sprawdza, czy <math>x[i..n]\in PAL^*</math>. Odpowiedź jest zapisana w tablicy logicznej <math>PAL</math>.
-Zakładamy, że początkowo tablica <math>PAL</math> ma wartości {\em false} włącznie z elementami wykraczającymi poza zakres tablicy (dla uproszczenia zapisu).
+Zakładamy, że początkowo tablica <math>PAL</math> ma wartości {\em false}, włącznie z elementami wykraczającymi poza zakres tablicy (dla uproszczenia zapisu).

Zaawansowane algorytmy i struktury danych/Wykład 3: Różnice pomiędzy wersjami

Wersja z 13:21, 25 wrz 2006

Spis treści

Kompresja typu LZ i faktoryzacja tekstów

Powtórzenia zakotwiczone

Szukanie dowolnych powtórzeń w czasie n log n

Szukanie dowolnych powtórzeń w czasie liniowym

Wykrywanie symetrii w tekstach

Kompozycje słów symetrycznych

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia