Zaawansowane algorytmy i struktury danych/Wykład 3

Zaawansowane algorytmy tekstowe III

W module tym zajmiemy się wykrywaniem regularności w tekstach: szukaniem symetrii i powtórzeń. Słowo jest powtórzeniem, gdy jest postaci $z z$ , gdzie $z$ jest niepustym tekstem. Powtórzenia w tekstach reprezentują strukturę wewnętrznych okresowości i regularności, których wyszukiwanie ma zastosowania np. w biologii obliczeniowej. Powtórzenia są związane z kompresją tekstów. Im więcej powtórzeń w słowie tym bardziej to słowo jest kompresowalne.

Słowo jest symetryczne gdy $x = x^{R}$ , gdzie $R$ jest operacją odwracania słowa. Algorytmicznie symetrie w słowach są bardzo interesujące.

Kompresja typu LZ i faktoryzacja tekstów

Powtarzające się segmenty tekstu związane są z kompresją. Jeśli mamy dwie kopie tego samego (być może długiego) podsłowa, to drugą z nich możemy zastąpić referencją do pierwszej. Jeśli czytamy tekst od lewej do prawej i napotkamy segment $x [i . . j]$ , który pojawił się wcześniej jako $x [p . . q]$ , gdzie $q < i$ to możemy reprezentować $x [i . . j]$ przez parę liczb $[p, q]$ . Filozofia ta prowadzi do rodziny algorytmów kompresji podanych przez Lempela i Ziva (kompresji typu LZ). Jest wiele różnych wariantów tego typu kompresji.

Zdefiniujmy teraz faktoryzację tekstów typu LZ. Faktoryzacją tekstu $x$ jest rozkład $x = v_{1} v_{2} \dots v_{m}$ , gdzie $v_{1} = x [1]$ , oraz
jeśli $| v_{1} v_{2} . . v_{k - 1} | = i - 1$ , to $v_{k}$ jest najdłuższym tekstem, który występuje w $v_{1} v_{2} . . v_{k - 1}$ , a jeśli takiego nie ma, to $v_{k} = x [i]$ .

Oznaczmy przez $L Z (x)$ faktoryzację $x$ .

Rysunek 1:

Obliczanie następnego czynnika w faktoryzacji typu LZ zaczynającego się na pozycji $i$ -tej (jako najdłuższego słowa, które występuje we wcześniejszym tekście). Poprzedni czynnik kończy się na pozycji $i - 1$ . $P o s (i)$ jest początkiem wcześniejszego segmentu który jest referencją aktualnego czynnika.

Przykład

Faktoryzacja przykładowego słowa Fibonacciego jest następująca:

Parser nie mógł rozpoznać (nieznana funkcja „\v”): {\displaystyle LZ(abaababaabaab)\ =\v_1\ v_2\ v_3\ v_4\ v_5\ v_6\ = \ a\ b\ a\ aba\ baaba\ ab}

Korzystając z drzew sufiksowych można udowodnić następujący fakt:

dla danego tekstu $x$ długości $n$ możemy policzyć $L Z (x)$ w czasie liniowym. Zakładamy tutaj, że alfabet da się posortować w czasie liniowym (jest to naturalne założenie).

Powtórzenia zakotwiczone

Przypuśćmy, że $x = u v$ . Powtórzenie jest $(u, v)$ -zakotwiczone gdy zaczyna się w $u$ i kończą w $v$ . Wprowadzimy dwie funkcje logiczne $R i g h T e s t (u, v), L e f t T E s t (u, v)$ dla słów $u, v$ . $R i g h t T e s t (u, v)$ zachodzi, gdy istnieje $(u, v)$ -zakotwiczone powtórzenie którego środek znajduje się na początku, lub wewnątrz $v$ . Podobnie definiuemy $L e f t T e s t$ . Roważymy, tylko przypadek obliczania $R i g h t T e s t$ . \begin{figure}[bht] \begin{center} \includegraphics[width=11.cm]{teksty_fig23.eps} \caption{ $P R E F [k] + S [k] \geq k$ .}

\end{center} \end{figure} \myskip Dla każdej pozycji $k$ w $v$ liczymy 1. $P R E F [k]$ : długość maksymalnego podsłowa zaczynającego się w $k$ i będącego prefiksem $v$ ; 2. $S [k]$ : długość maksymalnego podsłowa kończącego się na pozycji $k - 1$ i będącego sufiksem $u$ . \myskip Własność funkcji $R i g h t t e s t$ : $R i g h t e s t (u, v)$ zachodzi wtedy i tylko wtedy gdy dla pewnego $k$ mamy nierówność $P R E F [k] + S [k] \geq k$ , patrz rysunek. \myskip Wiemy już jak obliczyć tablicę $P R E F$ w czasie liniowym, tablicę $S$ liczymy symetrycznie. W ten sposób pokazaliśmy, że obliczenie $R i g h t T e s t (u, v)$ wymaga jedynie czasu liniowego. Podobnie jest dla $L e f t T e s t$ .

Niech $T e s t (u, v)$ będzie funkcją logiczną wyrażającą fakt posisadania przez $x$ powtórzenia $(u, v)$ -zakotwiczonego. Inaczej mówiąc $T e s t (u, v) \equiv R i g h t T e s t (u, v) lub L e f t t e s t (u, v)$ . Następujący algorytm ma strukturę taką jak {\em merge-sort}. Szukamy powtórzenia w lewej połowie, w prawej, oraz {\em na styku} obu połówek (funkcja Test). \begin{center} \begin{minipage}{12cm} \vskip0.3cm \hspace*{0.6cm}\textbf{Algorytm} Powtórzenia-Rekurencyjnie;\\ \hspace*{1.2cm}\textbf{if} $n = 1$ \textbf{then return } {\em false};\\ \hspace*{1.8cm} zastosuj algorytm rekurencyjnie do tekstu $x [1 . . ⌊ n / 2 ⌋]$ ; \\ \hspace*{1.8cm} zastosuj algorytm rekurencyjnie do tekstu $x [⌊ n / 2 ⌋ + 1 . . n]$ ; \\ \hspace*{1.8cm}\textbf{if} $T e s t (x [1 . . ⌊ n / 2 ⌋], x [⌊ n / 2 ⌋ + 1 . . n])$ then return} {\em true; \vskip0.4cm \end{minipage} \end{center} \myskip Algorytm w oczywisty sposób działa w czasie $O (n \log n)$ , gdyż liczenie funkcji $T e s t$ jest w czasie liniowym. \myskip Dygresja.\ Istnieje ciekawa wersja tego algorytmu działająca w czasie $O (n \log n)$ i (dodatkowej) pamięci stałej (nie możemy mieć dodatkowych tablic $P R E F, S$ ).

Algorytm liniowy szukania powtórzenia opiera się na faktoryzacji tekstów. Niech

L Z (x) = (v_{1}, v_{2}, \dots, v_{m})

Wtedy $x$ zawiera powtórzenie wtedy i tylko wtedy gdy dla pewnego $k$ zachodzi $R i g h t T e s t (v_{1}, v_{2} \dots v_{k - 2}, v_{k - 1} v_{k}$ lub $R i g h t t e s t (v_{1}, v_{2} \dots v_{k - 1}, v_{k})$ \myskip \noindent Dowód tej własności pozostawiamy jako ćwiczenie. \begin{center} \begin{minipage}{12cm} \vskip0.3cm \hspace*{0.6cm}\textbf{Algorytm} Szukanie-Powtórzeń;\\ \hspace*{1.2cm}oblicz faktoryzację $L Z (x) = (z_{1}, z_{2}, \dots, z_{m})$ ;\\ \hspace*{1.2cm}\textbf{for} $k : = 1$ \textbf{to} $m$ \textbf{do}\\ \hspace*{1.8cm} $u 1$ := $z_{1}, z_{2} \dots z_{k - 2}$ ;\ $v 1$ := $z_{k - 1} z_{k}$ ;\\ \hspace*{1.8cm} $u 2$ := $z_{1}, z_{2} \dots z_{k - 1}$ ;\ $v 2$ := $z_{k}$ ;\\ \hspace*{1.8cm}\textbf{if} \ $R i g h t T e s t (u 1, v 1)$ lub $R i g h t T e s t (u 2, v 2)$ \\ \hspace*{1.9cm} \textbf{then}\ \textbf{return} true;\vskip 0.1cm \hspace*{1.2cm}\textbf{return} false; \\ \vskip0.4cm \end{minipage} \end{center} Algorytm działa w czasie liniowym, gdyż złożoność liczenia alternatywy $R i g h t T e s t (u 1, v 1)$ lub $R i g h t T e s t (u 2, v 2)$

jest

O (| v_{k - 1} v_{k} |)

, oraz zachodzi

\sum_{k = 1}^{m} | v_{k - 1} v_{k} | \leq 2 n

Słowo $x$ nazwiemy palindromem gdy jest symetryczne oraz $| x | > 1$ . Palindromy parzyste to palindromy o parzystej długości. Oznaczmy zbiór wszystkich palindromów przez $P A L$ , a przez $P A L_{0}, P A L_{1}$ oznaczmy odpowiednio zbiory palindromów parzystych i nieparzystych. Przykładami palindromów są słowa: \myskip \centerline{kajak,\ atypotopyta,\ zagwiżdżiwgaz} \myskip Problem najd"uższego prefikso-palindromu polega na rozkładzie danego słowa $x = u v$ , takim, że $u \in P A L$ oraz $u$ jest najdłuższy o tej własności. Istnieje prosty algorytm oparty na tablicy prefikso-sufiksów $P$ . \myskip Algorytm Prefikso-Palindrom;

oblicz tablicę P dla słowa-kompozycji $x # x^{R}$

(słowo długości $2 n + 1$ ), \item jeśli $P (2 n + 1) > 0$ to jest to długość najdłuższego prefikso-palindromu

w przeciwnym przypadku $x$ nie ma prefikso-palindromu.

\myskip Podobnie możemy zdefiniować problem najkrótszego prefisko-palindromu. Algorytm powyższy można łatwo zmodyfikować aby znajdował najkrótszy prefikso-palindrom. \noindent Chociaż powyższy algorytm działa w czasie liniowym, możliwy jest szybszy algorytm, który znajduje najkrótszy prefikso-palindrom w czasie $O (s)$ , gdzie $s$ jest długością najkrótszego prefikso-palindromu, zakładając że tekst posiada prefikso-palindrom . \myskip \noindent Skoncentrujemy się na razie na palindromach parzystych. Definiujemy, dla każdej pozycji $i$ {\em promień} palindromu parzystego o środku w $i$ jako:

Parser nie mógł rozpoznać (błąd składni): {\displaystyle Rad[i]\ =\ \max \{j\ :\ j=0 \ \textrm{lub}\ x[i-j+1.. i]=x[i+1.. i+j]\}}

Załóżmy, dla uproszczenia, że tekst $x$ zaczyna się od specjalnego symbolu (marker początku), który występuje tylko na początku. Opiszemy algorytm, który oblicza tablice promieni palindromów dla kolejnych pozycji $i$ od strony lewej do prawej, załóżmy że policzyliśmy już wartości:

R a d [1], R a d [2], \dots, R a d [i] .

Okazuje się, że korzystając z symetrii, możemy obliczyć pewne nowe elementy tablicy $R a d$ nie wykonując żdnych porównań symboli. Wynika to z następującego faktu. \myskip {\bf Własność promieni

palindromów}

1 \leq k \leq R a d [i] oraz R a d [i - k] \neq R a d [i] - k \Rightarrow R a d [i + k] = \min (R a d [i - k], R a d [i] - k)

%

\myskip Uzasadnimy krótko tę własność rozważając dwa przypadki: \begin{description}\itemsep0mm\topsep0mm \item[Przypadek (a):] $R a d [i - k] < R a d [i] - k$ .\\ Wówczas palindrom $R a d [i - k]$ o środeku w $i - k$ jest całowicie zawarty w d"uższym palindromie o śrdoeku w $i$ . Pozycja $i - k$ jest symetryczna do $i + k$ ze względu na $i$ . Zatem z symetrii o środku $i$ wynika,że najdłuższy palindrom o środku $i + k$ m taki sam promień jak ten o środku $i - k$ . Zatem w tym przypadku $R a d [i + k] = R a d [i - k]$ . \begin{figure}%[htb] \begin{center} \includegraphics[width=9.4cm]{teksty_fig22.eps} \caption{ Przypadek (b) dowodu własności promieni palindromów parzystych.}

\end{center} \end{figure} \item[Przypadek (b):] $R a d [i - k] > R a d [i] - k$ .\\ Sytuacja jest pokazna na rysunku, który przedsatwi maksymalne palindromy o środkach $i - k$ , $i$ and $i + k$ . Ponieważ $a \neq b$ (z definicji maksymalności palindromu o środku w $i$ ), zatem $R a d [i + k] = R a d [i] - k$ . \end{description} \noindent Poniżej przedstawiamy algorytm Promienie-Palindromów. W jednej iteracji {\em głównej pętli} while algorytm oblicza $R a d [i + k]$ dla kolejnych $k = 1, 2, \dots$ dla których $R a d [i - k] \neq R a d [i] - k$ . Jeśli ostatnim takim $k$ jest $k^{'}$ , wtedy zaczynamy całą główną iterację od nowego $i$ równego $i + k^{'}$ . \myskip Pozostawiamy jako ćwiczenie modyfikację algorytmu aby liczył promienie palindromów nieparzystych. \myskip W pierwszsym momencie gdy algorytm wykryje prefikso-palindrom (promień palindromu sięga do początku tekstu) możemy algorytm zatrzymać i podać długość najkrótszego prefikso-palindromu. W sumie pokazaliśmy następujący fakt: %\vskip 0.1cm \begin{description} \item(a)\ Tablicę promieni palindromów (parzystych i nieparzystych) można policzyć w czasie liniowym. \item(b)\ Długo"ć $s$ najkrótszego prefikso-palindromu (zakładając że taki istnieje) można policzyć w czasie proporcjonalnym do jego długości. \end{description}

\begin{center} \begin{minipage}{12cm} \vskip0.3cm \hspace*{0.6cm}\textbf{Algorithm} \textit{Promienie-Palindromów};\\ \hspace*{1.2cm} $R a d [1] : = 0$ ; $j : = 0$ ; \\ \hspace*{1.2cm} $i : = 2$ ;\vskip 0.2cm \noindent \hspace*{1.2cm}\textbf{while} $i \leq ⌊ n / 2 ⌋$ \textbf{do }\\ \hspace*{1.8cm}\textbf{while} $x [i - j] = x [i + 1 + j]$ \textbf{do} $j : = j + 1$ ;\\ \hspace*{1.8cm}\textbf{if} $j = i$ \textbf{then} $R a d [i] : = j$ ;\\ \hspace*{1.8cm} $k : = 1$ ;\\ \hspace*{1.8cm}\textbf{while} $R a d [i - k] \neq R a d [i] - k$ \textbf{do }\\ \hspace*{2.4cm} $R a d [i + k] : = \min (R a d [i - k], R a d [i] - k)$ ; $k : = k + 1$ ;\\ \hspace*{1.8cm} $j : = m a x (j - k, 0)$ ;\ $i : = i + k$ ;\\ \vskip0.4cm \end{minipage} \end{center}

  Rozważmy teraz intersujący (chociaż mało użyteczny w praktyce) problem sprawdzania, czy

słowo jest nietrywialną kompozycją słów symetrycznych. Przez $P A L_{0}^{*}, P A L^{*}$ oznaczmy odpowiednio zbiór konkatenacji dowolenj liczby słów należących do $P A L_{0}, P A L$ . Elementy $P A L^{*}$ nazywamy {\em palstarami} a elementy $P A L_{0}^{*}$ nazywamy {\em palstarami parzystymi}. \myskip Niech $f i r s t (i)$ , $f i r s t_{0} (i)$ będzie Ze względów technicznych załóżmy, że słowo puste teź jest palstarem (parzystm i nieparzystym jednocześnie). odpowiednio pierwszą pozycją $j > i$ w słowie $x$ taką, że $x [i . . j] \in P A L$ , $x [i . . j] \in P A L_{0}$ , wartością funkcji jest zero gdy nie ma takiego $j$ . \begin{center} \begin{minipage}{9cm} \vskip0.3cm \hspace*{0.6cm}\textbf{Algorytm} Parzyste-Palstary; %\{ is $x$ an even palstar ? \}\\ \hspace*{1.2cm} $s$ := $0$ ;\\ \hspace*{1.2cm}\textbf{while} $s < n$ \textbf{do }\\% \{ cut $x [s + 1 . . n]$ \}\\ \hspace*{1.8cm} $s$ := $s + 1$ ;\\ \hspace*{1.8cm}\textbf{if} $f i r s t_{0} (s) = 0$ \textbf{then return} false;\\ \hspace*{1.8cm} $s : = f i r s t (s)$ ;\\ \hspace*{1.2cm}\textbf{return} true;\\ \vskip0.4cm \end{minipage} \end{center} Mówiąc nieformalnie, algorytm Parzyste-Palstary obcina słowo o najkrótszy prefikso-palindrom, aż tekst będzie pusty (sukces) albo aż się {\em zatnie} (nie ma rozkładu na parzyste palindromy). Algorytm Parzyste-Palstary ma złożoność liniową ponieważ policzenie $f i r s t_{0} (i)$ zajmuje czas proporcjonalny do wartości $s = f i r s t (i)$ , zakładając, że $s \neq 0$ . Netrywialna natomiast jest poprawność algorytmu. Zdefiniujmy \begin{center} $p a r s e_{0} (i) = \min {j : x [i . . j] \in P A L_{0}$ oraz $j = n$ lub $x [j + 1 . . n] \in P A L_{0}^{*}}$ . \end{center} \noindent Własność parzystych palstarów: \ $x [i . . n] \in P A L_{0}^{*} \Rightarrow p a r s e_{0} (i) = f i r s t_{0} (i)$ \myskip Poprawność algorytmu wynika natychmiast powyższej własności. Pozostawimay dowód tej włsności jako ćwiczenie. \myskip Możemy podobnie zdefiniować funkcję $p a r s e (i)$ dla dowolnych palstarów i dowolnych palindromów. Własność parzystych palstarów nie zachodzi dla dowolnych palstarów, ale zachodzi własność bardziej skomplikowana. \noindent {\bf Własność dowolnych palstarów}: $x [i . . n] \in P A L^{*} \Rightarrow p a r s e (i) \in {f i r s t (i), 2 \cdot f i r s t (i) + 1, 2 \cdot f i r s t (i) - 1}$ \myskip Pozostawimay dowód tej własności jako ćwiczenie. Algorytm testowania dowolnych palstarów jest intersujący ponieważ pzebiega on zupełnie inaczej niż dla parzystych palstarów. Piewszym krokiem algorytmu jest stablicowanie funkcji $f i r s t$ , obliczamy tablicę $F I R S T [i] = f i r s t (i)$ , w czasie liniowym dla wszystkich $i$ lącznie. \myskip Pozostawiamy jako ćwiczenie policzenie tej tablicy w czasie $O (n)$ . Obliczenie takie opiera się na wykorzystaniu tablicy promieni palindromów. \myskip Załóżmy teraz że mamy tablicę FIRST, funkcja $f i r s t$ działa teraz w czasie stałym (gotowe wartości z tablicy). Poniższy algorytm dla każdej pozycji $i$ sprawdza czy $x [i . . n] \in P A L^{*}$ . Odpowiedź jest zapisana w tablicy logicznej $P A L$ . Zakładamy, że początkowo tabica $P A L$ ma wartości {\em false} włącznie z elementami wykraczjącymi poza zakres tablicy (dla uproszczenia zapisu). \begin{center} \begin{minipage}{13.2cm} \vskip0.3cm \hspace*{0.6cm}\textbf{Algorytm} Testowanie-Palstarów; \\ \hspace*{1.2cm} $P A L [n] : =$ true; %\{ the empty word is a palstar \} \\ \hspace*{1.2cm}\textbf{for} $i : = n - 1$ \textbf{down to} $0$ \textbf{do }\\ \hspace*{1.7cm} $f : = F I R S T [i]$ ;\\ \hspace*{1.7cm}\textbf{if} $f = 0$ \textbf{then} $P A L [i] : =$ false\\ \hspace*{1.7cm}\textbf{else}\ Parser nie mógł rozpoznać (błąd składni): {\displaystyle PAL[i]:=\\ \hspace*{2.7cm} (PAL[i+f]} \textbf{or} $P A L [i + 2 f - 1]$ \textbf{or} $P A L [i + 2 f + 1])$ \\ \vskip0.4cm \end{minipage} \end{center}

\noindent Intersującym problemem jest rozkład słowa $x$ w postaci $P A L^{k}$ , gdzie $k$ jest ustalone. Istnieją algorytmy liniowe dla $k = 2, 3, 4$ oparte na następującej własności zawężającej zbiór rozkładów do zweryfikowania: jeśli $x \in P A L^{2}$ to $x = u v$ , dla pewnych $u, v \in P A L$ gdzie $u$ jest najdłuższym palindromem będącym prefiksem $x$ lub $v$ jest najdłuższym palindromem będącym sufiksem $x$ .

Zaawansowane algorytmy i struktury danych/Wykład 3

Spis treści

Kompresja typu LZ i faktoryzacja tekstów

Powtórzenia zakotwiczone

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia