Algorytmy i struktury danych/Algorytmy tekstowe II

Najważniejszymi strukturami danych związanymi z tekstami są te, które dotyczą efektywnej reprezentacji zbioru wszystkich podsłów tekstu. Przed wszystkim interesuje nas to, żeby taka reprezentacja przyspieszała wyszukiwanie słów, a jednocześnie żeby była konstruowalna w czasie liniowym albo prawie liniowym (z dokładnością do logarytmów).

Oznaczmy przez $S u b w o r d s (x)$ wszystkie podsłowa tekstu $x$ , a wszystkie wystąpienia (początkowe pozycje) słowa $z$ w słowie $x$ oznaczmy przez $O c c (z, x)$ . (Oznaczenie $O c c$ jest skrótem od ang. occurrences).

Chcemy znaleźć taką reprezentację zbioru $S u b w o r d s (x)$ , by można było łatwo odpowiedzieć na pytanie, czy $z \in S u b w o r d s (x)$ , co jest równoważne $O c c (z, x) \neq \emptyset$ , jak również rozwiązywać inne problemy tekstowe. Poza tym chcemy, by rozmiar tej reprezentacji był liniowy, podczas gdy rozmiar $S u b w o r d s (x)$ może być kwadratowy. Spośród wielu dobrych reprezentacji najbardziej znanymi są tablice sufiksowe (oznaczane przez $S U F$ ), drzewa sufiksowe i grafy podsłów (nie rozważane w tym module).

Tablice i drzewa sufiksowe

Niech $x = a_{1} a_{2} \dots a_{n}$ i niech $x_{n + 1} = #$ będzie specjalnym znakiem leksykograficznie większym od każdego innego symbolu 9w przyszłości będziemy również używać $x_{n + 1} = #$ jako najmniejszego symbolu).

Oznaczmy przez $s u f i k s_{i} = a_{i} a_{i + 1} \dots a_{n}$ sufiks tekstu x zaczynający się na pozycji i-tej.

Niech $S U F [k]$ będzie pozycją, od której zaczyna się k-ty leksykograficznie sufiks x. Sufiks zaczynający się na pozycji $(n + 1)$ -szej nie jest brany pod uwagę.

Ciąg sufiksów posortowany leksykograficznie wygląda następująco:

s u f i x_{S U F [1]} < s u f i x_{S U F [2]} < s u f i x_{S U F [3]} < \dots s u f i x_{S U F [n]}

Rysunek 1: Tablicą sufiksową tekstu $x = b a b a a b a b a b b a #$ jest ciąg $S U F = [4, 2, 5, 7, 9, 12, 3, 1, 6, 8, 11, 10]$

Oznaczmy przez $l c p [k]$ długość wspólnego prefiksu $k$ -tego i następnego sufiksu w kolejności leksykograficznej. Na rysunku wartości najdłuższego wspólnego prefiksu między kolejnymi słowami są przedstawione jako zacienione segmenty. Odpowiadają one tablicy $l c p = [1, 3, 4, 2, 1, 0, 2, 4, 3, 2, 1]$ .
Tablica sufiksowa ma następująca ‘’sympatyczną’’ własność: Niech

$m i n_{z} = \min {k : z jest prefiksem s u f i k s_{S U F [k]}}$ , $m a x_{z} = \max {k : z jest prefiksem s u f i k s_{S U F [k]}}$ .

Wtedy $O c c (z, x)$ jest przedziałem w tablicy sufiksowej od $m i n_{z}$ do $m a x_{z}$ .

Drzewo sufiksowe jest drzewem, w którym każda ścieżka jest etykietowana kolejnymi symbolami pewnego sufiksu, oraz każdy sufiks $x$ jest obecny w drzewie. Gdy dwie ścieżki się rozjeżdżają, tworzy się wierzchołek. Mówiąc bardziej formalnie, każdej krawędzi jest przypisane jako etykieta pewne podsłowo $x$ . Krawędzie wychodzące z tego samego węzła różnią się pierwszymi symbolami swoich etykiet (patrz rysunek).

Etykiety są kodowane przedziałami w tekście $x$ : para liczb $[i, j]$ reprezentuje podsłowo Parser nie mógł rozpoznać (nieznana funkcja „\ldotsa”): {\displaystyle a_ia_{i+1}\ldotsa_j} (zobacz prawe drzewo na rysunku). Dzięki temu reprezentacja ma rozmiar $O (n)$ . Wagą krawędzi jest długość odpowiadającego jej słowa.

Rysunek 2: Drzewo sufiksowe dla tekstu $x = b a b a a b a b a b b a$ . Na końcu jest dodany znak $#$ . Końcowe węzły zawierają informację, gdzie zaczyna się sufiks, którym dochodzimy do danego węzła.

Obie reprezentacje pozwalają szybko rozwiązywać problem string-matchingu oraz mają rozmiar liniowy. Niech z będzie wzorcem o długości m, a $x$ słowem długości n. Z reguły $m < < n$ .

Szukanie podsłów

Pokażemy, jak sprawdzać, czy $z$ występuje w $x$ .

Używając drzewa sufiksowego (czas $O (m)$ )

Idziemy od korzenia w dół czytając kolejne symbole $z$ , czasami posuwamy się po wewnętrznej etykiecie pewnej krawędzi. Zbiór wystąpień odpowiada zbiorowi liści w poddrzewie węzła, do którego doszliśmy. Jeśli po drodze utknęliśmy i nie dało się dalej schodzić po drzewie, oznacza to, że $z \notin S u b w o r d s (x)$

Używając tablicy sufiksowej (czas $O (m \log n)$ )

Możemy sprawdzić, czy $z$ jest prefiksem $i$ -tego sufiksu w czasie $O (m)$ . Korzystając z tego, wykonujemy rodzaj binarnego szukania. W ten sposób znajdujemy pierwszy sufiks, którego prefiksem jest z. Jeśli jest taki sufiks, to $z \in S u b w o r d s (x)$ . W przeciwnym wypadku z nie jest podsłowem x.

Podobnie znajdujemy ostatni sufiks. Zbiór wystąpień odpowiada przedziałowi w tablicy $S U F$ między obliczonymi pierwszym i ostatnim sufiksem zaczynającym się od z.

Wyznaczanie liczby podsłów

Pokażemy, jak znaleźć liczbę podsłów słowa $x$ przy pomocy tablicy sufiksowej lub drzewa sufiksowego. Końcowego markera $#$ nie traktujemy jako części słowa $x$ . Liczba podsłów jest równa $| S u b w o r d s (x) |$ . Jeśli wszystkie symbole słowa są różne to $| S u b w o r d s (x) | = (\binom{n}{2})$ .

Używając drzewa sufiksowego, czas $O (n)$

Sumujemy wagi krawędzi drzewa.

Używając tablicy sufiksowej, czas $O (n)$

Niech $S U M A (l c p)$ będzie sumą elementów tablicy $l c p$ . Liczbę podsłów obliczamy jako

(\binom{n + 1}{2}) - S U M A (l c p)

Pozostawiamy jako ćwiczenie uzasadnienie tego, że liczba podsłów jest poprawnie obliczona (korzystając z drzewa sufisowego lub z tablicy sufiksowej).

Przykład

Dla przykładowego tekstu Parser nie mógł rozpoznać (nieznana funkcja „\babaabababba”): {\displaystyle x\ =\babaabababba} mamy

| S u b w o r d s (x) | = 55

. Proponujemy to wyliczyć z tablicy sufiksowej i drzewa sufiksowego dla

x

, danego na rysunku. Suma elementów tablicy

l c p

wynosi 23. Liczba podsłów to:

78 - 23 = 55

Podobnie jak tablicę sufiksową możemy zdefiniować tablicę $R O T$ odpowiadającą posortowanemu ciągowi wszystkich cyklicznych przesunięć słowa $x$ (rotacji $x$ ).

Pozostawiamy jako ćwiczenie znalezienie liniowego algorytmu obliczania tablicy $R O T$ , przy założeniu, że mamy liniowy algorytm obliczania tablicy sufiksowej.

Dygresja. Ciekawą klasę słów, dla których tablice $S U F, R O T$ są szczególnie interesujące, stanowią słowa Fibonacciego $F_{n}$ . W tym szczególnym przypadku załóżmy, że pozycje numerujemy od zera. Dla każdego $n$ tablica $R O T$ jest postępem arytmetycznym (modulo długość słowa). Natomiast tablica $S U F$ jest postępem arytmetycznym, gdy $n$ jest parzyste.

Słowa Fibonacciego definiujemy następująco: $F_{0} = a, F_{1} = a b, F_{n + 1} = F_{n} \cdot F_{n - 1}$ Na przykład: $F_{3} = a b a a b, F_{4} = a b a a b a b a, F_{5} = a b a a b a b a a b a a b .$ Oznaczmy przez $S U F_{n}$ tablicę $S U F$ dla słowa Fibonacciego $F_{n}$ ; wtedy:

Parser nie mógł rozpoznać (nieznana funkcja „\SUF”): {\displaystyle SUF_4\ =\ [7\;2\;5\;0\;3\;6\;1\;4],\ \SUF_5\ =\ [10\;7\;2\;11\;8\;5\;0\;3\;12\;9\;6\;1\;4].}

Pozostawiamy jako ćwiczenie znalezienie wzoru na $| S u b w o r d s (F_{n}) |$ .

Drzewa sufiksowe =>tablice sufiksowe

W celu znalezienia początkowych pozycji sufiksów w porządku leksykograficznym przechodzimy drzewo sufiksowe metodą DFS, zakładając, że dla każdego węzła lista jego synów jest w kolejności leksykograficznej etykiet krawędzi prowadzących do synów. Wystarczy sprawdzać pierwsze symbole tych etykiet.

Załóżmy, że w liściach mamy początki sufiksów, które do nich prowadzą.

Kolejność odwiedzania liści w naszym przejściu metodą DFS automatycznie generuje elementy tablicy sufiksowej.

Tablice sufiksowe =>drzewa sufiksowe

Pokażemy konstruktywnie następujący istotny fakt:

jeśli znamy tablicę sufiksową i tablicę $l c p$ , to drzewo sufiksowe dla danego tekstu możemy łatwo skonstruować w czasie liniowym.

Przypuśćmy, że $S U F = [i_{1}, i_{2}, \dots, i_{n}]$ , a więc:

s u f i k s_{i_{1}} < s u f i k s_{i_{2}} < s u f i k s_{i_{3}} < \dots s u f i k s_{i_{n}} .

Algorytm Drzewo-Sufiksowe

1   $T : =$  drzewo reprezentujące  $s u f i k s_{i_{1}}$  (jedna krawędź);
2  for  $k : = 2$  to  $n$  do
3    wstaw nową ścieżkę o sumarycznej etykiecie  $s u f i k s_{i_{k}}$  do  $T$ ;

Rysunek 3: Wstawianie kolejnego sufiksu

s u f i k s_{i_{k}}

do drzewa sufiksowego, przed włożeniem wszystkie krawędzie ścieżki roboczej od

u

do korzenia są skierowane w lewo.

Opiszemy w jaki sposób wstawiamy kolejny sufiks $β$ do drzewa. Operacja ta jest zilustrowana na rysunku. Załóżmy, że w każdym węźle drzewa trzymamy długość tekstu, który ten węzeł reprezentuje (jako pełna etykieta od korzenia do węzła).

Niech $α$ będzie poprzednio wstawionym sufiksem, a $u$ ostatnio utworzonym liściem.

Wtedy wstawienie $β$ polega na znalezieniu maksymalnego wspólnego prefiksu $γ_{1}$ tekstów $α$ , $β$ . Niech $β = γ_{1} \cdot γ_{2}$ . Znajdujemy węzeł $v$ odpowiadający ścieżce od korzenia etykietowanej $γ_{1}$ .

Kluczowym pomyslem algorytmicznym jest tutaj to, że węzła $v$ szukamy nie od korzenia, ale od ostatnio utworzonego liścia $u$ . Jeśli takiego węzła $v$ nie ma (jest wewnątrz krawędzi) to go tworzymy. Następnie tworzymy nowy liść $w$ odpowiadający sufiksowi $β$ , oraz krawędź $(v, w)$ etykietowaną $γ_{2}$ .

Z tablicy $l c p$ odczytujemy długość $γ_{1}$ .

W celu obliczenia $v$ posuwamy się ścieżką od $u$ w górę drzewa, aż znajdziemy węzeł oddalony od korzenia o $| γ |$ .

Przechodząc drzewo posuwamy się po węzłach drzewa, przeskakując (w czasie stalym) potencjalnie długie teksty na krawędziach.

Koszt operacji wstawienia jest proporcjonalny do sumy: jeden plus zmniejszenie głębokości nowego liścia w stosunku do starego. Suma tych zmniejszeń jest liniowa. $γ_{1}$ jest najdłuższym wspólnym prefiksem słów $s u f i k s_{i_{k - 1}}$ i $s u f i k s_{i_{k}}$ . Kluczowe znaczenie w operacji ma znajomość wartości $| γ_{1} | = l c p [k - 1]$ . Wiemy kiedy się zatrzymać idąc do góry od węzła $u$ w kierunku korzenia.

Lokalnie wykonana praca w jednej iteracji jest zamortyzowana zmniejszeniem się głębokości aktualnego liścia w stosunku do poprzedniego. W sumie praca jest liniowa.

Historia algorytmu jest pokazana dla przykładowego tekstu na rysunkach.

Rysunek 4: Pierwsze 6 iteracji algorytmu Drzewo-Sufiksowe dla tekstu

b a b a a b a b a b b a #

.

Rysunek 5: Ostatnie 6 iteracji algorytmu Drzewo-Sufiksowe dla tekstu

b a b a a b a b a b b a #

.

Obliczanie tablicy lcp

Niech $r a n k (i)$ będzie pozycją $s u f i k s_{i}$ w porządku leksykograficznym. W naszym przykładowym słowie mamy:

Parser nie mógł rozpoznać (błąd składni): {\displaystyle rank\ =\ [8,\ 2,\ 7,\ 1,\ 3,\ 9,\ 4,\ 10,\ 5,\ 12,\11,\ 6]}

Niech $l c p^{'} [k] = l c p [r a n k [k] - 1]$ .

Załóżmy, dla uproszczenia, że $l c p [0] = 0$ oraz że tekst kończy się specjalnym symbolem Obliczamy tablice $l c p^{'}, l c p$ następująco:

Algorytm Oblicz-lcp

1  for  $k : = 1$  to  $n$  do
2    oblicz  $l c p^{'} [k]$  korzystając z faktu, że  $l c p^{'} [k] \geq l c p^{'} [k - 1] - 1$ ; 
3    // koszt iteracji  $O (l c p^{'} [k] - l c p^{'} [k - 1] + c o n s t)$ 
4  for  $k : = 1$  to  $n$  do
 5     $l c p [r a n k [k] - 1] : = l c p^{'} [k]$

Można to zapisać w języku C++ następująco

Algorytm Oblicz-lcp1

for Parser nie mógł rozpoznać (błąd składni): {\displaystyle \hspace*{0.3cm} (int\ \ i=1; i<=n; i++)\ \  R[SUF[i]] = i;}

 $l = 0;$ 
for Parser nie mógł rozpoznać (błąd składni): {\displaystyle \hspace*{0.3cm}  (int\ \ i=1; i<=n; i++}
)  ${$ 
  if Parser nie mógł rozpoznać (błąd składni): {\displaystyle \hspace*{0.3cm}  (R[i] > 1)\ \{}

      while Parser nie mógł rozpoznać (błąd składni): {\displaystyle \hspace*{0.3cm} (x[l+i] == x[l+SUF[R[i]-1]])\ \ l++}
;
       $l c p [R [i] - 1] = l;}$ 
   $l = m a x (0, l - 1);}$

Pozostawiamy jako ćwiczenie dowód tego, że

l c p^{'} [k] \geq l c p^{'} [k - 1] - 1

.

Jeśli $l c p^{'} [k - 1] - 1 = t$ , to $l c p^{'} [k]$ obliczamy sprawdzając symbol po symbolu (od lewej do prawej) zgodność prefiksów odpowiednich słów startując od pozycji $t$ . W ten sposób sumaryczny koszt jest liniowy. W każdej iteracji cofamy się o jeden, a potem idziemy do przodu (sprawdzając kolejne symbole). Jest to analiza typu jeden krok do tyłu i kilka do przodu. Liczba iteracji jest liniowa, więc liczba kroków do tyłu też. Ponieważ odległość do celu jest liniowa, to suma kroków też jest liniowa.

Słownik podsłów bazowych i konstrukcja tablicy sufiksowej w czasie O(n log n)

Opiszemy uproszczoną wersję algorytmu Karpa-Millera-Rosenberga (w skrócie algorytmu KMR) rozwiązywania problemów tekstowych metodą słownika podsłów bazowych. Ustalmy pewnie tekst $x$ długości $n$ .

Zakładamy w tej sekcji, że dodatkowym symbolem jest $x_{n + 1} = #$ , leksykograficznie najmniejszy symbol. Przez segment $k$ -bazowy rozumiemy segment tekstu $x [i . . i + 2^{k} - 1]$ długości $2^{k}$ lub kończący się na $x_{n + 1}$ .

Teoretycznie możemy założyć, że po symbolu $#$ mamy bardzo dużo takich symboli na prawo i każdy segment startujący w $x [1 . . n]$ ma dokładnie długość $2^{k}$ .

Słownik podsłów bazowych (w skrócie DBF(x), od ang. dictionary of basic factors) składa się z $\log n$ tablic

$N A Z W A_{0}$ , $N A Z W A_{1}$ , $N A Z W A_{2}$ , $\dots N A Z W A_{\log n}$ .

Zakładamy, że $N A Z W A_{k} [i]$ jest pozycją słowa $x [i . . i + 2^{k} - 1]$ na posortowanej liście (bez powtórzeń) wszystkich podsłów długości $2^{k}$ słowa $x$ . Jeśli długość wystaje poza koniec $x$ to przyjmujemy że są tam (wirtualnie) same symbole $#$ . Poniżej przedstawiamy przykład słownika podsłów bazowych $D B F (a b a a b b a a)$ .

Algorytm liczenia tablic Nazwa jest bardzo prosty. Załóżmy od razu, że symbole są ponumerowane leksykograficznie. Wtedy $N A Z W A_{0}$ jest zasadniczo równa tekstowi $x$ .

Rysunek6: Słowo rozmiaru

2^{k + 1}

otrzymuje najpierw nazwę-kompozycję: kombinacją nazw (będących liczbami naturalnymi z przedziału

[1 . . n]

) dwóch podsłów długości

2^{k}

.

Opis jednej iteracji $(t r a n s f o r m a c j a : N A Z W A_{k} = > N A Z W A_{k + 1}$ )

Dla każdego

i

tworzymy nazwę-kompozycję slowa

x [i . . i + 2^{k + 1} - 1]

jako

N A Z W A_{k} [i], N A Z W A_{k} [i + 2^{k}]

Każda taka kompozycja jest parą liczb naturalnych. Sortujemy te pary za pomocą algorytmu radix-sort i w ten sposób otrzymujemy tablicę, która koduje (w porządku leksykograficznym) każdą parę liczbą naturalną (pozycją w porządku leksykograficznym). Wartością $N A Z W A_{k + 1} [i]$ jest kod pary $(N A Z W A_{k} [i], N A Z W A_{k} [i + 2^{k}])$ .

Zauważmy, że tablica sufiksowa odpowiada tablicy $N A Z W A_{⌈ \log n ⌉}$ . Możemy to podsumować następująco:
1. słownik DBF(x) możemy skonstruować w czasie $O (n \log n)$ i pamięci $O (n \log n)$ (jest to również rozmiar słownika).
2. Tablicę sufiksową możemy otrzymać,stosując algorytm KMR, w czasie $O (n \log n)$ i pamięci $O (n)$ . (Potrzebujemy pamiętać jedynie ostatnie dwie tablice w każdej iteracji.)

Konstrukcja tablicy SUF w czasie O(n): algorytm KS

Opiszemy teraz błyskotliwy algorytm Karkkainena-Sandersa ( w skrócie KS) będący zoptymalizowaną wersją algorytmu KMR liczenia tablicy sufiksowej. Zauważmy, że algorytm KMR oblicza znacznie więcej niż tablica sufiksowa, ponieważ konstruuje słownik podsłów bazowych wielkości $n \log n$ (mający liczne inne zastosowania, ale jako całość być może niepotrzebny przy liczeniu tablicy sufiksowej)

Główną częścią algorytmu KS jest obliczanie częściowej tablicy sufiksowej w sposób rekurencyjny. Rozbijmy zbiór pozycji [1..n] tekstu $x$ na dwa zbiory N, M :

Zbiór N składa się z co trzeciej pozycji, a M jest zbiorem pozostałych pozycji.

N = {3,6,9,12,15,....}, M = {1,2,4,5,7,8,10,11,...}

Przez $S U F [M]$ , oznaczmy tablicę sufiksową dla pozycji ze zbioru $M$ , podobnie zdefiniujmy $S U F [N]$ .

$S U F [M]$ daje posortowany ciąg sufiksów zaczynających się na pozycjach ze zbioru $M$ .

Dla początkowego przykładowego tekstu $x = b a b a a b a b a b b a #$ mamy

M = {1, 2, 4, 5, 7, 8, 10, 11} N = {3, 6, 9, 12}

S U F [M] = [4, 2, 5, 7, 1, 8, 11, 10] S U F [N] = [9, 12, 3, 6,]

Sprowadzenie obliczania $S U F [M]$ do obliczania tablicy sufiksowej rozmiaru $\frac{2}{3} n$

Posortujmy leksykograficznie wszystkie podsłowa długości 3 w słowie $x$ korzystając z radix-sort. Każdemu takiemu słowu przyporządkujmy nazwę będącą jego pozycją w posortowanym leksykograficznie ciągu, oznaczmy $k o d (z)$ otrzymaną nazwę podsłowa długości 3. Zakładamy, że $x$ kończy się dodatkowo dwoma symbolami $#$ , ale rozważamy tylko podsłowa zaczynające się w $x$ . Dla uproszczenia załóżmy, że 3 jest dzielnikiem n.

Tworzymy nowe słowo $c o m p r e s s (x)$ w następujący sposób:

y 1 = k o d (a_{1} a_{2} a_{3}) \cdot k o d (a_{4} a_{5} a_{6}) \dots k o d (a_{n - 2} a_{n - 1} a_{n})

$y 2 = k o d (a_{2} a_{3} a_{4}) \cdot k o d (a_{5} a_{6} a_{7}) \dots k o d (a_{n - 1} a_{n} a_{n + 1})$

c o m p r e s s (x) = y 1 & y 2;

gdzie

&

jest nowym maksymalnym symbolem

Przykład. Weźmy początkowy przykład $x = b a b a a b a b b b a #$ , gdzie $#$ jest większe niże a,b. Mamy

a a b ≺ a b a ≺ b a b ≺ b a # ≺ b b a

,

Zatem kody tych trójek są kolejno $1, 2, 3, 4, 5$ .

Oznaczmy $k o d (z) = < z >$ . Wtedy

y 1 = < b a b > < a a b > < a b a > < b b a > = 3 1 2 5;

y 2 = < a b a > < a b a > < b a b > < b a # > = 2 2 3 4

Parser nie mógł rozpoznać (błąd składni): {\displaystyle compress(x)\ =\ =\ 3\ 1\ 2\ 5 \ \&\ 2\ 2\ 3\ 4\} ,

Jeśli mamy tablicę sufiksową dla słowa $c o m p r e s s (x)$ , można łatwo obliczyć $S U F [M]$ w czasie liniowym. Pozostawiamy to jako ćwiczenie.

Algorytm Parser nie mógł rozpoznać (nieznana funkcja „\Large”): {\displaystyle {\Large KS} } (Karkkainen-Sanders)

1. $x^{'} : = c o m p r e s s (x)$ ;

2. obliczamy tablicę sufiksową dla x' rekurencyjnie;

3. obliczamy $S U F [M]$ w czasie liniowym, znając tablicę sufiksową dla x';

4. obliczamy $S U F [N]$ w czasie liniowym (bez rekursji), znając $S U F [M]$ ;

5. scalamy posortowane ciągi $S U F [M], S U F [N]$ w tablicę sufiksową dla całego słowa $x$

Krok 1 algorytmu sprowadza się do radix-sortu, podobnie jak w algorytmie KMR. Kroki 3,4 są proste i ich implementację pozostawiamy czytelnikowi jako ćwiczenie.

Najważniejszy jest krok scalania. Mamy dwie posortowane listy sufiksów i trzeba je scalić w jedną posortowaną listę. Zasadniczym problemem jest implementacja operacji porównania leksykograficznego dwóch (długich) sufiksów w czasie stałym. Jeśli oba sufiksy są typu $M$ lub oba są typu $N$ , to porównanie jest w czasie stałym, bo mamy posortowane listy takich sufiksów.

Pokażemy na przykładzie kluczową operację porównania sufiksu typu M z sufiksem typu N w czasie stałym.

Przykład

Nierówność $s u f i k s_{2} < s u f i k s_{12}$ jest równoważna temu, że zachodzi co najmniej jeden z warunków:

1. $(a_{2} < a_{12})$
2. $(a_{2} = a_{12}, a_{3} < a_{13})$
3. $(a_{2} = a_{12}, a_{3} = a_{13}, s u f i k s_{4} < s u f i k s_{14})$

Jednakże $4, 14 \in M$ , zatem $s u f i k s_{4}$ i $s u f i k s_{14}$ , są typu M i można je porównać w czasie stałym.

Niech

T (n)

będzie czasem działania algorytmu KS. Zachodzi

T (n) = T (⌈ \frac{2}{3} \cdot n ⌉) + O (n)

Rozwiązaniem jest $T (n) = O (n)$ . Mamy więc liniowy algorytm liczenia tablicy sufiksowej. Daje to również liniowy algorytm konstrukcji drzewa sufiksowego.

Istnieje kilka interesujących algorytmów, które konstruują drzewo sufiksowe w czasie liniowym, bez korzystania z tablicy sufiksowej (algorytmy Weinera, McCreighta, Ukkonena). W algorytmach tych współczynnik przy złożoności liniowej wynosi \log |A| , gdzie A jest alfabetem.

Algorytmy i struktury danych/Algorytmy tekstowe II

Spis treści

Tablice i drzewa sufiksowe

Szukanie podsłów

Wyznaczanie liczby podsłów

Drzewa sufiksowe =>tablice sufiksowe

Tablice sufiksowe =>drzewa sufiksowe

Obliczanie tablicy lcp

Słownik podsłów bazowych i konstrukcja tablicy sufiksowej w czasie O(n log n)

Konstrukcja tablicy SUF w czasie O(n): algorytm KS

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia