Zaawansowane algorytmy i struktury danych/Wykład 2: Różnice pomiędzy wersjami

Wersja z 12:53, 25 wrz 2006

Zaawansowane algorytmy tekstowe II

Poprzednie algorytmy dokonywały na tekstach wejściowych jedynie operacji sprawdzania symboli na równość. Załóżmy teraz, że alfabet jest liniowo uporządkowany. Pokażemy, że porównywanie symboli w sensie porządku liniowego można istotnie wykorzystać w algorytmach tekstowych. Porządek liniowy na symbolach implikuje {\em porządek leksykograficzny} na słowach, na przykład:

a b < a b a b a b < a b b < a b b a a < a b b a a a a a a a a a a a < a b b a a a a a a b

String-matching w pamięci stałej dla specjalnych wzorów

Oznaczmy przez $M a x S u f (w)$ maksymalny leksykograficznie sufiks słowa $w$ . Słowo $x$ nazwiemy specjalnym, gdy $M a x S u f (x) = x$ .

Przykład

'bajtocja' nie jest słowem specjalnym, ale rotacja tego słowa 'tocjabaj' jest.

Dlaczego słowa o tej własności są interesujące? Większość szybkich algorytmów szukania podsłów korzysta z okresów $p$ prefiksów słowa. Liczenie tych okresów w ogólnym przypadku jest wąskim gardłem w projekcie algorytmu. Natomiast dla słow specjalnych liczenie okresów jest trywialne.

Jeśli $x$ jest specjalny, to okres każdego prefiksu słowa $x$ można policzyć następującym naiwnym algorytmem:

Algorytm Funkcja Naiwne-Liczenie-Okresu (j)

$p e r i o d : = 1$ ;
for $i : = 2$ to $j$ do
if $x [i] \neq x [i - p e r i o d]$ then $p e r i o d : = i$ ;
return $p e r i o d$ ;

Przykład

Funkcja Naiwne-Liczenie-Okresu daje zły wynik dla tekstów które nie są specjalne, na przykład załóżmy że

x = (a b a)^{6} a = a b a a b a a b a a b a a b a a b a a

.} Wtedy kolejne wartości okresów dla pozycji

j = 1, 2, . .

są:

a	b	a	a	b	a	a	b	a	a	b	a	a	b	a	a	b	a	a
1	2	2	4	5	5	7	8	8	10	11	11	13	14	14	16	17	17	19

Zatem Naiwne-Liczenie-Okresu $(19) = 19$ , dla $x = (a b a)^{6} a$ , wynik całkowicie niepoprawny. Poprawność algorytmu jest wyjaśniona na rysunku. Korzystamy z prostej własności, że prefiks specjalnego słowa jest też specjalny.

Rysunek 1: Załóżmy, że w algorytmie Naiwne-Liczenie-Okresu $x [i - p e r i o d (i - 1)] \neq x [i]$ . Niech $a = x [i]$ , $b = x [i - p e r i o d]$ . Ponieważ $u z$ jest prefiksem słowa specjalnego $x$ , zatem $a < b$ . Gdyby $p e r i o d (i) < i$ to wtedy, ze względu na dwie okresowości, $z b$ jest właściwym podsłowem słowa $x [1 . . i - 1]$ oraz $z b > x$ . Zaprzecza to założeniu, że $x$ jest specjalne. Zatem $p e r i o d (i) = i$ .

Opiszemy teraz program szukania wzorca $x$ w slowie $y$ i, zakładając że $x$ jest specjalne. Program wczytuje dwa teksty, pierwszy z nich jest specjalny: $x$ pamiętamy w tablicy $x [0 . . m - 1]$ , $y$ w tablicy $y [0 . . n - 1]$ . Program wypisuje wszystkie wystapienia $x$ w $y$ , tzn. wszystkie takie pozycje $i$ , że $y [i \dots i + m - 1] = x$ . Zapisujemy program w języku C++.

Algorytm Specjalny-String-Matching

#include <iostream.h>
#include string.h
int $i = 0$ , $j = 0$ , $p = 1$ ;
void przesun();
main() {
char[] x,y; cin>>x>>y; m $=$ strlen(x); n $=$ strlen(y);
while (i $< =$ n-m-1)
    { if (j $= =$ m) {cout<<i<<endl; przesun();};
     else if (x[j] $= =$ y[i+j]) {j $=$ j+1; if (j $= =$ 1) $| |$ (x[j-1] $! =$ x[j-1-p]) p $=$ j;};
     else przesun(); } }

void przesun()
{ if (j-1<2p) {i $=$ i+p; j $=$ 0;} else {j $=$ j-p; i $=$ i+p;} }

Program jest wstępem do programu szukającego dowolne podsłowo, niekoniecznie o własności bycia specjalnym. Podstawowym niezmiennikiem w programie przed każdym wykonaniem i po każdym zakończeniu pętli while jest: (A)\ $x [0 \dots j - 1] = y [i \dots i + j - 1]$ , (B)\ Program wypisał wszystkie wcześniejsze wystąpienia $i^{'} < i$ , (C)\ $p$ jest okresem slowa $x [0 \dots j - 1]$

Algorytm działa w czasie liniowym. Można to udowodnić obserwując zmiany wartości $2 i + j$ . Zauważmy, że wartość ta nie zmniejsza się, a w wypadku pozytywnego testu $x [j) = = y [i + j]$ zwiększa się co najmniej o 1. Jednocześnie $2 i + j \leq 3 n$ .

String-matching w pamięci stałej dla dowolnych wzorców

Algorytym Specjalny-String-Matching można łatwo zmodyfikować tak, aby znajdował on wystąpienia dowolnego słowa (niekoniecznie specjalnego) w czasie liniowym i stałej pamięci. Niech $x = u v$ , gdzie $v$ jest leksykograficzne maksymalnym sufiksem $x$ . Oznaczmy $r = | u |$ . Technicznie informacja o rozkładzie $u v$ sprowadza się do pamiętania $r$ .

Własność rozkładu. Niech $x = u v$ będzie rozkładem jak wyżej opisany. Wtedy słowo $v$ występuje tylko raz w słowie $u v$ . Jeśli $i^{'} < i$ są początkami wystąpień $v$ oraz $i - i^{'} < r$ , to na pozycji $i - 1$ nie kończy się wystąpienie $u$ .

Z powyższego faktu wynika stosunkowo prosty algorytm szukania $x$ w czasie liniowym i pamięci stałej. Algorytm ten jest modyfikacją algorytmu Specjalny-String-Matching, w którym rolę $x$ pełni $v$ .

Algorytm String-matching w pamięci stałej

Niech $v$ będzie leksykograficznie maksymalnym sufiksem $x$ ;

Liczymy algorytmem Specjalny-String-Matching kolejne wystąpienia $v$ w $y$ ;

Dla każdego wystąpienia $i$ niech $i^{'}$ będzie wystąpieniem poprzednim;

jeśli $i - i^{'} \geq | v |$ , sprawdź czy $u$ występuje na lewo od pozycji $i$ ;

(sprawdzanie to wykonujemy w sposób naiwny)

jeśli występuje, wypisz kolejne wystąpienie całego wzorca $x$ .

Pozostawiamy bardziej precyzyjny zapis algorytmu jako ćwiczenie.

W ten sposób pokazaliśmy, że problem szukania słowa $x$ w słowie $y$ można rozwiązać w czasie liniowym i pamięci (dodatkowej) stałej, jeśli znamy początkową pozycję $r$ leksykograficznie maksymalnego sufiksu $v$ słowa $x$ .

Liczenie maksymalnego sufiksu w pamięci stałej

W algorytmie szukania wzorca w pamięci stałej potrzebna jest pozycja $r$ , od której zaczyna się maksymalny sufiks. Pokażemy teraz, jak ją znajdować w czasie liniowym i w pamięci stałej. Kluczem do tego jest liczenie czegoś więcej: dla każdego prefiksu liczymy maksymalny sufiks, jak również dodatkowo jego okres. To właśnie liczenie okresu daje efektywność, chociaż na końcu ten okres nie jest nam potrzebny. Przekształcimy najpierw algorytm Naiwne-Liczenie-Okresu na algorytm liczący długość najdłuższego specjalnego prefiksu włącznie z jego okresem.

{algorytm| funkcja Najdłuższy-Specjalny-Prefiks(x)|fun_najdl_spec_pref| $p e r i o d : = 1$ ;
for $i : = 2$ to $| x |$ do
   if $x [i] < x [i - p e r i o d]$ \textbf{then} $p e r i o d : = i$
   'else if $x [i] > x [i - p e r i o d]$ then
      return $(i - 1, p e r i o d)$ ;
return $(| x |, p e r i o d)$ ; }}

Skorzystamy z algorytmu Najdłuższy-Specjalny-Prefiks. Funkcja Maksymalny-Sufiks liczy początkową pozycję i okres maksymalnego sufiksu.

Algorytm funkcja Maksymalny-Sufiks(x)

$j : = 1$ ;
repeat
    $(i, p e r i o d) : =$ Najdłuższy-Specjalny-Prefiks $(x [j . . n])$ ;
   if $i = n$ then return $(j, p e r i o d)$
   else $j : = j + i - (i mod p e r i o d)$ ;
forever

Możemy przepisać algorytm Maksymalny-Sufiks tak, aby nie wywoływał on funkcji Najdłuższy-Specjalny-Prefiks, wpisując tę funkcję do algorytmu. Arytmetyczna funkcja $mod$ może być usunięta i zastąpiona przez operacje dodawania i odejmowania bez zmiany asymptotycznej złożoności.

Algorytm Maksymalny-Sufiks wykonuje co najwyżej $2 . | x |$ porównań symboli. Uzasadnienie pozostawiamy jako ćwiczenie.

Algorytm funkcja} Maksymalny-Sufiks(x)

$s : = 1$ ; $i : = 2$ ; $p : = 1$ ;
while ( $i \leq n$ ) do
    $r : = (i - s) mod p$ ;
   if ( $x [i] = x [s + r])$ then $i : = i + 1$
   else if ( $x [i] < x [s + r])$ then begin        $i : = i + 1$ ; $p : = i - s$ ;    else        $s : = i - r$ ; $i : = s + 1$ ; $p : = 1$ ;
return $s$ ;

Kodowanie prefiksowe: drzewa i kody Huffmana

Zbiór słów jest prefiksowy, gdy żadne słowo nie jest prefiksem drugiego. Taki zbiór słów odpowiada drzewu, którego ścieżki etykietowane są symbolami. W przypadku binarnym możemy przyjąć, że krawędź w lewo jest etykietowana zerem, a w prawo jedynką. Przez kodowanie rozumiemy funkcję $h$ , która każdemu symbolowi $s$ przyporządkowuje niepusty ciąg binarny $h (s)$ . Całe słowo $x$ zostanie zakodowane na słowo $h (x)$ (każda litera jest zakodowana niezależnie i kody są skonkatenowane). Kod jest prefiksowy gdy zbiór kodów symboli jest prefiksowy. Rozważamy następujący problem:

Optymalne kodowanie prefiksowe

Dla danego słowa $x$ znaleźć binarne kodowanie prefiksowe takie, że $h (x)$ ma minimalną długość.

Przykład

Niech $x = a b r a c a d a b r a$ . Liczby wystąpień symboli w słowie $x$ są:

w_{a} = 5, w_{b} = 2, w_{c} = 1, w_{d} = 1, w_{r} = 2 .

Optymalnym kodowaniem jest $h (a) = 0, h (b) = 10, h (c) = 1100, h (d) = 1101, h (r) = 111 .$ $a b r a c a d a b r a$ zostaje zakodowane na $01011101100011010101110$ , ciąg binarny długości $23$ . Optymalne drzewo binarne odpowiadające optymalnemu kodowi prefiksowemu jest pokazane na rysunku.

Rysunek 2:Drzewo Huffmana kodujące optymalnie symbole $a, b, c, d, r$ z wagami odpowiednio $S = (5, 2, 1, 1, 2)$ . Liczby w wewnętrznych węzłach są sumą wag w liściach odpowiadającego poddrzewa. Koszt całkowity kodowania jest ważoną sumą długości ścieżek do liści, jest również sumą wartości w węzłach wewnętrznych: $2 + 4 + 6 + 11 = 23 .$

Długość tekstu $h (x)$ jest równa ważonej sumie długości ścieżek, ważonej w tym sensie, że długość ścieżki do danego liścia jest przemnożona przez wagę tego liścia. W przykładzie jest to suma: $5 * 1 + 2 * 2 + 1 * 4 + 1 * 4 + 2 * 3 = 23$ .

Niech $n$ będzie liczbą różnych symboli w $x$ , $w [i]$ będzie liczbą wystąpień $i$ -tego symbolu. Problem możemy rozwiązać, stosując algorytm dla problemu Optymalne Sklejanie Par dla ciągu $w [1], w [2], \dots w [n])$ . Musimy algorytm zmodyfikować tak, aby nie tylko sklejał pary, ale również tworzył lokalnie drzewo. Inaczej mówiąc, algorytm w momencie sklejania elementów $a$ , $b$ w element $c$ tworzy również dowiązania, $a$ staje się lewym synem $c$ , natomiast $b$ staje się prawym synem.

Algorytm Huffmana (nieformalny opis)

Konfiguracje pośrednie algorytmu to zbiory drzew,

początkowo każdy pojedyńczy element $i$ z wagą $w [i]$ jest pojedyńczym drzewem.

Korzeń każdego drzewa reprezentuje sklejenie jego wszystkich liści.

Za każdym razem sklejamy dwa korzenie drzew o minimalnej wadze.

Drzewo, które algorytm generuje, nazywamy drzewem Huffmana.

Pozostawiamy jako ćwiczenie przerobienie algorytmu Optymalne-Sklejanie-Par na algorytm liczenia kodów i drzew Huffmana.

Z analizy algorytmu Optymalne Sklejanie Par wynika, że problem optymalnych binarnych kodów prefiksowych można rozwiązać w czasie $O (n \log n)$ , a jeśli wagi $w [i]$ są posortowane, to w czasie liniowym.

Kodowanie Huffmana słowami $k$ -arnymi.

Pozostawiamy jako ćwiczenie podobny problem, ale gdy kodujemy w alfabecie $k$ -arnym, mamy teraz symbole $0, 1, \dots, k - 1$ . W algorytmie jednorazowo możemy sklejać więcej niż dwa elementy.

Kodowanie prefiksowe z symbolami kodowymi nierównej długości

Problem robi się skomplikowany, gdy długość symbolu 0 jest 1, a długość symbolu 1 jest $c$ , gdzie $c$ jest pewną stałą (jest to problem tzw. lopsided trees). Inaczej mówiąc, szukamy takiego optymalnego drzewa, w którym ważona suma ścieżek jest minimalna, ale długość krawędzi na lewo wynosi 1, a długość krawędzi na prawo wynosi $c$ . Pozostawiamy jako ćwiczenie znalezienie efektywnego algorytmu dla małych $c$ ( $c = 2$ lub $c = 3$ ). Dla dowolnego $c$ (będącego częścią wejścia) i dowolnych wag jest to zbyt trudne, nie znamy algorytmu wielomianowego. Dla ustalonego $c$ istnieje algorytm wielomianowy, którego stopień zależy od $c$ . Natomiast pozostawiamy jako ćwiczenie przypadek, gdy $c$ jest dowolne, ale wszystkie wagi $w [i]$ są równe.

Kodowanie prefiksowe z kodami o ograniczonej długości

Innym ciekawym problemem jest też skonstruowanie optymalnego kodu prefiksowego, w którym wszystkie słowa kodowe są ograniczone przez pewną zadaną liczbę $L$ . Inaczej mówiąc, ograniczamy z góry wysokość drzewa Huffmana. Istnieją wtedy algorytmy wielomianowe dla tego problemu, stopień wielomianu jest niezależny od $L$ .

@@ Linia 3: / Linia 3: @@
 __TOC__
-Poprzednie algorytmy dokonywały jedynie na tekstach wejściowych operacji sprawdzania symboli na równość.
+Poprzednie algorytmy dokonywały na tekstach wejściowych jedynie operacji sprawdzania symboli na równość.
-Załóżmy teraz, że alfabet jest liniowo uporządkowany. Pokażemy, że  porównywanie symboli w sensie
+Załóżmy teraz, że alfabet jest liniowo uporządkowany. Pokażemy, że porównywanie symboli w sensie
 porządku liniowego można istotnie wykorzystać w algorytmach tekstowych. Porządek liniowy na symbolach
 implikuje {\em porządek  leksykograficzny} na słowach, na przykład:
@@ Linia 14: / Linia 14: @@
-Oznaczmy przez <math>MaxSuf(w)</math> maksymalny leksykograficznie sufiks słowa <math>w</math>. Słowo <math>x</math> nazwiemy specjalnym gdy <math>MaxSuf(x)=x</math>.
+Oznaczmy przez <math>MaxSuf(w)</math> maksymalny leksykograficznie sufiks słowa <math>w</math>. Słowo <math>x</math> nazwiemy specjalnym, gdy <math>MaxSuf(x)=x</math>.
 {{przyklad|||
@@ Linia 20: / Linia 20: @@
-Dlaczego słowa o tej własności  są interesujące ? Większość szybkich algorytmów szukania podsłów korzysta z okresów <math>p</math> prefiksów słowa. Liczenie tych okresów w ogólnym przypadku jest ''wąskim gardłem'' w projekcie algorytmu. Natomiast dla słow specjalnych  liczenie okresów jest trywialne.
+Dlaczego słowa o tej własności  są interesujące? Większość szybkich algorytmów szukania podsłów korzysta z okresów <math>p</math> prefiksów słowa. Liczenie tych okresów w ogólnym przypadku jest ''wąskim gardłem'' w projekcie algorytmu. Natomiast dla słow specjalnych liczenie okresów jest trywialne.
-Jeśli  <math>x</math> jest specjalny to okres każdego prefiksu słowa <math>x</math> można policzyć następującym naiwnym
+Jeśli <math>x</math> jest specjalny, to okres każdego prefiksu słowa <math>x</math> można policzyć następującym naiwnym
-algorytmem;
+algorytmem:
 {{ algorytm| Funkcja Naiwne-Liczenie-Okresu (j)|funkcja_naiwne_liczenie_okresu|
@@ Linia 90: / Linia 90: @@
 <center>[[Grafika:Naiwneliczenieokresu.jpg]]<br><br>
 Rysunek 1: Załóżmy, że w algorytmie  ''Naiwne-Liczenie-Okresu'' <math>x[i-period(i-1)] \ne x[i]</math>.  Niech
-<math>a=x[i]</math>, <math>b=x[i-period]</math>. Ponieważ <math>uz</math> jest prefiksem  słowa specjalnego <math>x</math> zatem  <math>a <b</math>. Gdyby
+<math>a=x[i]</math>, <math>b=x[i-period]</math>. Ponieważ <math>uz</math> jest prefiksem  słowa specjalnego <math>x</math>, zatem  <math>a <b</math>. Gdyby
 <math>period(i)<i</math> to wtedy, ze względu na dwie okresowości,
-<math>zb</math> jest właściwym podsłowem słowa  <math>x[1.. i-1]</math> oraz <math>zb>x</math>.
+<math>zb</math> jest właściwym podsłowem słowa <math>x[1.. i-1]</math> oraz <math>zb>x</math>.
 Zaprzecza to założeniu, że <math>x</math> jest specjalne. Zatem <math>period(i)=i</math>.
 </center>
-Opiszemy teraz program szukania wzorca <math>x</math>  w slowie <math>y</math>i, zakładając że x jest sepcjalne.
+Opiszemy teraz program szukania wzorca <math>x</math> w slowie <math>y</math>i, zakładając że <math>x</math> jest specjalne.
-Program wczytuje dwa teksty, pierwszy z nich jest specjalne:  <math>x</math> pamiętamy w tablicy <math>x[0..m-1]</math>, <math>y</math> w
+Program wczytuje dwa teksty, pierwszy z nich jest specjalny:  <math>x</math> pamiętamy w tablicy <math>x[0..m-1]</math>, <math>y</math> w
 tablicy <math>y[0..n-1]</math>.
 Program wypisuje wszystkie wystapienia <math>x</math> w <math>y</math>, tzn. wszystkie takie pozycje
-<math>i</math>, ze <math>y[i\ldots i+m-1]\ =\ x</math>. Zapisujemy program w języku C++.
+<math>i</math>, że <math>y[i\ldots i+m-1]\ =\ x</math>. Zapisujemy program w języku C++.
 {{algorytm|Specjalny-String-Matching|algorytm_specjalny_string_matching|
 &nbsp;#include <iostream.h><br>
@@ Linia 128: / Linia 128: @@
 Program jest wstępem do programu szukającego dowolne podsłowo, niekoniecznie o własności bycia
-specjalnym. Podstawowym niezmiennikiem  w programie przed kazdym wykonaniem i po każdym zakończeniu pętli ''while' jest:
+specjalnym. Podstawowym niezmiennikiem  w programie przed każdym wykonaniem i po każdym zakończeniu pętli ''while'' jest:
-'''(A)\ ''' <math>x[0 \ldots j-1]\ =\ y[i \ldots i+j-1]</math>, .
+'''(A)\ ''' <math>x[0 \ldots j-1]\ =\ y[i \ldots i+j-1]</math>,
 '''(B)\ ''' Program wypisał wszystkie wcześniejsze wystąpienia <math>i' < i</math>,
 '''(C)\ ''' <math>p</math> jest okresem slowa <math>x[0 \ldots j-1]</math>
-Algorytm  działa w czasie liniowym, można to udowodnić obserwując zmiany wartości <math>2i+j</math>, zauważmy, że wartość ta nie zmniejsza się, a w wypadku pozytywnego testu  <math> x[j)==y[i+j]</math>  zwiększa się co najmniej o 1. Jednocześnie <math>2i+j\le 3n</math>.
+Algorytm działa w czasie liniowym. Można to udowodnić obserwując zmiany wartości <math>2i+j</math>. Zauważmy, że wartość ta nie zmniejsza się, a w wypadku pozytywnego testu <math> x[j)==y[i+j]</math>  zwiększa się co najmniej o 1. Jednocześnie <math>2i+j\le 3n</math>.
 == String-matching w pamięci stałej dla dowolnych wzorców ==
-Algorytym Specjalny-String-Matching  można  łatwo
+Algorytym Specjalny-String-Matching można łatwo
 zmodyfikować tak, aby znajdował on wystąpienia dowolnego słowa (niekoniecznie specjalnego) w czasie liniowym i
 stałej pamięci.
@@ Linia 145: / Linia 145: @@
 '''Własność rozkładu. '''Niech <math>x=uv</math> będzie rozkładem jak wyżej opisany. Wtedy
-Słowo <math>v</math> występuje tylko raz w słowie <math>uv</math>.
+słowo <math>v</math> występuje tylko raz w słowie <math>uv</math>.
-Jeśli <math>i'<i</math> są początkami wystąpień <math>v</math>, oraz <math>i-i'<r</math> to
+Jeśli <math>i'<i</math> są początkami wystąpień <math>v</math> oraz <math>i-i'<r</math>, to
 na pozycji <math>i-1</math> nie kończy się wystąpienie <math>u</math>.
-Z powyższego faktu wynika stosunkowo prosty algorytm szukania <math>x</math> w czasie loiniowym i pamięci
+Z powyższego faktu wynika stosunkowo prosty algorytm szukania <math>x</math> w czasie liniowym i pamięci
-stałej. Algorytm ten jest modyfikacja algorytmu Specjalny-String-Matching , w ktorym rolę <math>x</math> pełni <math>v</math>.
+stałej. Algorytm ten jest modyfikacją algorytmu Specjalny-String-Matching, w którym rolę <math>x</math> pełni <math>v</math>.
 {{algorytm |String-matching w pamięci stałej|algorytm_string_matching_pam_st|
-Niech <math>v</math> będzie  leksykograficznie maksymalnym sufiksem <math>x</math>;
+Niech <math>v</math> będzie leksykograficznie maksymalnym sufiksem <math>x</math>;
-Liczymy  algorytmem Specjalny-String-Matching  kolejne wystąpienia <math>v</math> w <math>y</math>;
+Liczymy algorytmem Specjalny-String-Matching kolejne wystąpienia <math>v</math> w <math>y</math>;
 Dla każdego wystąpienia <math>i</math> niech <math>i'</math> będzie wystąpieniem poprzednim;
-jeśli <math>i-i' \ge |v|</math> to sprawdź czy <math>u</math> występuje na lewo od pozycji <math>i</math>;
+jeśli <math>i-i' \ge |v|</math>, sprawdź czy <math>u</math> występuje na lewo od pozycji <math>i</math>;
 (sprawdzanie to wykonujemy w sposób naiwny)
-jeśli występuje to wypisz kolejne wystąpienie całego wzorca <math>x</math>.
+jeśli występuje, wypisz kolejne wystąpienie całego wzorca <math>x</math>.
 }}
@@ Linia 175: / Linia 175: @@
 == Liczenie maksymalnego sufiksu w pamięci stałej ==
-W algorytmie szukanie wzorca w pamięci stałej potrzebna jest pozycja <math>r</math>  od której zaczyna się maksymalny
+W algorytmie szukania wzorca w pamięci stałej potrzebna jest pozycja <math>r</math>, od której zaczyna się maksymalny
-sufiks. Pokażemy teraz jak ją znajdować w czasie liniowym i w pamięci stałej. Kluczem do tego jest liczenie
+sufiks. Pokażemy teraz, jak ją znajdować w czasie liniowym i w pamięci stałej. Kluczem do tego jest liczenie
-czegoś więcej, dla każdego prefiksu liczymy maksymalny sufiks jak również dodatkowo jego okres. To właśnie
+czegoś więcej: dla każdego prefiksu liczymy maksymalny sufiks, jak również dodatkowo jego okres. To właśnie
-liczenie okresu daje efektywność, chociaż na końcu nam ten okres jest  niepotrzebny.
+liczenie okresu daje efektywność, chociaż na końcu ten okres nie jest nam potrzebny.
-Przekształcimy najpierw algorytm  ''Naiwne-Liczenie-Okresu'' na algorytm liczący długość najdłuższego
+Przekształcimy najpierw algorytm ''Naiwne-Liczenie-Okresu'' na algorytm liczący długość najdłuższego
 specjalnego prefiksu włącznie z jego okresem.
@@ Linia 202: / Linia 202: @@
 }}
-Możemy przepisać algorytm Maksymalny-Sufiks tak aby nie wywoływał on funkcji Najdłuższy-Specjalny-Prefiks, wpisując tę funkcję do algorytmu. Arytmetyczna funkcja  <math>\mod</math> może być usunięta i zastąpiona przez operacje dodawania i odejmowania bez zmiany asymptotycznej złożoności.
+Możemy przepisać algorytm Maksymalny-Sufiks tak, aby nie wywoływał on funkcji Najdłuższy-Specjalny-Prefiks, wpisując tę funkcję do algorytmu. Arytmetyczna funkcja  <math>\mod</math> może być usunięta i zastąpiona przez operacje dodawania i odejmowania bez zmiany asymptotycznej złożoności.
 Algorytm Maksymalny-Sufiks wykonuje co najwyżej <math>2.|x|</math> porównań symboli. Uzasadnienie pozostawiamy jako ćwiczenie.
@@ Linia 219: / Linia 219: @@
 == Kodowanie prefiksowe: drzewa i kody Huffmana ==
-Zbiór słów jest prefiksowy gdy żadne słowo nie jest prefiksem drugiego. Taki zbiór słów odpowiada drzewu,
+Zbiór słów jest prefiksowy, gdy żadne słowo nie jest prefiksem drugiego. Taki zbiór słów odpowiada drzewu,
-którego ścieżki etykietowane są symbolami, w przypadku binarnym możemy przyjąć, że krawędź w lewo jest
+którego ścieżki etykietowane są symbolami. W przypadku binarnym możemy przyjąć, że krawędź w lewo jest
 etykietowana zerem, a w prawo jedynką.
-Przez kodowanie rozumiemy funkcję <math>h</math> która każdemu symbolowi <math>s</math> przyporządkowuje niepusty ciąg binarny
+Przez kodowanie rozumiemy funkcję <math>h</math>, która każdemu symbolowi <math>s</math> przyporządkowuje niepusty ciąg binarny
-<math>h(s)</math>, całe słowo <math>x</math> zostanie zakodowane na słowo <math>h(x)</math> (każda litera jest zakodowana niezależnie i kody
+<math>h(s)</math>. Całe słowo <math>x</math> zostanie zakodowane na słowo <math>h(x)</math> (każda litera jest zakodowana niezależnie i kody
-są ''skonkatenowane''. Kod jest prefiksowy gdy zbiór kodów symboli jest prefiksowy. Rozważamy
+są ''skonkatenowane''). Kod jest prefiksowy gdy zbiór kodów symboli jest prefiksowy. Rozważamy
-następujący problem.
+następujący problem:
@@ Linia 249: / Linia 249: @@
 </center>
-Długość tekstu <math>h(x)</math> jest równa ważonej sumie długości ścieżek, ważoenj w tym sensie, że
+Długość tekstu <math>h(x)</math> jest równa ważonej sumie długości ścieżek, ważonej w tym sensie, że
 długość ścieżki do danego liścia jest przemnożona przez wagę tego liścia. W przykładzie jest to suma:
 <math>5 *1+2*2+1*4+1*4+2*3\ =\ 23</math>.
-Niech <math>n</math> będzie liczbą różnych symboli w <math>x</math>, <math>w[i]</math> będzie liczbą wystąpień <math>i</math>-tego symbolu. Problem możemy rozwiązać stosując algorytm dla problemu ''Optymalne Sklejanie Par'' dla ciągu <math>w[1],w[2],\ldots
+Niech <math>n</math> będzie liczbą różnych symboli w <math>x</math>, <math>w[i]</math> będzie liczbą wystąpień <math>i</math>-tego symbolu. Problem możemy rozwiązać, stosując algorytm dla problemu ''Optymalne Sklejanie Par'' dla ciągu <math>w[1],w[2],\ldots
-w[n])</math>. Musimy algorytm zmodyfikować tak, aby nie tylko sklejał pary ale również tworzył lokalnie drzewo.
+w[n])</math>. Musimy algorytm zmodyfikować tak, aby nie tylko sklejał pary, ale również tworzył lokalnie drzewo.
-Inaczej mówiąc algorytm w momencie sklejania elementów <math>a</math>, <math>b</math> w element <math>c</math> tworzy równieź dowiązania,
+Inaczej mówiąc, algorytm w momencie sklejania elementów <math>a</math>, <math>b</math> w element <math>c</math> tworzy również dowiązania,
-<math>a</math> staje się lewym synem <math>c</math>, natomiast  <math>b</math> staje się prawym synem.
+<math>a</math> staje się lewym synem <math>c</math>, natomiast <math>b</math> staje się prawym synem.
 {{algorytm| Huffmana (nieformalny opis)|algorytm_huffman_nieformalny|
@@ Linia 268: / Linia 268: @@
 }}
-Drzewo które algorytm generuje nazywamy drzewem Huffmana.
+Drzewo, które algorytm generuje, nazywamy drzewem Huffmana.
 Pozostawiamy jako ćwiczenie przerobienie algorytmu Optymalne-Sklejanie-Par na algorytm liczenia kodów i
 drzew Huffmana.
-Z analizy algorytmu ''Optymalne Sklejanie Par'' wynika, że problem optymalnych binarnych kodów prefiksowych można rozwiązać w czasie <math>O(n \log n)</math>, a jeśli wagi <math>w[i]</math> są posortowane to w czasie liniowym.
+Z analizy algorytmu ''Optymalne Sklejanie Par'' wynika, że problem optymalnych binarnych kodów prefiksowych można rozwiązać w czasie <math>O(n \log n)</math>, a jeśli wagi <math>w[i]</math> są posortowane, to w czasie liniowym.
 ===Kodowanie Huffmana słowami <math>k</math>-arnymi.===
@@ Linia 280: / Linia 280: @@
 ===Kodowanie prefiksowe z symbolami kodowymi nierównej długości===
-Problem robi się skomplikowany, gdy długość symbolu 0 jest 1 a długość symbolu 1 jest <math>c</math>, gdzie <math>c</math> jest pewną stała (jest to po
+Problem robi się skomplikowany, gdy długość symbolu 0 jest 1, a długość symbolu 1 jest <math>c</math>, gdzie <math>c</math> jest pewną stałą (jest to problem tzw. lopsided trees). Inaczej mówiąc, szukamy takiego optymalnego drzewa, w którym ważona suma
-angielsku problem tzw. lopsided trees). Inaczej mówiąc szukamy takiego optymalnego drzewa, że ważona suma
+ścieżek jest minimalna, ale długość krawędzi na lewo wynosi 1, a długość krawędzi na prawo wynosi <math>c</math>.
-ścieżek jest minimalna, ale długość krawędzi na lewo wynosi 1 a długość krawędzi na prawo wynosi <math>c</math>.
 Pozostawiamy jako ćwiczenie znalezienie efektywnego algorytmu dla małych <math>c</math> (<math>c=2</math> lub <math>c=3</math>). Dla dowolnego
 <math>c</math> (będącego częścią wejścia) i dowolnych wag jest to zbyt trudne, nie znamy algorytmu wielomianowego. Dla
-ustalonego c istnieje algorytm wielomianowy którego stopień zależy od c. Natomiast pozostawiamy jako
+ustalonego <math>c</math> istnieje algorytm wielomianowy, którego stopień zależy od <math>c</math>. Natomiast pozostawiamy jako
-ćwiczenie przypadek gdy <math>c</math> jest dowolne ale wszystkie wagi <math>w[i]</math> są równe.
+ćwiczenie przypadek, gdy <math>c</math> jest dowolne, ale wszystkie wagi <math>w[i]</math> są równe.
 === Kodowanie prefiksowe z kodami o ograniczonej długości===
 Innym ciekawym problemem jest
 też skonstruowanie optymalnego kodu prefiksowego, w którym wszystkie słowa kodowe są ograniczone przez pewną
-zadaną liczbę <math>L</math>. Inaczej mówiąc ograniczamy z góry wysokość drzewa Huffmana.  Istnieją wtedy algorytmy
+zadaną liczbę <math>L</math>. Inaczej mówiąc, ograniczamy z góry wysokość drzewa Huffmana. Istnieją wtedy algorytmy
 wielomianowe dla tego problemu, stopień wielomianu jest niezależny od <math>L</math>.

Zaawansowane algorytmy i struktury danych/Wykład 2: Różnice pomiędzy wersjami

Wersja z 12:53, 25 wrz 2006

Spis treści

String-matching w pamięci stałej dla specjalnych wzorów

String-matching w pamięci stałej dla dowolnych wzorców

Liczenie maksymalnego sufiksu w pamięci stałej

Kodowanie prefiksowe: drzewa i kody Huffmana

Optymalne kodowanie prefiksowe

Kodowanie Huffmana słowami $k$ -arnymi.

Kodowanie prefiksowe z symbolami kodowymi nierównej długości

Kodowanie prefiksowe z kodami o ograniczonej długości

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia

Zaawansowane algorytmy i struktury danych/Wykład 2: Różnice pomiędzy wersjami

Wersja z 12:53, 25 wrz 2006

String-matching w pamięci stałej dla specjalnych wzorów

String-matching w pamięci stałej dla dowolnych wzorców

Liczenie maksymalnego sufiksu w pamięci stałej

Kodowanie prefiksowe: drzewa i kody Huffmana

Optymalne kodowanie prefiksowe

Kodowanie Huffmana słowami k-arnymi.

Kodowanie prefiksowe z symbolami kodowymi nierównej długości

Kodowanie prefiksowe z kodami o ograniczonej długości

Menu nawigacyjne

Szukaj

Kodowanie Huffmana słowami $k$ -arnymi.