ZAWWW-2st1.2-w13.tresc-1.0-Slajd14

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Eksploracja zawartości

Eksploracja zawartości


Większość zawartości dokumentów WWW do zawartość tekstowa z pewnymi elementami struktury. Część dokumentów WWW charakteryzuje się dobrze określoną strukturą (dotyczy to przede wszystkim dokumentów XML wykorzystujących DTD lub XMLSchema), natomiast dokumenty HTML zazwyczaj posiadają śladową strukturę (np. wyróżniony tytuł i autor dokumentu, nagłówki, paragrafy). Stąd metody eksploracji zawartości dokumentów WWW są najczęściej adaptacją tradycyjnych metod eksploracji tekstu, wzbogaconych o możliwość wykorzystania informacji o elementach struktury dokumentu. Przykładami takich metod są metody analizy skupień (ang. clustering) dokumentów w celu znalezienia grup dokumentów podobnych, lub metody automatycznej klasyfikacji dokumentów WWW. W obu przypadkach zachodzi konieczność opracowania nowych miar podobieństwa między dokumentami tekstowymi. Oryginalnym kierunkiem badań w zakresie eksploracji zawartości jest kwestia deklaratywnego wyszukiwania interesujących stron WWW. W ramach prowadzonych badań zaproponowano wiele języków wyszukiwania, najczęściej wzorowanych na języku SQL. Spośród wielu propozycji warto wymienić WebSQL i WebOQL (opracowane na Uniwersytecie Toronto), WebML (wzorowany na języku UML język modelowania zawartości dokumentów WWW), czy W3QL (język rozwijany przez Israel Institute of Technology).


<< Poprzedni slajd | Spis treści | Następny slajd >>