ZAWWW-2st1.2-w13.tresc-1.0-Slajd5

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Co nowego w sieci WWW?

Co nowego w sieci WWW?


Wiele osób postrzega sieć WWW jako gigantyczną, heterogeniczną bazę danych. Wydawać by się mogło, że można do niej zastosować tradycyjne metody eksploracji danych. W rzeczywistości jednak sieć WWW posiada pewne cechy, które uniemożliwiają proste przeniesienie metod eksploracji z baz danych i hurtowni danych do środowiska WWW. Przede wszystkim, w przeciwieństwie do tradycyjnych składnic danych, dokumenty w sieci WWW nie posiadają dobrze określonej struktury, lub posiadają tylko częściową strukturę (tzw. dane semistrukturalne). Wartościowe informacje są ukryte w dokumentach WWW zarówno w ich zawartości (najczęściej są to informacje tekstowe), jak i w strukturze połączeń między danym dokumentem a innymi dokumentami. Dodatkowo, zawartość wielu dokumentów jest dynamiczna i zmienia się w czasie. Ilość informacji o wykorzystaniu sieci WWW również stanowi istotny problem. Wg firmy Google, dzienniki wykorzystania są obszerniejsze niż indeks odwiedzonych stron WWW (!). W jednym z doniesień pracownicy firmy Google oceniali rozmiar dziennego przyrostu dzienników wykorzystania na porównywalny z rozmiarem sporej hurtowni danych. Z drugiej strony, informacje trafiające do dzienników wykorzystania są stosunkowo ubogie i nie zawierają dużo użytecznych danych. Wreszcie, czynnikiem znacznie utrudniającym prostą adaptację metod eksploracji danych do środowiska WWW jest częste wymaganie, aby algorytmy eksploracji sieci WWW działały w trybie online, bez nadzoru i bez udziału czynnika ludzkiego. Dobrym przykładem takich algorytmów są algorytmy alokacji reklam do wyświetlanych stron.


<< Poprzedni slajd | Spis treści | Następny slajd >>