ZAWWW-2st1.2-w13.tresc-1.0-Slajd12
Wyszukiwanie – zagadnienia
Przeszukiwanie sieci WWW nastręcza wiele problemów. Podstawowy problem, ściśle związany z "netykietą", to generowanie dodatkowego obciążenia odwiedzanych serwerów. Zakłada się, że automatyczny pająk nie powinien nadmiernie obciążać obcych serwerów i zaleca się, aby programistycznie odciążać obce serwery, np. przez opóźnianie kolejnych żądań do danego serwera. Dodatkowo, dobrym zwyczajem jest akceptowanie dyrektyw umieszczonych w pliku robots.txt. Jest to prosty plik tekstowy implementujący protokół Robots Exclusion Protocol i zawierający informację o tym, czy i które części serwera WWW są dostępne dla automatycznych pająków. Alternatywą dla stosowania pliku robots.txt jest wykorzystanie znacznika <meta> z atrybutami name='robots' i contents="nofollow|noindex". Ponieważ fizycznie nie jest możliwe przejrzenie całej sieci WWW, automatyczny pająk musi zdecydować, które fragmenty sieci należy indeksować. Jak już wcześniej wspomniano, bardzo duża część dokumentów WWW to duplikaty występujące w identycznej postaci w wielu różnych miejscach sieci (np. serwery lustrzane, tzw. mirrory). Rozpoznawanie takich dokumentów jest zadaniem trudnym i kosztownym. Jeszcze inna trudność wiąże się z koniecznością okresowego odświeżania informacji zebranych podczas pracy pająka. Dla poszczególnych serwerów należy ustalić częstotliwość odświeżania, a ta z kolei zależy od tempa zmian zachodzących w dokumentach źródłowych.