Selektywne ściąganie stron www.

13 06 2007

Download manager wget poza ściąganiem pojedynczych plików, umie zając się ściąganiem całych witryn internetowych, by móc surfować offline:

wget -r www.stronadościągnięcia.pl

Operacja -r nakazuje wget śledzenie linku/adresu, czyli jej ściągnięcie wraz ze wszystkimi stronami powiązanymi z home. Komenda ta jest użyteczna, ale… używając takiego sposobu ryzykujemy ściągnięciem wielu bezużytecznych plików. Aby pozbyć się tego problemu możemy określić co wget ma ściągnąć jak również poziom „głębokości”

wget -Sr -l1-p /home/użytkownik www.stronadościągnięcia.pl

W tym przypadku strona zostanie ściągnięta do katalogu domowego (opcja -p), -S zapamiętuje wszystkie pełne informacje i z -r -l1 nakazujemy wget użycie poziomu głębokości równą 1.
Możemy tak modyfikować polecenie aż do wydania komendy ściągnięcia jedynie strony głównej, rezygnując w ten sposób ze ściągania linków, banerów lub łączy zewnętrznych i temu podobnych, a nawet ograniczyć, do konkretnego rozmiaru wielkość ściąganego pliku, zabezpieczając się w ten sposób przed zapełnieniem partycji nieużytecznymi plikami.

wget -Sr -l1 -R”*.cgi”-Q28m -D nazwastrony.pl,ubuntu.pl+

Użycie tego polecenia spowoduje ściągnięcie 28Mbyte ze strony nazwastrony.pl i powiązania między tą strona a ubuntu.pl Opcja -R wskazuje wszystkie typy plików, z których chcemy zrezygnować, które nie będą pobrane (w tym przypadku te, typu *.cgi).
Modyfikując plik /usr/locale/etc/wgetrc lub .wgetrc znajdujący się w katalogu domowym każdego użytkownika, możemy zmienić główne ustawienia programu i tym samym spowodować, że niektóre ustawienia np te, których użyliśmy powyżej, nie będą musiały być wpisywane za każdym razem. W praktyce, wygląda to tak, że modyfikujemy defaultowe zachowanie sie wget.