Próbuję dublować blog, np . Za www.example.com
pomocą wget
.
Używam wget z następującymi opcjami (zmienne powłoki są poprawnie podstawiane):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
Blog zawiera obrazy znajdujące się w innych domenach.
Mimo że podałem -p
opcję (pobierz połączone strony zasobów), obrazy te nie są pobierane, chyba że wyraźnie zaznaczę każdą domenę w -D
opcji.
Jeśli pominę tę -D
opcję, wget będzie podążał za każdym linkiem na zewnątrz www.example.com
i pobierał cały internet.
Czy można wget
podążać za każdym linkiem poniżej www.example.com
i pobierać wymagane zasoby każdej strony, niezależnie od tego, czy znajdują się one w tej samej domenie, czy też nie, bez konieczności wyraźnego określania każdej domeny?
-D $domains
jak i -H
. Bez -H
niego powinien pozostać w domenie, ale nadal pobierać bezpośrednie zasoby strony, nawet jeśli znajdują się w innej domenie.
wget -N -E -H -k -K -p
pierwszym i wymyśliłem skrypt, aby pobrać brakujące połączone obrazy.