Muszę zgrać witrynę przez HTTP. Muszę pobrać obrazy, HTML, CSS i JavaScript, a także uporządkować je w systemie plików.
Czy ktoś wie jak to zrobić?
Muszę zgrać witrynę przez HTTP. Muszę pobrać obrazy, HTML, CSS i JavaScript, a także uporządkować je w systemie plików.
Czy ktoś wie jak to zrobić?
Odpowiedzi:
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com
To działa w konsoli.
spowoduje to złapanie witryny, odczekanie 3 sekund między żądaniami, ograniczenie szybkości pobierania, aby witryna nie została zabita, i zamaskowanie się w sposób, który sprawia, że wygląda ona tylko na przeglądarkę, dzięki czemu strona Cię nie odcina za pomocą mechanizmu przeciw pijawce.
Zwróć uwagę na -A
parametr wskazujący listę typów plików, które chcesz pobrać.
Możesz także użyć innego znacznika, -D domain1.com,domain2.com
aby wskazać serię domen, które chcesz pobrać, jeśli mają one inny serwer lub cokolwiek innego do przechowywania różnego rodzaju plików. Nie ma bezpiecznego sposobu na zautomatyzowanie tego we wszystkich przypadkach, jeśli nie otrzymasz plików.
wget
jest powszechnie instalowany w systemie Linux, ale można go w prosty sposób skompilować dla innych systemów uniksowych lub łatwo pobrać dla systemu Windows: GNUwin32 WGET
Używaj tego dla dobra, a nie zła.
Dobre, bezpłatne rozwiązanie: HTTrack
HTTrack jest darmowym (GPL, darmowym / darmowym oprogramowaniem) i łatwym w użyciu narzędziem do przeglądania offline.
Umożliwia pobranie witryny sieci Web z Internetu do lokalnego katalogu, rekurencyjne budowanie wszystkich katalogów, pobieranie HTML, obrazów i innych plików z serwera na komputer. HTTrack porządkuje względną strukturę linków oryginalnej strony. Wystarczy otworzyć stronę „lustrzanej” strony w przeglądarce i możesz przeglądać stronę od linku do linku, tak jakbyś oglądał ją online. HTTrack może również aktualizować istniejącą stronę lustrzaną i wznawiać przerwane pobieranie. HTTrack jest w pełni konfigurowalny i ma zintegrowany system pomocy.
W systemach Linux „wget” robi to właściwie.
Został również przeniesiony na kilka innych platform, jak wspomniano w kilku innych odpowiedziach.
Oczywiście WGet został wspomniany kilka razy. Najlepszy interfejs użytkownika, jaki znalazłem, to
Istnieje kilka innych interfejsów użytkownika dla WG. Niektóre z nich są kandydatami na najgorsze pytanie dotyczące interfejsu użytkownika
Musisz użyć wget - który jest dostępny na większość platform. curl nie zażąda rekurencyjnie dokumentów, co jest jedną z głównych zalet wget.
Linux: (zwykle dołączony do dystrybucji) http://www.gnu.org/software/wget/
Windows: http://gnuwin32.sourceforge.net/packages/wget.htm
Mac: http: //www.geekology. co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/
PROSZĘ upewnić się, że nie hamujesz witryny - ustaw odpowiednie opóźnienia między żądaniami i upewnij się, że jest to zgodne z warunkami korzystania z witryny.
-Adam
Właściwie, śledząc mój komentarz w poście GWLlosy, przypomniałem sobie, że mam zainstalowany GnuWin32 i na pewno zawiera on port wget dla systemu Windows.
http://sourceforge.net/projects/gnuwin32/
GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP
Użyłem tego kilka lat temu i działało dobrze. Tylko Windows. Kiedyś był oprogramowaniem reklamowym, ale już nie:
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
-p
: parametr mówi wgetowi, aby uwzględnił wszystkie pliki, w tym obrazy.-e robots=off
: ignoruj reguły robots.txt witryn-U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)"
: ciąg agenta użytkownika--random-wait
: unikaj umieszczania na czarnej liście--limit-rate=20k
: ogranicza szybkość pobierania plików.-b
: kontynuuje wget po wylogowaniu.
-c
(lub --continue
), gdy coś pójdzie nie tak i muszę ponownie uruchomić proces.
Myślę, że grabber strony IDM jest najlepszym rozwiązaniem, jest też Teleport pro
Darmowy menedżer pobierania może również pobierać kompletne strony internetowe.
Tylko Windows myślę.