Chcę pobrać całą stronę internetową (z podstronami). Czy jest na to jakieś narzędzie?
--convert-links
wget) nie ujawnią witryn, które są ujawniane tylko poprzez przesłanie formularza, między innymi.
Chcę pobrać całą stronę internetową (z podstronami). Czy jest na to jakieś narzędzie?
--convert-links
wget) nie ujawnią witryn, które są ujawniane tylko poprzez przesłanie formularza, między innymi.
Odpowiedzi:
Wypróbuj przykład 10 stąd :
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
–mirror
: włącz opcje odpowiednie dla kopii lustrzanej.
-p
: pobierz wszystkie pliki niezbędne do prawidłowego wyświetlenia danej strony HTML.
--convert-links
: po pobraniu przekonwertuj łącza w dokumencie do lokalnego przeglądania.
-P ./LOCAL-DIR
: zapisz wszystkie pliki i katalogi w określonym katalogu.--wait=seconds
argumentu, jeśli chcesz być bardziej przyjazny dla strony; odczeka określoną liczbę sekund między pobraniem.
Ponieważ wget
możesz pobrać całą witrynę, użyj -r
przełącznika do pobierania rekurencyjnego . Na przykład,
wget -r http://www.google.com
WEBHTTRACK WEBSITE COPIER to przydatne narzędzie do pobierania całej witryny na dysk twardy w celu przeglądania w trybie offline. Uruchom centrum oprogramowania Ubuntu i wpisz „webhttrack website copier” bez cudzysłowów w polu wyszukiwania. wybierz i pobierz go z centrum oprogramowania na swój system. uruchom webHTTrack z menu Laucher lub Start, z którego możesz zacząć korzystać z tego wspaniałego narzędzia do pobierania witryny
Nie wiem o subdomenach, tj. Podstronach, ale wget może być użyty do pobrania kompletnej strony. Spójrz na pytanie tego superużytkownika . Mówi, że można użyć -D domain1.com,domain2.com
do pobrania różnych domen w pojedynczym skrypcie. Myślę, że możesz użyć tej opcji do pobrania subdomen, tj-D site1.somesite.com,site2.somesite.com
Używam Burp - narzędzie pająka jest znacznie bardziej inteligentne niż wget i można je skonfigurować tak, aby w razie potrzeby unikało sekcji. Sam pakiet Burp to potężny zestaw narzędzi pomocnych w testowaniu, ale narzędzie pająka jest bardzo skuteczne.
Możesz pobrać całe polecenie witryny:
wget -r -l 0 website
Przykład:
wget -r -l 0 http://google.com
Jeśli problemem jest szybkość (a nie dobre samopoczucie serwera), możesz wypróbować puf , który działa jak wget, ale może pobierać kilka stron równolegle. Nie jest to jednak produkt gotowy, nieobsługiwany i strasznie nieudokumentowany. Mimo to, aby pobrać stronę internetową z dużą ilością małych plików, może to być dobra opcja.