Jak mogę pobrać całą stronę internetową?


81

Chcę pobrać całą stronę internetową (z podstronami). Czy jest na to jakieś narzędzie?


1
co dokładnie próbujesz osiągnąć? tytuł i treść pytania nie są powiązane, a treść nie jest szczegółowa.
RolandiXor

Uwaga: tylko następujące linki (np. Użycie --convert-linkswget) nie ujawnią witryn, które są ujawniane tylko poprzez przesłanie formularza, między innymi.
Steven

Odpowiedzi:


140

Wypróbuj przykład 10 stąd :

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror : włącz opcje odpowiednie dla kopii lustrzanej.

  • -p : pobierz wszystkie pliki niezbędne do prawidłowego wyświetlenia danej strony HTML.

  • --convert-links : po pobraniu przekonwertuj łącza w dokumencie do lokalnego przeglądania.

  • -P ./LOCAL-DIR : zapisz wszystkie pliki i katalogi w określonym katalogu.

czy jest jakiś sposób, aby pobrać tylko niektóre strony (na przykład kilka części artykułów rozłożonych na kilka dokumentów HTML)?
don.joey

@Prywatne Tak, chociaż prawdopodobnie łatwiej jest użyć Pythona lub czegoś, aby uzyskać strony (w zależności od układu / adresu URL). Jeśli URL stron różni się stale rosnącą liczbą lub masz listę stron, prawdopodobnie możesz użyć wget w skrypcie bash.
Vreality

2
Możesz rozważyć użycie --wait=secondsargumentu, jeśli chcesz być bardziej przyjazny dla strony; odczeka określoną liczbę sekund między pobraniem.
belacqua

powyższe działa, ale dla joomla sparametryzowany adres URL tworzy pliki, które nie są połączone lokalnie. Ten, który zadziałał dla mnie, to wget -m -k -K -E twoja_domena.com stąd: vaasa.hacklab.fi/2013/11/28/…
M.Hefny

1
Również, --no-parentaby „nigdy nie wchodzić do katalogu nadrzędnego” pobranego stąd .
Daniel

38

HTTrack dla systemu Linux kopiuje strony internetowe w trybie offline

httrack to narzędzie, którego szukasz.

HTTrack umożliwia pobieranie witryny sieci Web z Internetu do lokalnego katalogu, rekurencyjne budowanie wszystkich katalogów, pobieranie HTML, obrazów i innych plików z serwera na komputer. HTTrack porządkuje względną strukturę linków oryginalnej strony.


7

Ponieważ wgetmożesz pobrać całą witrynę, użyj -rprzełącznika do pobierania rekurencyjnego . Na przykład,

wget -r http://www.google.com

6

WEBHTTRACK WEBSITE COPIER to przydatne narzędzie do pobierania całej witryny na dysk twardy w celu przeglądania w trybie offline. Uruchom centrum oprogramowania Ubuntu i wpisz „webhttrack website copier” bez cudzysłowów w polu wyszukiwania. wybierz i pobierz go z centrum oprogramowania na swój system. uruchom webHTTrack z menu Laucher lub Start, z którego możesz zacząć korzystać z tego wspaniałego narzędzia do pobierania witryny


3

Nie wiem o subdomenach, tj. Podstronach, ale wget może być użyty do pobrania kompletnej strony. Spójrz na pytanie tego superużytkownika . Mówi, że można użyć -D domain1.com,domain2.comdo pobrania różnych domen w pojedynczym skrypcie. Myślę, że możesz użyć tej opcji do pobrania subdomen, tj-D site1.somesite.com,site2.somesite.com


1

Używam Burp - narzędzie pająka jest znacznie bardziej inteligentne niż wget i można je skonfigurować tak, aby w razie potrzeby unikało sekcji. Sam pakiet Burp to potężny zestaw narzędzi pomocnych w testowaniu, ale narzędzie pająka jest bardzo skuteczne.


1
Czy nie jest tylko Burp Windows? Umowa licencyjna o zamkniętym źródle dla Burp jest również dość trudna. Nie wspominając już o cenie 299,00 $:
Kat Amsterdam

z licencji: OSTRZEŻENIE: BEZPŁATNA EDYCJA APLIKACJI BURP JEST PRZEZNACZONA DO BADANIA USTEREK BEZPIECZEŃSTWA I MOŻE USZKODZIĆ SYSTEMY DOCELOWE ZE WZGLĘDU NA NATURĘ JEGO FUNKCJONALNOŚCI. TESTOWANIE USTEREK BEZPIECZEŃSTWA NIEZWŁOCZNIE ZAANGAŻUJE SIĘ W CELE NIESTANDARDOWYCH, KTÓRE MOGĄ SPOWODOWAĆ PROBLEMY W NIEKTÓRYCH WRAŻLIWYCH CELACH. NALEŻY ODPOWIEDZIEĆ UWAGĘ PODCZAS KORZYSTANIA Z OPROGRAMOWANIA, NALEŻY PRZECZYTAĆ WSZYSTKĄ DOKUMENTACJĘ PRZED UŻYCIEM, NALEŻY PRZED ROZPOCZĘCIEM KOPIOWAĆ SYSTEMY DOCELOWE. .
Kat Amsterdam,

Za to, co robi, cena jest niesamowicie tania - polecam kupienie go do szerokiego zakresu testów bezpieczeństwa. I bardzo łatwo go skonfigurować, aby testował dokładnie tak, jak chcesz - w niektórych przypadkach bezpieczniejszy niż AppScan :-)
Rory Alsop

1
@KatAmsterdam Jeśli chodzi o pytanie dotyczące zgodności: Według Wikipedii Burp Suite jest aplikacją Java, więc powinna działać poprawnie na Ubuntu.
Eliah Kagan

Kat - działa dobrze na różnych odmianach Linuksa. Ostrzeżenie na licencji jest takie samo, jak każde narzędzie, którego można użyć do oceny bezpieczeństwa.
Rory Alsop

1

Możesz pobrać całe polecenie witryny:

wget -r -l 0 website

Przykład:

wget -r -l 0 http://google.com

Czy możesz wyjaśnić, jak działa to polecenie? Co to robi?
Kaz Wolfe

0

Jeśli problemem jest szybkość (a nie dobre samopoczucie serwera), możesz wypróbować puf , który działa jak wget, ale może pobierać kilka stron równolegle. Nie jest to jednak produkt gotowy, nieobsługiwany i strasznie nieudokumentowany. Mimo to, aby pobrać stronę internetową z dużą ilością małych plików, może to być dobra opcja.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.