Jak pobrać stronę internetową z archive.org Wayback Machine?


83

Chcę uzyskać wszystkie pliki dla danej witryny w Archive.org. Przyczyny mogą obejmować:

  • oryginalny autor nie zarchiwizował własnej strony internetowej i jest teraz offline, chcę z niej zrobić publiczną pamięć podręczną
  • Jestem oryginalnym autorem niektórych stron i straciłem trochę treści. Chcę to odzyskać
  • ...

W jaki sposób mogę to zrobić ?

Biorąc pod uwagę, że maszyna wayback archive.org jest bardzo wyjątkowa: linki do stron internetowych nie wskazują samego archiwum, ale strony internetowej, której już nie ma. JavaScript jest używany po stronie klienta do aktualizacji linków, ale sztuczka taka jak rekursywny wget nie działa.


14
Natknąłem się na ten sam problem i kodowałem klejnot. Aby zainstalować: gem install wayback_machine_downloader. Uruchom wayback_machine_downloader z podstawowym adresem URL strony, którą chcesz pobrać jako parametr: wayback_machine_downloader http://example.comWięcej informacji: github.com/hartator/wayback_machine_downloader
Hartator

3
Pomoc krok po kroku dla użytkowników systemu Windows (dla mnie win8.1 64bit) dla Ruby, oto co zrobiłem, aby działało : 1) Zainstalowałem rubyinstaller.org/downloads, a następnie uruchomiłem „rubyinstaller-2.2.3-x64 .exe "2) pobrał plik zip github.com/hartator/wayback-machine-downloader/archive/... 3) rozpakuj zip na moim komputerze 4) wyszukaj w menu Start systemu Windows polecenie„ Uruchom wiersz polecenia za pomocą Ruby ”(do ciąg dalszy)
Erb

3
5) postępuj zgodnie z instrukcjami github.com/hartator/wayback_machine_downloader (e; .g: skopiuj wklej ten "gem install wayback_machine_downloader" do monitu. Naciśnij Enter, a program zainstaluje ... a następnie postępuj zgodnie ze wskazówkami "Użycie"). 6) po przechwyceniu witryny znajdziesz pliki w folderze C: \ Users \ YOURusername \ sites
Erb

Odpowiedzi:


63

Próbowałem różnych sposobów, aby pobrać witrynę i wreszcie znalazłem narzędzie do pobierania maszyny powrotnej - o którym wspomniał wcześniej Hartator (więc proszę, wszystkie kredyty należą się do niego), ale po prostu nie zauważyłem jego komentarza do pytania. Aby zaoszczędzić Twój czas, postanowiłem dodać klejnot wayback_machine_downloader jako osobną odpowiedź tutaj.

Witryna http://www.archiveteam.org/index.php?title=Restoring zawiera listę tych sposobów pobierania z archive.org:

  • Wayback Machine Downloader , małe narzędzie w Ruby do pobierania dowolnej strony z Wayback Machine. Darmowe i open source. Mój wybór!
  • Warrick - Strona główna wydaje się nie działać.
  • Wayback downloader , usługa, która pobierze twoją witrynę z Wayback Machine, a nawet doda wtyczkę do Wordpress. Nie darmowy.

napisałem również „wayback downloader”, w php, pobieranie zasobów, dostosowywanie linków itp .: gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik

@ComicSans, na stronie, którą podlinkowałeś, czym jest gra Zespół archiwizujący ?
Pacerier

1
Październik 2018, Wayback Machine Downloader nadal działa.
Ten Brazylijczyk

@Pacerier oznacza (zestawy) plików WARC produkowanych przez zespół archiwizujący (i zwykle dostarczanych do maszyny archiwizującej Internet Archive), patrz archive.org/details/archiveteam
Nemo

12

Można to zrobić za pomocą skryptu powłoki bash w połączeniu zwget .

Chodzi o to, aby skorzystać z niektórych funkcji adresu URL maszyny do powrotu:

  • http://web.archive.org/web/*/http://domain/*wyświetli listę wszystkich zapisanych stron z http://domain/rekurencyjnie. Można go użyć do utworzenia indeksu stron do pobrania i uniknięcia heurystyki w celu wykrycia linków na stronach internetowych. Dla każdego linku jest także data pierwszej wersji i ostatniej wersji.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pagewyświetli wszystkie wersje z http://domain/pageroku RRRR. Na tej stronie można znaleźć konkretne linki do wersji (z dokładnym znacznikiem czasu)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pagezwróci niezmodyfikowaną stronę http://domain/pageo podanym znaczniku czasu. Zwróć uwagę na token id_ .

To są podstawy do zbudowania skryptu do pobierania wszystkiego z danej domeny.


7
Naprawdę powinieneś używać interfejsu API zamiast archive.org/help/wayback_api.php Strony pomocy Wikipedii są dla redaktorów, a nie dla ogółu społeczeństwa. Ta strona koncentruje się na interfejsie graficznym, który jest zarówno zastąpiony, jak i nieodpowiedni do tego zadania.
Nemo,

Prawdopodobnie łatwiej byłoby po prostu powiedzieć, że weź adres URL (jak http://web.archive.org/web/19981202230410/http://www.google.com/) i dodaj id_na końcu „numerów dat”. Wtedy dostaniesz coś takiego http://web.archive.org/web/19981202230410id_/http://www.google.com/.
haykam

1
Skrypt Pythona można również znaleźć tutaj: gist.github.com/ingamedeo/…
Amedeo Baragiola

4

Istnieje narzędzie zaprojektowane specjalnie do tego celu, Warrick: https://code.google.com/p/warrick/

Opiera się na protokole Memento.


3
O ile udało mi się tego użyć (w maju 2017 r.), To po prostu odzyskuje to, co posiada archive.is, i prawie ignoruje to, co jest na archive.org; próbuje również uzyskać dokumenty i obrazy z pamięci podręcznej Google / Yahoo, ale całkowicie się nie udaje. Warrick został kilkakrotnie sklonowany na GitHub od czasu zamknięcia Google Code, być może są tam jakieś lepsze wersje.
Gwyneth Llewelyn

0

Możesz to zrobić z łatwością wget.

wget -rc --accept-regex '.*ROOT.*' START

Gdzie ROOTjest główny adres URL witryny i STARTpoczątkowy adres URL. Na przykład:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Pamiętaj, że należy pominąć ramkę zawijania archiwum internetowego dla STARTadresu URL. W większości przeglądarek możesz kliknąć stronę prawym przyciskiem myszy i wybrać „Pokaż tylko tę ramkę”.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.