Jak zarchiwizować całą stronę internetową?

15

Aby zapisać jedną stronę za pomocą Wayback Machine , mogę przejść do:

http://web.archive.org/save/https://somewebsite.example.com/

Jak mogę archiwizować witrynę rekurencyjnie przez Wayback Machine ?

Jest taki projekt wayback-machine-downloader, ale szukam funkcji, która pozwoli mi na rekursywne ładowanie strony.

archive.org

— kenorb
źródło

12

Ponieważ Wayback Machine nie zapewnia takiej funkcji, znalazłem pewne obejście.

Najpierw wykonaj kopię lustrzaną witryny przy użyciu wgetnp
```
wget -m https://example.com/
```
Następnie użyj curldo zarchiwizowania wszystkich pobranych stron jeden po drugim.
```
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
```
^{Uwaga: Można zmieniać .htmlsię .php, czy to pewien rodzaj plików.}

— kenorb
źródło

Jeśli strona nie używa rozszerzeń (takich jak html lub php - jak SE jest skonfigurowany), jak dostosujesz swoje polecenie?

— db

2

Można zmienić -name "*.html", aby -type fobejmować wszystkie pliki.

— kenorb

Jak to działa z parametrami zapytania?

— Mithical

6

Jeśli chcesz zarchiwizować małą stronę internetową, zespół archiwów utrzymuje ArchiveBot , bot IRC, w którym możesz poprosić o indeksowanie stron internetowych. Zespół archiwum prześle następnie zaindeksowane strony do maszyny Wayback w archiwum internetowym.

— Strumień
źródło

Jest to niezwykle pomocne.

— Guy

1

Wayback Machine nie oferuje sposobu na przesłanie całej witryny, a jedynie pojedynczej strony, którą już znalazłeś. Jest to poruszone w kilku punktach ich często zadawanych pytań na temat Wayback Machine :

Czy mogę dodawać strony do Wayback Machine?

Na https://archive.org/web możesz użyć funkcji „Zapisz stronę teraz”, aby jednorazowo zapisać określoną stronę. To obecnie nie dodaje adresu URL do żadnych przyszłych indeksowań ani nie zapisuje więcej niż jednej strony. Nie zapisuje wielu stron, katalogów ani całych witryn .

i

Jak mogę włączyć moją witrynę do Wayback Machine?

Wiele z naszych zarchiwizowanych danych internetowych pochodzi z naszych własnych indeksowań lub z indeksowań Alexa Internet. Żadna organizacja nie ma „zaindeksuj teraz moją witrynę!” proces przesyłania . Przeszukiwania w Archiwum internetowym mają tendencję do znajdowania witryn, które są dobrze połączone z innymi witrynami. Najlepszym sposobem na znalezienie Twojej witryny jest upewnienie się, że znajduje się ona w katalogach online i że podobne / powiązane strony prowadzą do Ciebie.

— John C.
źródło

1

To nie jest odpowiedź na pytanie. Tylko dlatego, że nie ma oficjalnego sposobu, aby wykonać to zadanie, nie jest niemożliwe do wykonania. W rzeczywistości tworzenie skryptów, które rekurencyjnie dodają linki, powinno być dość łatwe.

— db

@db, odpowiedź kenorba wydaje się być tym, o co prosiłeś . Nawiasem mówiąc, ta odpowiedź jest bardziej przydatna w tej chwili, ponieważ właśnie chciałem, aby The WaybackMachine przechwycił teraz dla mnie jedną stronę.

— cp.engr

1

Ten artykuł na archive.org sugeruje również płatną usługę, która będzie indeksować dla Ciebie tak często, jak chcesz:

Zarejestruj konto Archive-It

Archiwum - jest to usługa subskrypcji świadczona przez Internet Archive, która pozwala na prowadzenie własnych projektów indeksowania bez wiedzy technicznej. Powiedz nam, co i jak często indeksować, a my wykonujemy indeksowanie i umieszczamy wyniki w Wayback Machine.

Prawdopodobnie nie o to ci chodzi, ale dla niektórych firm ta usługa może być przydatna. Zakładam, że pomaga to sfinansować archive.org, które w innym przypadku jest bezpłatne.

— kamieniarz
źródło