Odpowiedzi:
Zgodnie z informacjami o robotach Dostęp do naszych stron :
Dostęp robota do naszej witryny powinien pozostać ostatnim zasobem, gdy wszystko inne zawiedzie. Pamiętaj również, że strona internetowa projektu Gutenberg jest chroniona prawem autorskim.
Istnieje jednak nadzieja :
Lepsze alternatywy
- Pobierz wersję offline witryny internetowej Project Gutenberg.
- Pobierz wszystkie pliki ebook projektu Gutenberg.
- Uzyskaj dane katalogu projektu Gutenberg.
I:
[...] Możesz pobrać wszystkie nasze eBooki w spakowanych plikach, kierując robota na stronę http://www.gutenberg.org/robot/harvest
[...] Rozpakowanie plików zip da kolejne 70 000 plików.
To jest przykład, jak uzyskać wszystkie pliki za pomocą
wget
:wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...] Jeśli chcesz tylko niektóre typy plików, powiedz:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...] Jeśli chcesz tylko pliki w danym języku, powiedz:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
Więc zapytałbym:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en
--level=0
. Ale myślę, że lepiej pozwolić na przerwanie i ponowne uruchomienie: spróbuj --level 9999 --no-clobber
, co pominie pliki, które już masz (zakładając, że nadal jesteś w tym samym folderze na dysku).
--input-file
instrukcja .
-c
opcji, ale nadal. Podałem offset=xxx
adres URL, który ma być dublowany, ale nadal jest pobierany z pierwszej strony.
Możesz pobrać całą kolekcję książek angielskich i innych języków Gutenberga w jednym pliku ZIM, który jest bardzo skompresowany, a następnie można go otworzyć za pomocą Kiwix zarówno na komputerze, jak i na Androidzie. Angielskie książki mają 40 GB.
Chociaż wybrana odpowiedź jest poprawna, potencjalnie spowoduje dwa problemy:
wget
polecenie zakończy się niepowodzeniem, to rekursywne kontrole pobierania plików z zewnętrznego lustra.Poniższe rozwiązanie rozwiązuje te problemy:
wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"
Możesz zmienić ciąg znaków strony odsyłającej i klienta użytkownika, aby zapewnić odrobinę losowości.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso ma kilka dobrych opcji.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso to plik o pojemności 8 GB, który powinien wystarczyć dla Twoich potrzeb.
Więcej informacji tutaj:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , daje wszystkie opcje pobierania archiwum, w tym FTP i BitTorrent.
Inną opcją jest świetne narzędzie na http://pgiso.pglaf.org/ .
Dlaczego nie wykorzystać wszystkich nadmiernie skomplikowanych i pokazanych powyżej umiejętności programowania i wiedzy, aby utworzyć prosty przycisk, który łączy wszystkie te działania i mówi „Pobierz wszystkie aktualne książki” - z zakładką opcji językowej po kliknięciu.
Jestem pewien, że większość użytkowników, którzy odwiedzają tę stronę, to kolekcjonerzy e-booków, a ręczne pobieranie niektórych książek na interesujące ich tematy jest w porządku dla 1 lub 2 książek. Ale ręczne tworzenie większej kolekcji jest męczące. Niemniej jednak, jeśli potrzebują tego do badań lub po prostu chcieliby posiadać ogromną cyfrową bibliotekę książek na własnym komputerze. Większość ludzi jest wyłączona i rozprasza się z dala od strony, gdy zdają sobie sprawę, że musi to być Kreator komputerowy, aby to zrobić. Tak więc przycisk „Pobierz wszystkie bieżące książki” przyniósłby korzyść stronie projektu i jej użytkownikom, a na pewno stworzy jeszcze więcej osób odwiedzających witrynę. W ten sposób wszyscy są szczęśliwi.