Pytania otagowane jako web-crawler

5
Konwertuj strony internetowe do jednego pliku na ebooka
Chcę pobrać HTML (przykład: http://www.brpreiss.com/books/opus6/ ) i dołączyć go do jednego HTML lub innego formatu, którego mogę używać w czytniku ebooków. Witryny z bezpłatnymi książkami nie mają standardowego stronicowania, nie są blogami ani forami, więc nie wiem, jak wykonać automatyczne indeksowanie i scalanie.


2
Jak czołgać się za pomocą wget, aby pobierać TYLKO pliki HTML (ignoruj ​​obrazy, css, js)
Zasadniczo chcę zaindeksować całą witrynę za pomocą Wget, ale potrzebuję tego, aby NIGDY nie pobierać innych zasobów (np. Zdjęć, CSS, JS itp.). Chcę tylko pliki HTML. Wyszukiwania w Google są całkowicie bezużyteczne. Oto polecenie, które próbowałem: wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) …
14 wget  web-crawler 

4
Używanie Wget do rekurencyjnego indeksowania witryny i pobierania obrazów
W jaki sposób instruujesz wget, aby rekurencyjnie indeksował witrynę i pobierał tylko określone typy obrazów? Próbowałem tego użyć do indeksowania witryny i pobierania tylko obrazów JPEG: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html Jednak pomimo tego, że page1.html zawiera setki linków do podstron, które same mają bezpośrednie linki do …

4
Jak „legalne” jest przeglądanie stron przy użyciu cURL? [Zamknięte]
W obecnej formie to pytanie nie pasuje do naszego formatu pytań i odpowiedzi. Oczekujemy, że odpowiedzi poparte będą faktami, referencjami lub wiedzą fachową, ale to pytanie prawdopodobnie będzie wymagało debaty, argumentów, ankiet lub rozszerzonej dyskusji. Jeśli uważasz, że to pytanie można poprawić i ewentualnie ponownie otworzyć, odwiedź centrum pomocy w …

1
Poszukuję pająka / programu do pobierania, który może wykorzystywać istniejące pliki cookie przeglądarki i może przetwarzać Javascript [zamknięty]
Szukam programu do spideringu strony internetowej * i pobrania zawartości na dysk. Mam jednak następujące wymagania, które wydają się wyzwalać programy, które próbowałem: Proces logowania do witryny jest rozłożony na wiele stron, więc muszę mieć możliwość ręcznego rozpoczęcia sesji za pomocą przeglądarki internetowej, uwierzytelnienia, a następnie uruchomienia pająka i umożliwienia …


1
Odbicie lustrzane strony internetowej ze stronami korzystającymi z prostego JavaScript [duplikat]
To pytanie ma już odpowiedź tutaj: W jaki sposób używasz WGET do tworzenia kopii lustrzanej poziomu strony 1, odzyskując zasoby JS, CSS, w tym obrazy CSS? 5 odpowiedzi Istnieją proste i świetne narzędzia do pobierania stron internetowych, które pozwalają stworzyć lokalne lustro prostych stron bez infrastruktury JavaScript. Czasami jednak zdarza …

5
Robot indeksujący / pająk, aby uzyskać mapę witryny [zamknięty]
Muszę pobrać całą mapę witryny w formacie takim jak: http://example.org/ http://example.org/product/ http://example.org/service/ http://example.org/about/ http://example.org/product/viewproduct/ Potrzebuję go opartego na linkach (bez pliku lub dir brute-force), takiego jak: parsuj stronę główną -> pobierz wszystkie linki -> przeglądaj je -> pobierz linki, ... Potrzebuję też możliwości wykrycia, czy strona jest „szablonem”, aby nie …

1
Wymień wszystkie linki jednej strony na innej stronie [zamknięte]
Istnieją dwie strony internetowe. 1) www.aa.com 2) www.bb.com Obecnie istnieje wiele linków do aa.com i jej stron internetowych na bb.com lubić aa.com/blhahhaa.html aa.com/beautifulday.html aa.com więc chcę się dowiedzieć tej listy. Czy jest do tego dostępny jakiś skrypt lub narzędzie? jakikolwiek pomysł, jak stworzyć takie narzędzie? To jest coś, co google …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.