Pająk sieciowy dla Ubuntu


11

Szukam pająka internetowego dla Ubuntu, takiego jak Webripper - oprogramowanie Calluna . Możesz pobrać całą witrynę tak, jak możesz

wget -r -m example.com

ale funkcja, której szukam, polega na tym, że możesz wpisać wyszukiwane hasło, takie jak „Linux”, który przeszukuje Internet i pobiera je. Czy są takie programy na Ubuntu?

Odpowiedzi:


4

Możesz użyć Google Alerts, aby utworzyć rodzaj strony wyszukiwania dostarczanej do kanału, a następnie użyć czytnika RSS lub Thunderbirda, aby je odczytać.

Używam Thunderbirda do RSS. Nie wiem, czy są jakieś czytniki RSS, które mogłyby wyeksportować kanał do prostego HTML.



3

Możesz wypróbować program ripper http .

Oto niektóre funkcje zamieszczone na stronie:

Free Software (GPL 3)
Generic (works with almost every website)
Runs on GNU/Linux and Windows
Nearly undetectable / blockable by servers
Built with python and pygtk

http://29a.ch/httpripper/screenshots/2.png Zrzut ekranu

Obejrzyj samouczek od samego twórcy httpripper:

Link do pobrania:

Działa dla mnie pod Ubuntu 11.10 x64


-1

Istnieją odpowiednie moduły w CPAN Perla. Potrzebujesz tylko trochę skryptów w Perlu.

W szczególności spójrz na WWW: moduł Mechanize na WWW: moduł Mechanize .

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.