zdobądź każdą stronę pod stroną internetową


0

Potrzebuję programu, aby uzyskać wszystkie strony pod stroną internetową. Strona jest chińska, chcę wydobyć wszystkie angielskie słowa. Następnie mogę wyodrębnić wszystkie potrzebne informacje. Jakieś pomysły na to? Czy istnieje jakieś oprogramowanie do tego celu?

Jeśli NIE, chciałbym napisać jeden. Jakieś sugestie?

Dzięki wielkie.



spidersoft.com, jeśli nie jest dostępny wget
DFectuoso

Odpowiedzi:


10

Użyj np. wget -r http://site.to.copy.comDo rekurencyjnego pobierania wszystkich stron internetowych na komputer lokalny (mam nadzieję, że nie jest zbyt duży ...), a następnie możesz wyszukać lub zrobić cokolwiek z plikami.


Co chciałem zasugerować. Po co zawracać sobie głowę budowaniem kolejnej pułapki na myszy?
Carl Smotricz

2
Możesz również rozważyć użycie flagi „--convert-links”, aby móc przeglądać lokalnie ...
AJ.

W zależności od liczby stron, które zamierzasz pobrać, możesz również określić opcję --limit-rate, aby uniknąć przeciążenia serwera.


3

Twoje opisy robota sieciowego (coś, co zajmuje stronę, szuka wszystkich linków, podąża za nimi itp.). Istnieją już implementacje przeszukiwacza, narzędzie, które działa jak przeszukiwacze (takie jak wget), oraz pytania dotyczące ich tutaj w przepełnieniu stosu. Na przykład...

https://stackoverflow.com/questions/102631/how-to-write-a-crawler

Gdy już znajdziesz coś, co może odwiedzić każdą stronę, potrzebujesz kodu, który przeanalizuje stronę i poszuka interesującego cię tekstu.


1

Nie jest to rozwiązanie PHP, ale możesz użyć tekstowej przeglądarki Lynx z opcjami -crawli, -dumpaby odwiedzić wszystkie strony w witrynie i zrzucić je jako pliki tekstowe. Następnie możesz użyć skryptu, aby wyodrębnić z nich potrzebne informacje.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.