Muszę pobrać całą mapę witryny w formacie takim jak:
- http://example.org/
- http://example.org/product/
- http://example.org/service/
- http://example.org/about/
- http://example.org/product/viewproduct/
Potrzebuję go opartego na linkach (bez pliku lub dir brute-force), takiego jak:
parsuj stronę główną -> pobierz wszystkie linki -> przeglądaj je -> pobierz linki, ...
Potrzebuję też możliwości wykrycia, czy strona jest „szablonem”, aby nie pobierać wszystkich „stron potomnych”. Na przykład, jeśli zostaną znalezione następujące linki:
- http://example.org/product/viewproduct?id=1
- http://example.org/product/viewproduct?id=2
- http://example.org/product/viewproduct?id=3
Muszę uzyskać tylko raz http://example.org/product/viewproduct
Zajrzałem do HTTtracków, wget (z opcją pająka), ale jak dotąd nic rozstrzygającego.
Oprogramowanie / narzędzie powinno być dostępne do pobrania i wolę, jeśli działa w systemie Linux. Można go napisać w dowolnym języku.
Dzięki