W jaki sposób instruujesz wget, aby rekurencyjnie indeksował witrynę i pobierał tylko określone typy obrazów?
Próbowałem tego użyć do indeksowania witryny i pobierania tylko obrazów JPEG:
wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
Jednak pomimo tego, że page1.html zawiera setki linków do podstron, które same mają bezpośrednie linki do obrazków, wget zgłasza takie rzeczy jak „Usuwanie podstrony13.html, ponieważ należy ją odrzucić” i nigdy nie pobiera żadnych obrazów, ponieważ żadne nie jest bezpośrednio powiązane z ze strony początkowej.
Zakładam, że dzieje się tak, ponieważ mój --accept jest używany zarówno do kierowania indeksowaniem, jak i filtrowania treści do pobrania, podczas gdy chcę, aby był używany tylko do kierowania pobieraniem treści. Jak sprawić, by wget indeksował wszystkie linki, ale pobierał tylko pliki z określonymi rozszerzeniami, takimi jak * .jpeg?
EDYCJA: Ponadto niektóre strony są dynamiczne i są generowane za pomocą skryptu CGI (np. Img.cgi? Fo9s0f989wefw90e). Nawet jeśli dodam cgi do mojej listy akceptujących (np. --Accept = jpg, jpeg, html, cgi), nadal są one odrzucane. Czy jest na to jakiś sposób?