Chcę przeanalizować niektóre adresy URL z zapisanego pliku HTML za pomocą prostego skryptu / komendy bash, aby móc je pobrać za pomocą wget
późniejszych plików.
Do tej pory mam:
awk 'BEGIN{ RS="<a *href *= *\""} NR>2 {sub(/".*/,"");print; }' index.html >> url-list.txt
który zapisuje każdy link znajdujący się w moim pliku HTML w schludny dokument TXT.
Potrzebuję jednak tylko konkretnych linków
- z określonej domeny
- na przykład wszystkie pliki .ogg
wszystko, co w końcu wyglądałoby:
http://www.foo.com/(randomfolder)/(randombasename).ogg
lub
http://subdomain.foo.com/(randomfolder)/(anotherrandomsubfolder)/(randombasename).ogg
z góry dziękuję!