Jak wyodrębnić wszystkie zewnętrzne linki strony internetowej i zapisać je w pliku?


11

Jak wyodrębnić wszystkie zewnętrzne linki strony internetowej i zapisać je w pliku?

Jeśli masz jakieś narzędzia wiersza polecenia, które byłyby świetne.

Odpowiedzi:


18

Będziesz potrzebował 2 narzędzi, rysia i awk , spróbuj tego:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Jeśli potrzebujesz linii numeracyjnych, użyj polecenia nl , spróbuj tego:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

Nie sądzę, żeby to zadziałało dla względnych adresów URL
Sridhar Sarnobat

8

Oto poprawka w odpowiedzi Leltona: wcale nie potrzebujesz awk, bo rysie ma kilka przydatnych opcji.

lynx -listonly -nonumbers -dump http://www.google.com.br

jeśli chcesz liczb

lynx -listonly -dump http://www.google.com.br

0
  1. Użyj Pięknej zupy, aby pobrać dane strony internetowe.
  2. Użyj awk, aby znaleźć wszystkie adresy URL, które nie wskazują Twojej domeny

Polecam piękną zupę zamiast technik zgarniania ekranu.


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.