Jeśli nie masz zainstalowanych tych innych narzędzi, tylko wget, a strona nie ma formatowania, tylko zwykły tekst i linki, np. Kod źródłowy lub lista plików, możesz rozebrać HTML przy pomocy sed:
wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g'
Używa wget, aby zrzucić źródło strony do STDOUT i sed, aby usunąć dowolne pary <> i cokolwiek między nimi.
Następnie możesz przekierować dane wyjściowe polecenia sed do pliku, który chcesz utworzyć, używając>:
wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt
Uwaga: może się okazać, że w pliku nie ma dodatkowych spacji, których nie chcesz (np. Linie są wcięte w kilku kolumnach)
Najłatwiej może być użyć edytora tekstu, aby uporządkować ten plik (lub formatyzator źródłowy podczas pobierania kodu źródłowego w języku C).
Jeśli potrzebujesz zrobić tę samą prostą rzecz w każdym wierszu pliku, możesz dołączyć polecenie, aby to zrobić w poleceniu sed (tutaj usuwając jedną spację wiodącą):
wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt
.c
. To nie jest trudne, ale zależy od struktury strony. Jeśli podasz link, być może ktoś pomoże ci z dokładnym kodem. W przeciwnym raziesed
lubperl
są twoimi przyjaciółmi.