Chcę odzyskać wszystko, co znajduje się między tymi dwoma znacznikami - <tr> </tr>
- z dokumentu HTML. Teraz nie mam żadnych konkretnych wymagań HTML, które uzasadniałyby parser HTML. Po prostu potrzebuję czegoś, co pasuje <tr>
i </tr>
dostaje wszystko pomiędzy, a może być wiele tr
s. Próbowałem awk, który działa, ale z jakiegoś powodu kończy się to otrzymaniem duplikatów każdego wyodrębnionego wiersza.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Jak sobie z tym poradzić?
awk
działa, ale sort -u
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
. Opublikuj przykładowe dane wejściowe i oczekiwane dane wyjściowe, jeśli to nie zadziała.