Mam kilkaset plików kodu źródłowego HTML. Muszę wyodrębnić zawartość określonego <div>
elementu z każdego z tych plików, więc mam zamiar napisać skrypt, który przejdzie przez każdy plik. Struktura elementu wygląda następująco:
<div id='the_div_id'>
<div id='some_other_div'>
<h3>Some content</h3>
</div>
</div>
Czy ktoś może zasugerować metodę, za pomocą której mogę wyodrębnić div the_div_id
oraz wszystkie elementy potomne i zawartość z pliku przy użyciu wiersza polecenia systemu Linux?
hxselect
jest bardziej wrażliwy na format wejściowy niżpup
. Na przykład, ja dostajęInput is not well-formed. (Maybe try normalize?)
zhxselect
którympup
właśnie analizowania go.