Narzędzie lub skrypt do dzielenia dużych plików HTML

Mam przepływ pracy, który generuje pliki HTML przekraczające 10 MB. Chciałbym podzielić te 10 MB plików na mniejsze pliki .. więcej w zakresie 1 MB.

Plik HTML zawiera wewnętrzne linki i kotwice. Więc jakiekolwiek narzędzie, którego użyję, musiałoby odpowiednio zmienić <a href="../foo>foo</a> i <a id="fooID"></a>odpowiednio użyć nazw mniejszych plików.

Wyobrażam sobie, że jakieś narzędzie zepsuje plik we wcześniej określonej lokalizacji, prawdopodobnie w każdym punkcie.

Czy ktoś wie o narzędziu wiersza polecenia lub skrypcie do automatyzacji?

AKTUALIZACJA: Skończyłem tworzenie własnego skryptu bash, aby to zrobić. Żałuję, że nie mogę udostępnić kodu, ale sparafrazuję go:

utwórz podkatalog, aby umieścić wynikowe podzielone pliki HTML
podziel plik (użyłem xslt 2.0)
- Umieszczam oryginał <head>we wszystkich plikach
- Użyłem ścieżki x, która podzieliła plik na określony znacznik na poziomie bloku
Powtarzaj (xslt 2.0) przez katalog nowych plików, aby utworzyć tymczasowy plik XML z dwoma polami:
- nazwa pliku
- @ id znaleziono
Ponownie uruchom (xslt 2.0) przez katalog nowych plików HTML. Każdy @ href został porównany z plikiem XML par @ id / nazwa_pliku, a href został w razie potrzeby poprawiony do nowej nazwy pliku

Jak dotąd działa. Chociaż nie jest to odpowiedź na to pytanie, ponieważ nie jest to specjalnie zbudowane narzędzie dostępne dla wszystkich.

html

— Paulb
źródło

„Mam przepływ pracy, który generuje HTML”. Co to jest przepływ pracy? Może aplikacja?

— siebz0r

HTML ma tagi, które zaczynają się na początku dokumentu i kończą na końcu - takie jak htmli body. Jak więc proponujesz, aby uzyskać zdrową część dokumentu, gdy pokroisz go na środku?

— Paul

siebz0r: „Przepływ pracy” tworzący HTML to aplikacja bazy danych. Naprawdę nie jestem w stanie tego zmienić, więc będę musiał żyć z otrzymaniem dużego pliku i siebie.

— Paulb

Paul: W tej chwili nie mam dobrej odpowiedzi na twoje pytanie. W tekście są wzory. Na przykład, może wrzuć wszystko z góry pliku „<html> do <body>” w pamięci .. podziel plik z „<body>” na „</body>”, rozpoczynając i kończąc nowy plik na w każdym punkcie, w którym znajduje się „<h3>”, ręcznie wklej „</body> i </html>” na końcu każdego nowego mniejszego pliku. Wydaje się to podstawowe, co sprawiło, że pomyślałem, że coś już to zrobiło.

— Paulb