Eksportuję zawartość MS Word do zwykłego tekstu do użytku z narzędziami tekstowymi i do plików. Mam ograniczenie, w którym funkcja numeracji linii została włączona w oprogramowaniu MS, a wszelkie odniesienia do numerów linii na końcowym wyjściu muszą pasować do tej numeracji. Więc wpisz „linie numeracyjne”:
( Poe, EA )
Oczywiście w przypadku programu Word tego rodzaju numeracja nie przerywa linii na nowej linii , ale przerywa „linie” po odpowiednim marginesie (lub czymś innym). docx2txt
Wygląda na to, że skrypt domyślnie nie bierze tego pod uwagę i przerywa wiersze na nowej linii. Więc jeśli używam grep -n
z numeracją, linie nie będą pasować do funkcji numerów linii źródłowych, jak pokazano powyżej. Z dokumentacji nie wynika jasno, jak musiałbym edytować skrypt Perla, aby przekonwertować pliki tak, jak muszę w tym przypadku:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
Próbowałem zastępując \n
na \r\n
ale to nie wydają się działać dla mnie. Dlatego postanowiłem wyeksportować dokumenty bezpośrednio z Worda z następującymi ustawieniami (zapisz jako zwykły tekst , w wersji 203,33pc):
- Unicode (UTF-8)
- Wstawianie podziałów linii + linii końcowych za pomocą (CR / LF)
- Zezwalaj na zastępowanie postaci
A teraz, kiedy rzeczywiście korzystać z .txt
plików nie jest idealne dopasowanie pomiędzy numerami linii w funkcji numerowania źródło i grep -n
wyjście.
- Czy jest jakaś konkretna konfiguracja / proces, o którym powinienem wiedzieć,
docx2txt
lub podobne narzędzie wiersza poleceń, które pozwoliłoby mi przekonwertować pliki .docx na zwykły tekst, zachowując podziały wierszy, bez uciekania się do programu Word tak jak ja? - Jakie są najlepsze praktyki , jeśli takie istnieją, do eksportowania dokumentów MS Word (które mogą zawierać znaki akcentowane) do zwykłego tekstu do użytku z narzędziami do plików / tekstu, w odniesieniu do podziałów linii i formatowania; i czy są jakieś negatywne konsekwencje dla ustawień, które wybrałem do eksportu, tj. wstawienia CR / LF?
Próba
Zgodnie z sugestią podam próbkę. W tym rar archiwum , ja dołączone do .docx plik z prostych punktach, a jej eksportowane .txt plik za pomocą programu Word z wymienionych powyżej opcji. Ten ostatni można porównać z domyślnym uruchomieniem docx2txt
pliku źródłowego.