Mam kilka dokumentów Worda, w których podział linii (podział akapitu) został dodany wyłącznie ze względów kosmetycznych (prawdopodobnie przez człowieka, ale może przez system OCR lub coś podobnego). Chcę usunąć te dodatkowe podziały wierszy z dokumentów. Zasadniczo „dodatkowy” podział linii to taki, który jest otoczony małymi literami po obu stronach (z opcjonalnym białym odstępem). Niestety, jeśli chcę znaleźć podziały akapitów w programie Word (^ p), nie mogę użyć klas znaków, aby znaleźć tylko małe litery ([az]) i odwrotnie.
Zasadniczo chcę użyć wyrażenia regularnego wielowierszowego na dokumencie, aby znaleźć coś takiego:
/[a-z]\s*\n\s*[a-z]/
i zamień znak nowej linii spacją. Czy jest jakiś sposób, aby wyszukać zarówno znaczniki akapitów (^ p w programie Word), jak i klasy znaków (lub ogólnie tylko małe litery)?
PRZYKŁAD:
TYTUŁ¶
To jest tekst.
nie pasowałoby, ale
ten tekst jest w jednym wierszu i
przechodzi do następnego wiersza.
będzie pasować, a „¶” zostanie zastąpione spacją.
^13
było dokładnie tym, czego szukałem. Dzięki! Tak dziwne, że powoduje zmianę go podczas włączania symboli wieloznacznych. Byłoby miło, gdyby Word obsługiwał pełne wyrażenie regularne, ale ten język symboli zastępczych będzie na razie działał. PS - czy masz link do listy wszystkich ponumerowanych symboli wieloznacznych? Nie mogłem łatwo znaleźć.