Jako fan otwartego oprogramowania (i automatyzacji) nie chcę tego mówić, ale najlepsze wyniki, jakie właśnie uzyskałem (na dość dużym, złożonym pliku PDF) to otwarcie go w programie Adobe Reader, a następnie wybranie Plik | Zapisz jako tekst.
(Przygotowuję wstępne eksperymenty z analizą tekstu, nie jako czytelnik, ale myślę, że mój pierwszy i drugi wybór byłyby takie same.)
Porównywałem dane wyjściowe obok siebie. Moim drugim wyborem jest konwersja ebook.
Adobe : pozostawione w FF dla podziałów stron, pozostawione w numerach stron, nie przekształciły nagłówków / akapitów w pojedyncze linie, ale naprawiły łączniki. Śmieci, które były ukryte w pliku PDF, nie uzyskały wyniku. Prawidłowo otrzymałem wielkie litery na początku sekcji, np. „The”, nie „T he”, a nawet „T he”.
ebook-convert : Pozostawiono w numerach stron i niektóre ukryte śmieci w nagłówku / stopce (ale bez FF). Konwertuje większość akapitów na pojedyncze wiersze. Te, które przeoczyła, mają jednak podwójne odstępy! Punktory nie zawsze pokrywają się z tekstem. Poprawnie otrzymał „The” na początku rozdziału.
pdftotext (bez --layout) : nieźle, wypunktowane linie, ale hałas nagłówka / stopki. FF są tam. Łączniki usunięte. Najgorszy na początek rozdziału dużych liter: „T \ n \ nhe”.
pdftotext (z --layout) : Podobne, ale więcej wcięć. „T he” na początek rozdziału.
pdftohtml >> pdfreflow >> htmltotext : Usunął numery stron, ale nadal śmieci w nagłówku / stopce. „T he” na początek rozdziału. Łączniki usunięte. (Używa wielu wierszy na akapit, ale nie są to takie same podziały wierszy jak w innych wersjach!)