Potrzebuję plików PDF do tekstu, aby móc wyszukiwać je zbiorczo z wiersza polecenia. Czy jest jakiś konwerter dla Ubuntu, OBSD lub podobnej dystrybucji?
Być może powiązany post, OCR z ubuntu tutaj .
pdftotext
= pdfcat
.
Potrzebuję plików PDF do tekstu, aby móc wyszukiwać je zbiorczo z wiersza polecenia. Czy jest jakiś konwerter dla Ubuntu, OBSD lub podobnej dystrybucji?
Być może powiązany post, OCR z ubuntu tutaj .
pdftotext
= pdfcat
.
Odpowiedzi:
Masz wiele opcji!
pdftotext
z popplera już wspomniano.
Istnieje program Haskell o nazwie,pdf2line
który działa dobrze.
Caliber „s ebook-convert
programu poleceń (lub sam kaliber) ma innej opcji; potrafi konwertować PDF na zwykły tekst lub inny format ebook (RTF, ePub), moim zdaniem generuje lepsze wyniki niż pdftotext, chociaż jest znacznie wolniejszy.
ebook-convert file.pdf file.txt
AbiWord może konwertować między dowolnymi znanymi formatami z wiersza poleceń i przynajmniej opcjonalnie ma wtyczkę importu PDF:
abiword --to=txt file.pdf
Jeszcze inna opcja pochodzi podofotextextract
z biblioteki narzędzi podofo PDF. Tak naprawdę tego nie próbowałem.
Jeśli połączysz dwa narzędzia Ghostscript pdf2ps
i ps2ascii
masz jeszcze jedną opcję.
Mogę wymyślić jeszcze kilka metod, ale na razie zostawię to. ;)
pdftotext
daje dokładniejsze wyniki niż ebook-convert
i jest bardzo szybki. ebook-convert
jest powolny.
pdftotext
z -layout
opcjami skały! calibre
wymaga instalacji ponad 600 MB! To szalone)
Możesz konwertować pliki PDF na tekst w wierszu poleceń za pomocą pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utils
pakiet).
Możesz użyć Recoll
(Ubuntu: recoll ; OpenBSD: brak portu, ale jest jeden dla FreeBSD .) Do przeszukiwania różnych sformatowanych typów dokumentów tekstowych, w tym PDF. Jest GUI i automatycznie buduje indeks pod maską. Służy pdftotext
do konwersji plików PDF na tekst.
Acrobat Reader (przynajmniej wersja 9 pod Linuksem) ma ograniczone możliwości wyszukiwania wielu plików (możesz wyszukiwać we wszystkich plikach w katalogu).
pdftotext jest prawdopodobnie tym, czego szukasz: http://en.wikipedia.org/wiki/Pdftotext, chyba że tekst, który chcesz wyodrębnić, jest w rzeczywistości w formie graficznej, co nie jest tak powszechne w przypadku dokumentów pdf.
gPDFText konwertuje treść ebook PDF na tekst ASCII, sformatowany dla akapitów długich linii, Działa dla mnie i ma interfejs graficzny.
gPDFText
można uzyskać, w jaki sposób można go zainstalować i jak posłużyć do udzielenia odpowiedzi na pytanie PO.