Potrzebuję plików PDF do tekstu, aby móc wyszukiwać je zbiorczo z wiersza polecenia. Czy jest jakiś konwerter dla Ubuntu, OBSD lub podobnej dystrybucji?
Być może powiązany post, OCR z ubuntu tutaj .
pdftotext= pdfcat.
Potrzebuję plików PDF do tekstu, aby móc wyszukiwać je zbiorczo z wiersza polecenia. Czy jest jakiś konwerter dla Ubuntu, OBSD lub podobnej dystrybucji?
Być może powiązany post, OCR z ubuntu tutaj .
pdftotext= pdfcat.
Odpowiedzi:
Masz wiele opcji!
pdftotextz popplera już wspomniano.
Istnieje program Haskell o nazwie,pdf2line który działa dobrze.
Caliber „s ebook-convertprogramu poleceń (lub sam kaliber) ma innej opcji; potrafi konwertować PDF na zwykły tekst lub inny format ebook (RTF, ePub), moim zdaniem generuje lepsze wyniki niż pdftotext, chociaż jest znacznie wolniejszy.
ebook-convert file.pdf file.txt
AbiWord może konwertować między dowolnymi znanymi formatami z wiersza poleceń i przynajmniej opcjonalnie ma wtyczkę importu PDF:
abiword --to=txt file.pdf
Jeszcze inna opcja pochodzi podofotextextractz biblioteki narzędzi podofo PDF. Tak naprawdę tego nie próbowałem.
Jeśli połączysz dwa narzędzia Ghostscript pdf2psi ps2asciimasz jeszcze jedną opcję.
Mogę wymyślić jeszcze kilka metod, ale na razie zostawię to. ;)
pdftotextdaje dokładniejsze wyniki niż ebook-converti jest bardzo szybki. ebook-convertjest powolny.
pdftotextz -layoutopcjami skały! calibrewymaga instalacji ponad 600 MB! To szalone)
Możesz konwertować pliki PDF na tekst w wierszu poleceń za pomocą pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspakiet).
Możesz użyć Recoll
(Ubuntu: recoll ; OpenBSD: brak portu, ale jest jeden dla FreeBSD .) Do przeszukiwania różnych sformatowanych typów dokumentów tekstowych, w tym PDF. Jest GUI i automatycznie buduje indeks pod maską. Służy pdftotextdo konwersji plików PDF na tekst.
Acrobat Reader (przynajmniej wersja 9 pod Linuksem) ma ograniczone możliwości wyszukiwania wielu plików (możesz wyszukiwać we wszystkich plikach w katalogu).
pdftotext jest prawdopodobnie tym, czego szukasz: http://en.wikipedia.org/wiki/Pdftotext, chyba że tekst, który chcesz wyodrębnić, jest w rzeczywistości w formie graficznej, co nie jest tak powszechne w przypadku dokumentów pdf.
gPDFText konwertuje treść ebook PDF na tekst ASCII, sformatowany dla akapitów długich linii, Działa dla mnie i ma interfejs graficzny.
gPDFTextmożna uzyskać, w jaki sposób można go zainstalować i jak posłużyć do udzielenia odpowiedzi na pytanie PO.