Konwerter plików PDF na tekst [zamknięty]


9

Szukam sposobu „pobrania jednym plikiem PDF” i przekonwertowania go na zwykły tekst. Idealnie na OSX lub Linux.

Idealnie byłoby, gdyby rozwiązanie zawierało funkcję OCR, ale niekoniecznie.

Najwyższy priorytet ma coś, co może zająć DOWOLNY plik BEZ konfiguracji.

Odpowiedzi:


23

Jest xpdf, który zawiera pdftotextplik binarny.

Pdftotext konwertuje pliki Portable Document Format (PDF) na zwykły tekst.

W systemie Linux dostępny jest instalator. Wygląda na to, że jest również w poppler-utilspakiecie. W systemie OS X można go zainstalować za pomocą Homebrew (najpierw zainstalować), a następnie użyć

brew install homebrew/x11/xpdf

który pobierze pliki źródłowe i skompiluje je dla OS X. Następnie użyj go w następujący sposób:

pdftotext your_pdf_file.pdf

który wygeneruje zwykły plik tekstowy. Istnieje również kilka opcji, sprawdź man pdftotextwięcej szczegółów.

Alternatywą jest poppler w OSX:

brew install poppler

w Debianie i przyjaciołach

apt-get install poppler-utils

na dzień dzisiejszy komenda brzmibrew install homebrew/x11/xpdf
Diego Vieira

1
@DiegoVieira Dzięki. Następnym razem możesz zaproponować edycję!
slhck

jakąś zaletę przy użyciu popplera zamiast xpdf / pdftotext?
Gonzalo Bahamondez

brew install Caskroom/cask/pdftotext
Hugo,

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.