Mam kilka zeskanowanych dokumentów w formacie pdf i chcę je wyszukać. Jak mogę to zrobić?
Zasadniczo muszę OCR pdf, a następnie mieszam wyodrębniony tekst z powrotem do nowego pdf. Bezskutecznie wypróbowałem wiele różnych rozwiązań (w tym te znajdujące się w części Dodawanie informacji o OCR do pliku PDF ).
- pdfocr (co daje mi ten problem: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (którego centrum oprogramowania twierdzi, że jest to kiepski pakiet i nie powinienem go instalować)
- OCRfeeder (w centrum oprogramowania) ładnie eksportuje do ODT, ale nie reaguje na eksport do pdf.
- Gscan2pdf eksportuje cały czarny (ale możliwy do przeszukiwania) obraz, jak zgłoszono w tej dyskusji .
- Nie sądzę, że przeglądarka Pdfxchange poradzi sobie z robieniem ocr w locie na plikach powyżej 500 stron.
Czy jest jakiś pakiet oprogramowania, którego nie znam? Lub skrypt, który to robi?
pdf2searchablepdf
. To zależy tesseract
. To dobrze działa. Bardzo łatwy w użyciu. Spójrz tutaj. askubuntu.com/a/1187881/327339