Szukam narzędzia skryptowego offline, które umożliwia przeszukiwanie istniejącego pliku PDF, uruchamiając na nim OCR, zastępując oryginalny plik, którego nie można przeszukiwać, wersją z możliwością przeszukiwania, i może działać bez nadzoru.
Np. Www.pdfscannerapp.com - robi dokładnie to, czego potrzebuję, ale jest to tylko GUI - bez skryptów.
Wiem, że Evernote umożliwia wyszukiwanie plików PDF, ale można je wyszukiwać tylko w Evernote.
Nie szukam idealnego OCR, nawet umiarkowanie akceptowalny OCR jest w porządku, ale wolałbym raczej małe narzędzie niż obszerny pakiet oprogramowania.
(Zdaję sobie sprawę z podobnego, ale innego pytania na temat usługi AD: Szukam oprogramowania do skanowania lub konwertowania na pliki PDF z możliwością wyszukiwania i znakowania - nie muszę jednak podpisywać ani wypełniać plików PDF, a moim wymaganiem jest, aby rozwiązanie można było skryptować)
EDYTOWAĆ:
1) Kilka narzędzi pozwala na ekstrakcję tekstu strukturalnego, jednak w celu wyodrębnienia tekst musi tam być; Mam na myśli głównie pliki PDF, które są owinięte bitmapami, podobnie jak zwykłe pliki PDF generowane przez skanery.
2) Niekoniecznie szukam darmowego rozwiązania i chętnie zapłacę za dobre narzędzie, które robi to, czego potrzebuję, ale nie szukam dużych aplikacji z milionem funkcji, które zawierają funkcję OCR, ale których koszt nie uzasadnia zakupu ich tylko dla funkcji OCR.
3) Jak wspomniano powyżej, nie szukam idealnego OCR, tylko umiarkowanie akceptowalnego OCR. Niestety z mojego doświadczenia wynika, że tesseract jest naprawdę poniżej tego progu. Definiuję „umiarkowanie akceptowalny” OCR, który może, powiedzmy, OCR rachunek za media, dzięki czemu przynajmniej numer konta (numer klienta) zostanie poprawnie rozpoznany.
EDYCJA: „skryptowalny” lub „automatyczny”, to znaczy może być uruchamiany automatycznie i uruchamiany bez nadzoru bez udziału człowieka.