Edytowanie przeszukiwanego OCR .pdf

Mój przypadek jest dość specyficzny, więc postaram się go wyjaśnić szybko i precyzyjnie. Muszę zdigitalizować kilka starych arkuszy papieru o wymiarach 230 mm x 268 mm (~ 9 "x 27,7") złożonych w 4 części; możesz znaleźć szybki przykład tutaj uzyskać pomysł.

Skanowanie i ponowne składanie nie jest prawdziwym problemem, będę skanować każdą krotnie i zestawiać je za pomocą programu Photoshop. Potrzebuję pliku .pdf z oryginalnym zeskanowanym obrazem strony, a także tekstu do odczytu / przeszukiwania i indeksowania w wyszukiwarkach internetowych.
Jak widać na powyższym rysunku, na stronie znajduje się również kilka pól ADS, które nie muszą być OCR, i można je pominąć.

Teraz użyłem programu Acrobat Pro X w wynikowym pliku .pdf, który ponownie skomponowałem za pomocą programu Photoshop. Wyniki są całkiem dobre, ale oczywiście nie są idealne, a to, co wydaje mi się najbardziej problematyczne, to poprawienie błędnego opracowanego tekstu i usunięcie lub wykluczenie niepotrzebnego obszaru dokumentu.

Chciałbym wiedzieć, czy istnieje aplikacja do edycji bazowego tekstu OCR w bardziej praktyczny sposób niż oferuje Acrobat. Adobe udostępnia w panelu narzędzi „Znajdź podejrzanych” (co może być bardzo irytujące w użyciu), ale podejrzany tekst nie zawsze jest kompletny z tym, co naprawdę jest złe, wiele razy znaki, które rozpoznaje jako prawidłowe, wcale nie są takie (np. Kursywa „l” uważa się za „/” i podobne); niestety mój tekst jest częściowo złożony również z innych języków czcionek, takich jak japoński lub chiński, a tekst zmienia się najczęściej jako gówniany jibberish, więc muszę też poprawić niewłaściwy tekst zgodnie z wybranymi znakami.

Rodzaj porównywanego edytora, podobnie jak w jednym okienku, zeskanowany obraz, w drugim tekst OCR wybranego obszaru dokumentu, byłby najbardziej idealnym rozwiązaniem, jak sądzę, do szybkiego i skutecznego korygowania błędów.
Możliwości zdefiniowania i wykluczenia obszarów zeskanowanego dokumentu, które mają być przetwarzane przez OCR, byłyby rzeczywiście bardzo potrzebną funkcją; Odkryłem, że za pomocą programu Acrobat możesz użyć narzędzia edycji bezpośredniej strzałki, aby usunąć ramki tekstowe, które mogą być nieco funkcjonalne, nawet jeśli są dość trudne w użyciu, ponieważ w większości przypadków klikniesz na zeskanowany obraz tła.

Jakieś sugestie dotyczące tego typu pracy? Może inny przepływ pracy jest bardziej praktyczny i / lub wydajny? Wszelkie wskazówki są rzeczywiście mile widziane!

Im na komputerze Win 7 64 bit.

— Gruber
źródło

Możesz spróbować ABBYY FineReader . Pasuje do opisu Twoich potrzeb.

— user291737
źródło

Gdzie można to znaleźć?

— Scott

Właśnie dodałem link. To nie jest wolne oprogramowanie.

— user291737

mmm dzięki za napiwek, spróbuję.

— Gruber

Jest to rzeczywiście bardzo ważny program z dokładnie tym, o co prosiłem. Na początku jest to trochę przytłaczające, ale dokumentacja online jest bardzo kompletna i dość intuicyjna dla niektórych prostych czynności!

— Gruber