Mój przypadek jest dość specyficzny, więc postaram się go wyjaśnić szybko i precyzyjnie. Muszę zdigitalizować kilka starych arkuszy papieru o wymiarach 230 mm x 268 mm (~ 9 "x 27,7") złożonych w 4 części; możesz znaleźć szybki przykład tutaj uzyskać pomysł.
Skanowanie i ponowne składanie nie jest prawdziwym problemem, będę skanować każdą krotnie i zestawiać je za pomocą programu Photoshop. Potrzebuję pliku .pdf z oryginalnym zeskanowanym obrazem strony, a także tekstu do odczytu / przeszukiwania i indeksowania w wyszukiwarkach internetowych.
Jak widać na powyższym rysunku, na stronie znajduje się również kilka pól ADS, które nie muszą być OCR, i można je pominąć.
Teraz użyłem programu Acrobat Pro X w wynikowym pliku .pdf, który ponownie skomponowałem za pomocą programu Photoshop. Wyniki są całkiem dobre, ale oczywiście nie są idealne, a to, co wydaje mi się najbardziej problematyczne, to poprawienie błędnego opracowanego tekstu i usunięcie lub wykluczenie niepotrzebnego obszaru dokumentu.
Chciałbym wiedzieć, czy istnieje aplikacja do edycji bazowego tekstu OCR w bardziej praktyczny sposób niż oferuje Acrobat. Adobe udostępnia w panelu narzędzi „Znajdź podejrzanych” (co może być bardzo irytujące w użyciu), ale podejrzany tekst nie zawsze jest kompletny z tym, co naprawdę jest złe, wiele razy znaki, które rozpoznaje jako prawidłowe, wcale nie są takie (np. Kursywa „l” uważa się za „/” i podobne); niestety mój tekst jest częściowo złożony również z innych języków czcionek, takich jak japoński lub chiński, a tekst zmienia się najczęściej jako gówniany jibberish, więc muszę też poprawić niewłaściwy tekst zgodnie z wybranymi znakami.
Rodzaj porównywanego edytora, podobnie jak w jednym okienku, zeskanowany obraz, w drugim tekst OCR wybranego obszaru dokumentu, byłby najbardziej idealnym rozwiązaniem, jak sądzę, do szybkiego i skutecznego korygowania błędów.
Możliwości zdefiniowania i wykluczenia obszarów zeskanowanego dokumentu, które mają być przetwarzane przez OCR, byłyby rzeczywiście bardzo potrzebną funkcją; Odkryłem, że za pomocą programu Acrobat możesz użyć narzędzia edycji bezpośredniej strzałki, aby usunąć ramki tekstowe, które mogą być nieco funkcjonalne, nawet jeśli są dość trudne w użyciu, ponieważ w większości przypadków klikniesz na zeskanowany obraz tła.
Jakieś sugestie dotyczące tego typu pracy? Może inny przepływ pracy jest bardziej praktyczny i / lub wydajny? Wszelkie wskazówki są rzeczywiście mile widziane!
Im na komputerze Win 7 64 bit.