Jak mogę sprawić, by OCR lepiej rozpoznawał tekst moich dokumentów?


3

Nie mogę dostać niektórych moich dokumentów z obrazami do rozpoznania przez OCR. Nie są one szczególnie niskiej rozdzielczości - choć niektóre są zniekształcone - ale nie mogę ich uzyskać przez OCR nawet z Omnipage. Przesłałem jeden jako przykład (przekonwertowane z DOC na PDF dla Omnipage), ale mam więcej. Co mogę zrobić, aby odnieść sukces w OCR?

Odpowiedzi:


1

Pomimo tego, jak wyglądają na ekranie, obrazy tekstowe nie są bardzo wysokiej rozdzielczości. Możesz to zobaczyć, powiększając widok w przeglądarce PDF. Obrazy są pikselowane i nie wszystkie są czarno-białe.

Wyodrębniłem obrazy za pomocą pdfimages. Gocr pracował nad uzyskanymi obrazkami .ppm, ale z wieloma błędami. Nie mogłem zmusić tesseract do pracy z obrazami pomimo konwersji na tiff monochromatyczny.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.