Filtrowanie trochę „półtonowanego” obrazu do przetwarzania OCR

10

Mam zeskanowany materiał PDF, do którego chcę dodać ukrytą warstwę tekstową, aby móc zindeksować dokument. Użyłem czarno-białego urządzenia wyjściowego tiff ghostscript (tiffg4), aby wyodrębnić strony jako obrazy tiff, a oto przykład tego, jak wyglądają:

wprowadź opis zdjęcia tutaj

Przetwarzanie tego obrazu za pomocą tesseract nie daje dobrych wyników.
Zmiana DPI ghostscript (600, 300, 150, 96) pokazuje, że obraz przy 96 DPI daje najlepszy wynik z tesseract, ale nadal nie jest zadowalający.

Teraz pomyślałem o zapytaniu o radę, który filtr poprawi ten obraz do przetwarzania OCR.

Mógłbym użyć imagemagick lub numpy / scipy / ndimage

image-processing ocr

— zetah
źródło

9

To, czego naprawdę potrzebujesz, to prawdopodobnie pewna operacja morfologiczna, taka jak rozszerzenie, a następnie erozja. Jest to nazywane operacją zamykania . Może być w twoim przypadku - sama dylatacja może być dobra.

Poprzednie pytanie było podobne - które może pomóc w innych aspektach.

konwersja obrazu monochromatycznego (1-bit czarno-biały)

Jak zrekonstruować tekst z obrazu przy użyciu tylko operacji morfologicznych?

— Dipan Mehta
źródło

2

możesz to usunąć za pomocą filtra dolnoprzepustowego. jest to albo wykonywane w przestrzeni częstotliwości, albo po prostu weź (różnicę) gaussa obrazu.

— Christoph Rackwitz
źródło