13
przetwarzanie obrazu w celu poprawy dokładności rozpoznawania OCR tesseract
Używam tesseract do konwersji dokumentów na tekst. Jakość dokumentów jest bardzo różna, a ja szukam wskazówek, jakie przetwarzanie obrazu może poprawić wyniki. Zauważyłem, że tekst, który jest silnie pikselizowany - na przykład ten generowany przez faksy - jest szczególnie trudny do przetworzenia przez tesserakt - prawdopodobnie wszystkie te postrzępione krawędzie …