Tesseract
Od 2018 roku najlepszym dostępnym oprogramowaniem OCR typu open source jest Tesseract 4 (beta) z nowym modelem OCR sieci neuronowej LSTM . Jego wydajność OCR jest znacznie lepsza niż w poprzednim modelu OCR stosowanym w wersji 3.
Przykład (utwórz plik PDF output.pdf
z warstwą tekstową dla zeskanowanego dokumentu niemieckiego):
$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf
Wydrukuj rozpoznany tekst na standardowe wyjście:
$ tesseract --oem 1 -l deu page page-0001.png stdout
Wyświetl listę zainstalowanych języków:
$ tesseract --list-langs
Obsługa całkiem wielu języków / skryptów jest dostępna w postaci szkolonych zestawów danych do pobrania , np. Istnieje nawet zestaw danych dla Fraktur.
Dzięki nowemu modelowi LSTM Tesseract czerpie inspirację z projektu badawczego OCRopus .
Wersja 3 Tesseract radzi sobie stosunkowo źle nawet w przypadku obrazów wejściowych dobrej jakości, tzn. Często fałszywie wykrywa pojedyncze znaki w pikselach pyłu (poza dowolnym kontekstem tekstowym) i łatwo wprowadza błędy pojedynczych znaków w dobrze znanych słowach.
Klinowy
Wydajność Cuneiform OCR nie jest taka zła, ale nie jest aktywnie utrzymywana (ostatnia wersja w 2011 r., Wersja 1.1) i łatwo ulega awarii i ma kilka innych problemów:
- Błędy segmentacji w różnych pakietach i wersjach
- algorytm układu jest po prostu zepsuty, tzn. w dokumentach zawierających jedną kolumnę akapity są często losowo zmieniane
- nie powoduje błędu w nieznanych opcjach
Możesz wyłączyć algorytm układu w następujący sposób:
$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001
( -l
określa język dokumentu źródłowego)
ocrad
$ ocrad -F utf8 image-0001
Tekst jest drukowany domyślnie na standardowe wyjście.
W dokumencie biznesowym brakowało podkreślonego słowa, w przeciwieństwie do pisma klinowego / tesseract / gocr.
gocr
$ gocr image-0001
Tekst jest drukowany domyślnie na standardowe wyjście.
Sprzęt komputerowy
Sane ma bardzo dobre wsparcie dla wielu skanerów z automatycznym podawaniem dokumentów (ADF), np. Dla skanerów Avision i Fujitsu .
Do Sane dołączony jest scanimage
program wiersza poleceń, którego można użyć do budowy potoków skanowania za pomocą skryptów (patrz np. Mój adf2pdf.py
skrypt).