Zalecenia dotyczące oprogramowania do optycznego rozpoznawania znaków?


15

Widziałem niektóre ebooki / gazety, które najwyraźniej zostały zeskanowane z ich papierowych wersji, ale tekst w ebookach / gazetach można niesamowicie skopiować. Przypuszczam, że bezpośrednio skanowane wersje musiały zostać przetworzone przez niektóre oprogramowanie do optycznego rozpoznawania znaków.

Chciałbym więc wiedzieć, jakie są zalecane oprogramowanie do optycznego rozpoznawania znaków? Zwłaszcza te, które są albo na Ubuntu, albo za darmo? Jeśli te dla systemu Windows są znacznie lepsze, daj mi również znać.

Szczególnie interesują mnie te OCR, które mogą zaakceptować zeskanowany plik pdf jako dane wejściowe i nadal produkować jako plik wyjściowy inny plik pdf, który wygląda tak samo jak plik wejściowy, ale z tekstem, który można skopiować.

Dziękuję i pozdrawiam!

Ogranicz jedno oprogramowanie na odpowiedź

Odpowiedzi:


10

Tesseract OCR Zainstaluj Tesseract OCR

Oryginalny silnik został opracowany pod koniec lat 80. przez HP i IBM, ale okazało się, że jest jednym z najlepszych programów do rozpoznawania oka, z których korzystałem. Niedawno przeszedł wiele aktualizacji silnika i stał się jednym z najbardziej wszechstronnych narzędzi OCR na rynku. Odsłaniając w stosunku do większości innych narzędzi OCR (z czymś w wyższym 90 procentowym dopasowaniu tekstu) może łatwo przekształcić standardowy typ dokumentu twarzą w tekst.

Oto przykład:

tesseract ScannedDocument.png out

Stworzy plik o nazwie out.txt


Dzięki! Nie widziałem, że Tesseract obsługuje wyjście pdf. Czy wiesz o tym?
Tim

@Tim, natywnie nie wierzę, że Tesseract obsługuje wiele formatów wejścia / wyjścia. Jednak, jak wspomina odpowiedź JanC, gscan2pdf używa Tesseract dla OCR, a jak sama nazwa wskazuje, obsługuje wyjście PDF.
Tim Lytle

Zauważ, że OCR oznacza optyczne rozpoznawanie znaków: en.wikipedia.org/wiki/Optical_character_recognition
Jose Gómez

8

Kolejnym projektem, który powinien być w stanie to zrobić, jest gscan2pdf

sudo apt-get install gscan2pdf

Ten projekt może również korzystać z Tesseract, a także innych narzędzi OCR typu open source.


3

Nie znam żadnego OCR dla Ubuntu, ale dla Windows jest taki, który ma potrzebne funkcje. To jest ABBYY FineReader, to jest strona, ale nie jest darmowa


1
Użyłem FineReadera dokładnie tak, jak chce Tim (do otwierania chronionych plików PDF)
Extender

3

Darmowe rozwiązanie istnieje w repozytoriach , CunieForm (i YAGF jako nakładka dla Gnome)


Dzięki! Czy CunieForm obsługuje pdf jako formaty wejściowe i wyjściowe? Nie widziałem tego na stronie Wikipedii i na oficjalnej stronie.
Tim

Może nie, ale podział pliku PDF na serię TIFF jest i tak prostym zadaniem :)
Extender

3

Wygląda na to, że projekt Decapod eksportuje lub eksportuje do formatu PDF, więc Tesseract musi w jakiś sposób wyeksportować niezbędne informacje, aby wiedzieć, gdzie znaleziono tekst.


1

Adobe Acrobat (nie czytnik, nie darmowa aplikacja) jest w stanie OCR skanować zeskanowany dokument PDF i dodawać niewidoczną warstwę tekstową na górze obrazu, aby tekst mógł zostać zaznaczony i skopiowany. Niestety nie mam w zwyczaju sprawdzać, gdzie dokładnie ta funkcja znajduje się w interfejsie użytkownika programu Acrobat, ale z powodzeniem korzystałem z niej kilka razy w tym samym celu, o jakim wspomniałeś.

I tak, to oprogramowanie Windows, nie Linux, ale według bazy danych aplikacji Wine HQ działa pod Wine .


1

Najlepsze oprogramowanie OCR jest zwykle wbudowane w drukarki / skanery / kopiarki. Canon IRC 3880 w moim biurze może wyświetlać świetne pliki PDF z OCR łatwiej i szybciej niż jakikolwiek program na komputer, który znam. Połóż książkę na tacy (niezwiązana), wybierz adres e-mail, naciśnij zielony przycisk.

Większość plików PDF z OCR, które można znaleźć w sieci, pochodzi z podobnych maszyn. Problem polega na tym, że cena jest zbyt wysoka do użytku domowego (około 12000 euro IRC).




Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.