Konwertuj obraz na tekst

8

Mam zeskanowany dokument obrazu z banku i chcę przekonwertować go na normalny dokument tekstowy z obrazami w Ubuntu.

Czy jest na to jakieś narzędzie?

— Joe
źródło

15

Istnieje wiele czytników OCR dla systemu Linux, które można konwertować z obrazu na tekst. Spójrz na następujące opcje:

Wszystkie powyższe, oprócz ocropus, są obecne w repozytorium Ubuntu w pakiecie o tej samej nazwie.

Różne czytniki obsługują różne formaty obrazów, więc możesz mieć ograniczone opcje w zależności od formatu pliku, w którym znajduje się Twój dokument. Alternatywnie możesz użyć narzędzia do konwersji z ImageMagick, aby zmienić format, jeśli chcesz użyć konkretnego czytnika OCR.

Na podstawie mojej odpowiedzi tutaj .

— Społeczność
źródło

0

Najpierw musisz zainstalować „tesseract-ocr” na swoim komputerze z systemem Linux.

sudo apt-get install tesseract-ocr

Możesz to zrobić ręcznie z poziomu interfejsu CLI lub stworzyłem kod PHP dla tego samego, możesz go użyć, jeśli chcesz.

Uwaga: Aby uruchomić ten kod, polecenie exec powinno być włączone w php.ini

<?php
//IMAGE TO TXT Conversion
    $input_file = $_REQUEST['input_file'];
    $out = explode(".",$input_file);

    $output_file = $out[0]."_".$out[1];
    $output_file_name  =    $output_file.".txt";

    echo "<br />----IMAGE To TXT conversion Started-----</br />";
    echo  exec('tesseract '.$input_file.' '.$output_file);
    echo "<br />----TXT conversion Done-----</br />";

    echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
    echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />"; 
?>

umieść ten kod w folderze głównym i uzyskaj do niego dostęp z przeglądarki,

np .:

http://yourserver.com?input_file=1.png

Uwaga: plik 1.png powinien znajdować się w twoim bieżącym katalogu.

Nie mam prawa do przesłania obrazu, użyłem tego obrazu w celach informacyjnych, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview

— Pragnesh Karia
źródło