Jak mogę wyodrębnić tekst z obrazów?


25

Jak mogę wyodrębnić tekst z obrazów?

Nie mówię o zeskanowanych plikach, ale o obrazach różnorodnych w ogrodzie, na przykład podczas robienia wysokiej rozdzielczości zdjęcia tablicy podczas zajęć i jest ładnie odręcznie napisane; lub gdy sfotografujesz stronę z książki kucharskiej i chcesz przepis w formacie tekstowym.

Jakieś darmowe i otwarte oprogramowanie?

Próbowałem tesseract, a wyniki były okropne.


Potrzebuję OCR, który obsługuje jednocześnie bengalski i angielski.
wszystkie

Odpowiedzi:


26

Wyodrębnianie tekstu z obrazów nazywa się, OCRa Ubuntu ma stronę wiki poświęconą OCR . Z tej strony:

Dostępne narzędzia OCR

Repozytoria Ubuntu Universe zawierają następujące narzędzia OCR:

  1. gocr - OCR wiersza poleceń
  2. fuzzyocr - wtyczka spamassassin do sprawdzania załączników obrazów
  3. libhocr0 - hebrajski OCR
  4. ocrad - program optycznego rozpoznawania znaków
  5. ocrfeeder - Analiza układu dokumentu i optyczny system rozpoznawania znaków
  6. ocropus - analiza dokumentów i system OCR
  7. tesseract-ocr

Wieloskładnikowe repozytoria Ubuntu zawierają również:

  1. pismo klinowe - wielojęzyczny system OCR

Niektóre pakiety są nieaktualne, ale nowe nieoficjalne można znaleźć w Alex_P PPA (PPA dodaje kod: ppa: alex-p / notesalexp). Jeśli nigdy nie korzystałeś z PPA, sprawdź, jak dodać oprogramowanie z PPA .

edytuj: Jak pokazano w komentarzu Clara OCR też istnieje, ale zrobiło się oszałamiająco w Hardy, a ich strona internetowa ma ostatnią aktualizację w 2009 roku.


Czy masz doświadczenie w korzystaniu z któregokolwiek z tych przykładów? Stałem się trochę sceptyczny wobec zwykłych narzędzi ocr. Numer 7 na liście to ten, którego próbowałem i był po prostu okropny.
Strapakowsky

O ile pamiętam, próbowałem również gocr, z równorzędnymi strasznymi wynikami. Jeśli z powodzeniem spróbowałeś któregoś z nich, jakiej składni użyłeś? Dzięki.
Strapakowsky

Absolutnie nic! Nigdy nie przejmowałem się OCR: D Wyszukiwanie Freshmeat pokazuje Clara OCR i tesseract-ocr;) ( freshmeat.net/search/… )
Rinzwind

Czy się mylę, jeśli powiem, że skuteczne użycie OCR wymaga znajomości procesu i starannej konfiguracji w celu dopasowania do konkretnego obrazu, który ma być skanowany? Tak więc, jeśli mam rację, złe wyniki mogą być spowodowane przez użytkownika, a nie przez oprogramowanie.
NN

OCRdziała najlepiej, jeśli wiesz, jak powstaje obraz i jesteś bardzo dobrze zaznajomiony z oprogramowaniem, którego używasz (ten drugi jest powodem, dla którego nigdy nie miałem okazji go używać).
Rinzwind

18

tesseract-ocrbyłby świetny w porównaniu do wszystkich innych. Aby zainstalować, uruchom polecenie sudo apt-get install tesseract-ocr.

Zastosowanie jest tesseract filename.jpg output.txt.

Powyższe polecenie wygeneruje output.txt.

Możesz rozważyć wybór odpowiedniego języka. W takim przypadku musisz zainstalować tesseract-ocr-LANGpakiet, w którym LANGjest trzyliterowy kod języka ISO 639-2 . W tej chwili masz 123 języki na repozytorium 18.04. Następnie użyj na przykład:

tesseract mySpanishText.jpg output -l spa

Hej, więc to działa, ale nie jest dokładne, a raczej powiedziałbym, że jest 80-85% dokładne. Jak na przykład dla tego obrazu: pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg , pomieszał znak $, a także większość nawiasów. Kwadratowe, okrągłe, kręcone, wszystkie nawiasy stanowią problem, nigdy nie zostaną poprawnie wyodrębnione. Czy znasz jakieś poprawki?
Milan Chheda,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.