Odpowiedzi:
Dokumenty Google testują teraz nową funkcję API, która wykorzystuje OCR (optyczne rozpoznawanie znaków) na obrazach i plikach PDF.
Z systemu operacyjnego Google :
Interfejs API Dokumentów Google testuje nową funkcję, która umożliwia wykonywanie OCR (optyczne rozpoznawanie znaków) na obrazie. Jest na żywo demo, który ilustruje tę funkcję : można przesłać wysokiej rozdzielczości JPG, GIF lub PNG, który ma mniej niż 10 MB i Google Docs wyodrębnia tekst i zamienia go na nowy dokument. Google wspomina, że „operacja może obecnie potrwać do 40 sekund”, a niewielki test wykazał, że usługa nie jest jeszcze niezawodna: jest powolna i często zwraca błędy.
Wyniki są dalekie od idealnych i znajdziesz wiele błędów, ale usługa jest bezpłatna i ciągle się poprawia. Oto wynik OCR dla tego zeskanowanego dokumentu :
Dokument Dokumentów Google można wyeksportować w wielu różnych formatach, w tym HTML, OpenOffice i Word:
Zgodnie z moją odpowiedzią na temat SO Czy ktoś wie, jak łatwo programowo przekonwertować plik PDF na format docx :
Konwertuj PDF na SVG (ghostscript to zrobi) i importuj ...
... chodzi o to, że chociaż Word nie osadza PDF, to osadza SVG.
Użyj programu do optycznego rozpoznawania znaków, takiego jak na przykład Omnipage Pro . Obsługuje PDF jako wejście dokumentu i Word jako wynik.
Możesz także wypróbować OCRTerminal, który oferuje bezpłatną usługę za 20 stron miesięcznie. Posiadają klienta Beta Desktop Client, który wydaje się być dostępny na zaproszenie (musisz się z nimi skontaktować i wyrazić zainteresowanie).