Korzystam z Automatora w połączeniu z Abbys Finereader, aby oglądać folder dla nowych zeskanowanych dokumentów PDF. Program Finereader OCR zapisuje dokument i eksportuje go do nowego pliku PDF w tym samym folderze. Od miesiąca korzystam z ustawienia eksportu „tekst na obrazie strony”. Objaśnienia tego ustawienia w przewodniku użytkownika to:
Ta opcja zapisuje tło i zdjęcia oryginalnego dokumentu i umieszcza nad nimi rozpoznany tekst. Zwykle plik PDF zapisany przy użyciu tej opcji wymaga więcej miejsca na dysku niż plik zapisany z włączoną opcją Tylko tekst i obrazy. Wynikowy dokument PDF można w pełni przeszukiwać. W niektórych przypadkach wygląd wynikowego dokumentu może nieznacznie różnić się od oryginału.
Problem polega na tym, że niektóre pliki PDF, które zostały zeskanowane i „OCRed”, zawierają wiele niewłaściwych znaków, ale właśnie dowiedziałem się o tej awarii.
Czy w jakikolwiek sposób można „przywrócić” do wersji bez OCR? Próbowałem wyeksportować plik PDF jako plik TIFF, ale tam też są nieprawidłowe znaki ...
Jakieś pomysły?