Zrozumienie opcji OCR w Adobe Acrobat: „Obraz możliwy do przeszukiwania”, „Obraz możliwy do przeszukiwania (Dokładnie)” oraz „Tekst edytowalny i obrazy”

W programie Adobe Acrobat (jeśli to ważne, używam Pro DC) istnieją trzy opcje OCR:

„Obraz do przeszukiwania”.
„Obraz do przeszukiwania (Dokładnie)”.
„Edytowalny tekst i obrazy”.

Jakie są różnice między tymi trzema opcjami?

W szczególności, co determinuje rozmiar pliku wyjściowego? W tej chwili korzystam z pierwszej i trzeciej opcji i wydaje się, że czasami jedna jest większa, a czasem druga jest większa (a różnice mogą być znaczne).

Jakie (jeśli w ogóle) są kompromisy między jakością, rozmiarem pliku i szybkością przetwarzania OCR?

adobe-acrobat ocr

— Kenny LJ
źródło

Temat, który Cię interesuje, znajduje się pod koniec przewodnika, pod nagłówkiem Rozpoznawanie tekstu w zeskanowanych dokumentach . Jest też ta strona

— spike_66

Artykuł pomocy Adobe Skanuj dokument papierowy do pliku PDF , sekcja Okno dialogowe Rozpoznawanie tekstu - Ustawienia ogólne, definiuje tryby skanowania jako:

Obraz do przeszukiwania

Zapewnia, że tekst można przeszukiwać i wybierać. Ta opcja zachowuje oryginalny obraz, prostuje go w razie potrzeby i umieszcza nad nim niewidoczną warstwę tekstową. Wybór obrazów próbkujących w dół w tym samym oknie dialogowym określa, czy obraz jest próbkowany w dół i w jakim zakresie.

Obraz do przeszukiwania (Dokładnie)

Zapewnia, że tekst można przeszukiwać i wybierać. Ta opcja zachowuje oryginalny obraz i umieszcza nad nim niewidoczną warstwę tekstową. Zalecany w przypadkach wymagających maksymalnej wierności oryginalnego obrazu.

Edytowalny tekst i obrazy

Syntetyzuje nową niestandardową czcionkę, która jest zbliżona do oryginału i zachowuje tło strony za pomocą kopii o niskiej rozdzielczości.

Próbkowanie do

Zmniejsza liczbę pikseli obrazów kolorowych, w skali szarości i monochromatycznych po zakończeniu OCR. Wybierz stopień próbkowania w dół, który chcesz zastosować. Opcje o wyższych numerach zmniejszają próbkowanie w dół, tworząc pliki PDF w wyższej rozdzielczości.

Przeanalizuję wpływ tych opcji na rozmiar pliku wyjściowego.

Wszystkie opcje zachowują obraz, który jest prawdopodobnie dużym obiektem.

Przeszukiwalny obraz obraca obraz, który może zmienić jego rozmiar, zwiększając go lub zmniejszając, w zależności od metody ponownego kodowania obrazu stosowanej wewnętrznie przez Adobe

Próbkowanie w dół może zmniejszyć rozdzielczość obrazu i tym samym zmniejszyć jego rozmiar, ale ilość uzyskanego (lub utraconego) miejsca zależy od metody ponownego próbkowania zastosowanej wewnętrznie przez Adobe.

Edytowalny tekst i obrazy syntetyzuje nową czcionkę, która jest następnie zawarta w pliku PDF i doda kilkadziesiąt K-bajtów do rozmiaru wyjściowego.

Podsumowując, nie ma jasnej metody tworzenia najmniejszego pliku PDF. Kwota uzyskana (lub utracona) zależy zarówno od obrazów poddawanych OCR, jak i od tego, jak skutecznie mogą być ponownie skompresowane przez Adobe.

Jeśli celem jest oszczędność miejsca, sugerowałbym użycie edytowalnego tekstu i obrazów , ale zgodnie z opisem w tym artykule Adobe Acrobat , w ustawieniach „Użyj dostępnej czcionki systemowej”, aby uniknąć niestandardowej czcionki. Możesz także usunąć obrazy, jeśli wystarczy tekst OCR.

— harrymc
źródło