Załóżmy, że masz 2 „zeskanowane” pliki pdf.
- Duży, ale bez warstwy tekstowej.
- Mniejszy (z obrazami o niższej jakości), ale z prawidłową warstwą tekstową.
Oba pliki zawierają równe obrazy, różniące się jedynie kompresją.
Celem jest osadzenie tej samej warstwy tekstowej w 1. pdf.
„Tylko pierwszy plik OCR” nie jest rozwiązaniem. Wiem, że Acrobat (i niektóre inne narzędzia) są w stanie OCR bez zmiany warstwy obrazu, ale nie jestem zadowolony z ich jakości OCR.
Widzę więc dwa możliwe sposoby:
- Jakoś eksportuj i importuj warstwę tekstową
- Jakoś zamień obrazy w warstwie obrazu.
Jeśli chodzi o 1. sposób, nic nie znalazłem. Jeśli chodzi o drugi sposób, znalazłem dwa narzędzia, które są dość zbliżone do hocr2pdf i pdf2text , ale o ile rozumiem , wciąż są niewystarczające. :(
PS: użyj przykładu:
Właśnie znalazłem inny przykład, w którym taka operacja jest przydatna w sposób systematyczny.
Jeśli masz zeskanowany plik pdf-1 (bez warstwy tekstowej) z, powiedzmy, kompresją obrazu „jpg”, program do czytania Abbyy udostępnia OCR'd pdf, pdf-2. Byłby albo dość duży, jeśli wybierzesz bezstratną kompresję obrazu, albo miałby jakość obrazu znacznie niższą niż pdf-1. W wielu przypadkach najlepszym wyborem jest utrzymanie kompresji obrazu źródłowego w niezmienionej postaci i nie kompresowanie obrazu.