Redukcja ciężkich skanowanych plików PDF (zachowywanie tylko OCR i usuwanie zeskanowanego obrazu)


0

Mam ciężki skanowany plik PDF z OCR. Mogłem zmniejszyć jego rozmiar o połowę ghostscript win64 , za pomocą tego polecenia (zgodnie z zaleceniami w tym odpowiedź ):

gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf

Ale nadal nie jest wystarczająco jasny.

Mogłem również przekonwertować plik pdf na Kaliber lub pdftotext z xpdf ale tracę układ.

Czy istnieje sposób na wyodrębnienie OCR, zachowując dokładną pozycję każdego tekstu na każdej stronie podczas usuwania zeskanowanego obrazu?

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.