Jak usunąć OCR z pliku PDF?

11

Od jakiegoś czasu szukam Google, ale nie mogę znaleźć odpowiedzi na moje pytanie.

Mam niechciane warstwy OCR w dokumencie, który ostatnio skanowałem za pomocą Adobe Acrobat. Nie został poprawnie rozpoznany, a ja chcę zmienić niektóre informacje, ale OCR sprawia, że poszukiwane informacje zostają usunięte. Przekształciłem pliki na TIF, ale zauważyłem (bardzo) znaczną utratę jakości. Słyszałem, że drukowanie do innego pliku PDF albo zachowuje tekst, albo zmniejsza jakość obrazu.

Doceniam wszelką pomoc w rozwiązaniu tego problemu JAK NAJSZYBCIEJ.

Dziękuję Ci.

— Sanoo
źródło

3

W programie Acrobat Pro DC odpowiednią komendą jest „Usuń ukryte informacje”, która jest dostępna zarówno za pomocą narzędzi „Chroń”, jak i „Redact”.

Po uruchomieniu polecenia wyszukuje tylko ukryte informacje, ale nie zmienia dokumentu. Następnie musisz poinformować Acrobat, które informacje usunąć. W takim przypadku wybierz „Ukryty tekst” w panelu Wyniki, a następnie kliknij przycisk Usuń i zapisz zmieniony dokument.

— user1125483
źródło

Użyłem „usuń ukryte informacje”, ale dla mnie z jakiegoś powodu usuwa tylko części obrazu na niektórych stronach. Jednak za odpowiedź.

— Sanoo

To nie jest uniwersalne. Jakoś (prawdopodobnie błędy systemu MacOS PDFKit) mój tekst ABBYY FineReader-OCRed został uszkodzony, a zaznaczenie opcji „Ukryty tekst” w obszarze Redact → Remove Hidden usunęło tekst bez żadnych problemów; Udało mi się wtedy z powodzeniem użyć funkcji zwiększania skanów → Rozpoznaj tekst, aby wykonać OCR w samym programie Acrobat.

— Nicholas Riley

Problem polega na tym, że po usunięciu ukrytego tekstu nadal nie mogę uruchomić OCR za pomocą „ClearScan” (tj. „Tekst edytowalny i obrazy”). To dziwne, ponieważ warstwa tekstowa wydaje się nie istnieć, ale uruchomienie OCR powoduje błąd „Acrobat nie może wykonać rozpoznawania, ponieważ: strona zawiera tekst do renderowania”.

— user1125483

1

Po wielu eksperymentach odkryłem, że drukowanie do Adobe PDF z Adobe Acrobat drukuje dokument bez OCR i bez utraty jakości (utrata niezauważalnej na pierwszy rzut oka rozdzielczości).

Jednak wiele stron twierdzi, że to nie działa. Próbowałem także innych drukarek, takich jak Foxit Reader i OneNote, ale jakość została zmniejszona. JPEG też był taki sam.

Pamiętaj, że Twój przebieg może się różnić.

Uwaga: zostawiam ten wątek oznaczony jako bez odpowiedzi w nadziei znalezienia lepszej odpowiedzi niż moja.

— Sanoo
źródło

1

W programie Acrobat Pro: użyj „usuń ukryte informacje” (pod „ochrona”). Zaznacz wszystko, wykonaj, OCR zniknął

— jazzzz
źródło

1

W programie Acrobat X, w obszarze Ochrona, znajduje się przycisk Dokument odkażania, który usuwa WSZYSTKO, ale to, co można zobaczyć (w tym warstwę tekstową OCR), przekształcając dokument na spłaszczoną mapę bitową.

— Dave
źródło

0

(rok temu...)

Jeśli, jak mówisz, dokumenty są skanowane i nie są drukowane na przykład w formacie PDF z programu Word, możesz łatwo usunąć je za pomocą Adobe:

Wybierz Dokument, zbadaj dokument a teraz możesz usunąć ukryty tekst (OCR).

— Fran
źródło

Dzięki za odpowiedź. Przetestuję to tak szybko, jak będę mógł, i dam ci znać. Dziękuję za odpowiedź!

— Sanoo

Myślałem, że już to skomentowałem, ale problem polega na tym, że mam Acrobat DC Pro i te menu zostały usunięte. I tak dziękuję za odpowiedź.

— Sanoo

0

Zbudowałem narzędzie do tego darmowy PDF Redaktor . Jeśli prześlesz obraz i klikniesz redact, spłaszczy on Twój plik PDF i usunie OCR. Jeśli chcesz, możesz również narysować znaki redakcji na dokumencie.

— levinology
źródło