Ale jak to możliwe?
Zasadniczo program wykonuje OCR na pliku wejściowym, a następnie umieszcza niewidoczną warstwę tekstu na obrazie. Alternatywnie może również umieścić widoczną warstwę tekstu pod obrazem, dając ten sam efekt.
Po wybraniu czegoś obraz nie ma znaczenia, ponieważ warstwa tekstowa zostaje zaznaczona.
jak można to stworzyć?
Istnieje kilka sposobów. Biorąc pod uwagę, że Acrobat został już zasugerowany, dodam kilka bezpłatnych opcji (i na szczęście nie musisz zmuszać systemu Windows do korzystania z nich).
PDF-X Zmień przeglądarkę
Jest to macierzysty program Windows firmy Tracker Software . Wersja bezpłatna działa dobrze w Wine, jeśli używasz wersji 32-bitowej z 32-bitowym prefiksem, dlatego możesz jej używać w systemach Windows, macOS i Linux. W dwóch ostatnich przypadkach potrzebujesz odpowiednio PlayOnMac lub PlayOnLinux.
Oto zdjęcie z tej odpowiedzi, którą zostawiłem na Ask Ubuntu:
OCRmyPDF
Jest to program wieloplatformowy napisany w języku Python , oparty na Ghostscript, Tesseract i Unpaper. Z dokumentów:
Co robi OCRmyPDF
OCRmyPDF analizuje każdą stronę pliku PDF, aby określić przestrzeń kolorów i rozdzielczość (DPI) potrzebne do przechwycenia wszystkich informacji na tej stronie bez utraty zawartości. Używa Ghostscript do rasteryzacji strony, a następnie wykonuje OCR na zrasteryzowanym obrazie, aby utworzyć „warstwę” OCR. Warstwa jest następnie szczepiona z powrotem na oryginalny plik PDF.
Można go łatwo zainstalować na pochodnych Debiana i Ubuntu:
apt-get install ocrmypdf
Lub na macOS:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
W systemie Windows musisz użyć obrazu Docker. Szczegółowe informacje można znaleźć w oficjalnych dokumentach.
Użycie jest bardzo proste i sugeruję użycie opcjonalnych parametrów -d
(prostowania) i -c
(czystego) parametrów w celu uzyskania lepszych wyników. Wyprostuje każdą stronę i usunie małe kropki / niedoskonałości przed uruchomieniem procesu OCR.
Możesz (i powinieneś) podać język -l
.
Oto przykład zaczerpnięty z tego wypaczonego dokumentu napisanego w języku włoskim:
Polecenie, którego użyłem to:
ocrmypdf -l ita -d -c input.pdf output.pdf
Narzędzia online
Istnieje kilka narzędzi online, które robią to samo. Warto zauważyć, że PDF24 zawiera bezpłatną internetową wersję OCRmyPDF, z której można korzystać bez ograniczeń.
Zobacz też: