Jak mogę wyodrębnić zawartość ze skanowanych plików?

1

Użyłem wcześniej funkcji Preview i Automator, aby wyodrębnić tekst z dokumentów PDF, ale nie działają one na skanowanych. Jak mogę wyodrębnić zawartość zeskanowanych plików z zachowanym formatowaniem? Nie chcę płacić za Adobe.

pdf conversion macos-sierra

— Rosa Reyes
źródło

0

Jak już powiedziano, zeskanowane dokumenty to obrazy (tekstu). Aby zrozumieć tekst, musisz uruchomić OCR (Optical Character Recognition) nad tym dokumentem.

Dostępnych jest kilka produktów OCR dla komputerów Mac i może być tak, że twój skaner jest dostarczany z takim produktem. Jednak prosząc o formatowanie, żądasz pewnych dość zaawansowanych funkcji, które nie są dostępne w podstawowych produktach. Dlatego możesz oczekiwać, że zapłacisz za to oprogramowanie OCR. Z tego punktu widzenia możesz ponownie rozważyć program Acrobat.

— Max Wyss
źródło

Adobe kosztuje, wszelkie inne alternatywy

— Rosa

@RosaReyes:… i? Chcesz dość wyszukanej funkcjonalności. Pamiętaj, dostajesz to, co płacisz…

— Max Wyss

0

Przez „zeskanowane” przypuszczam, że masz na myśli, że dokument zawiera tylko obrazy tekstu, a nie znaki tekstowe. W takim przypadku należy użyć oprogramowania do optycznego rozpoznawania znaków (OCR).

W systemie operacyjnym Windows istnieją FreeOCR , a9t9 i inne . Istnieje również oprogramowanie na Androida, Linux i Mac, a także dostępne są usługi internetowe oparte na przeglądarce.

— DrMoishe Pippik
źródło

Tak, próbowałem tego, ale nie tak zadowolony z wyników, trochę bałaganu w formatowaniu, zbyt wiele luk między słowami i zdaniami.

— Rosa Reyes

Znalazłem, że Google OCR dobrze rozwiązał mój problem.

— Rosa Reyes