Mam plik PDF zeskanowanej książki.
Szukam darmowego oprogramowania, które wykona OCR, a następnie zapewni opcję zapisania go ponownie jako plik PDF lub dokument.
Czy jest jeden
Mam plik PDF zeskanowanej książki.
Szukam darmowego oprogramowania, które wykona OCR, a następnie zapewni opcję zapisania go ponownie jako plik PDF lub dokument.
Czy jest jeden
Odpowiedzi:
Możesz pobrać 30-dniową wersję próbną programu Adobe Acrobat Pro i użyć funkcji „Rozpoznawanie tekstu OCR” („Dokument> Rozpoznawanie tekstu OCR> Rozpoznawanie tekstu za pomocą OCR ...”). W oknie dialogowym ustawień wybierz „Obraz do przeszukiwania” jako styl wyjściowy. Pozwoli to zachować obraz strony, ale osadzi tekst OCR, dzięki czemu dokument będzie można przeszukiwać i umożliwi zaznaczanie, kopiowanie i wklejanie tekstu.
Po uruchomieniu OCR musisz potwierdzić lub poprawić słowa, że OCR nie ma pewności co do używania funkcji „Znajdź podejrzanych OCR”.
Jeśli masz konto Google, Dokumenty Google zawierają teraz funkcję przesyłania pliku PDF i wykonywania na nim OCR.
Sam go wypróbowałem i to całkiem niezła próba w dobrze sformatowanym pliku PDF.
Formatowanie jest prawie całkowicie zniszczone, ale tekst wydaje się przetrwać.
Następujące produkty zostały wymienione w Internecie, ale ich nie użyłem.
OCR online
OCR Terminal to internetowa usługa OCR, która wykonuje optyczne rozpoznawanie znaków (OCR) na zeskanowanych obrazach i plikach pdf i przekształca je w dokumenty edytowalne i z możliwością wyszukiwania tekstu.
Free-OCR.com to bezpłatne narzędzie OCR (Optical Character Recognition). Możesz użyć tego do wykonania rozpoznawania OCR na każdym dostarczonym obrazie.
Ta usługa jest bezpłatna, nie jest wymagana rejestracja. Nie potrzebujemy również twojego adresu e-mail.
Po prostu prześlij swoje pliki graficzne. Free-OCR pobiera JPG, GIF, TIFF BMP lub PDF ( tylko pierwsza strona ). Jedynym ograniczeniem jest to, że obrazy nie mogą być większe niż 2 MB, nie szersze ani większe niż 5000 pikseli, a limit przesyłania zdjęć wynosi 10 na godzinę.
Maestro Recognition Server jest komercyjny, ale ma wersję próbną online.
Darmowe oprogramowanie
FreeOCR - tylko dla zdjęć.
FreeOCR to program do skanowania i rozpoznawania OCR, w tym darmowy silnik ocser Tesseract znany również jako GUI Tesseract. Zawiera instalator Windows i jest bardzo prosty w obsłudze i obsługuje wielostronicowe tiffy, dokumenty faksowe, a także większość typów obrazów, w tym skompresowane tiffy, których sam silnik Tesseract nie może odczytać. Teraz ma skanowanie Twain.
pdfsandwich - pdf -> konwerter pdf.
pdfsandwich to narzędzie wiersza polecenia do zeskanowanych książek lub czasopism OCR. Jest w stanie rozpoznać układ strony nawet dla tekstu wielokolumnowego.
Zasadniczo pdfsandwich to skrypt otoki, który wywołuje następujące pliki binarne: convert, cuneiform, gs i hocr2pdf. Wiadomo, że działa na systemach Unix i został przetestowany na systemach Linux i MacOS X. Obsługuje równoległe przetwarzanie w systemach wieloprocesorowych.
Cuneiform + hocr2pdf + Ghostscript : DIY rozwiązanie typu open source.
I napisali to odpowiedź przedstawiający rozwiązanie obejmujące wersję tego teraz open source Cuneiform systemu OCR i hocr2pdf wraz z Ghostscript do umieszczania stron PDF razem.
To było specjalnie dla Linuksa, ale możesz także pobrać Cuneiform i Ghostscript dla Windows. Nie jestem jednak pewien co do hocr2pdf lub równoważnego.
Zainstaluj Imagemagick . Otwórz okno lub terminal cmd:
convert myfile.pdf myfile-%02d.jpg
Dane wyjściowe to 1 plik jpg dla każdej strony w pliku pdf, mój_plik-00.jpg, mój_plik-01.jpg itp.
Przekaż każdy obraz za pomocą programu ocr. Nie mam z tym dużego doświadczenia, ale wydaje się, że jest wiele możliwości wyboru.
Konwertuj każdą stronę tekstu z powrotem na pdf. Możesz to zrobić ponownie za pomocą imagemagick, ale są też inne sposoby:
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
Twoje zapytanie wydaje się być skomplikowanym rozwiązaniem problemu, chociaż mogę nie rozumieć go poprawnie. W każdym razie:
Dlaczego nie uzyskać programu do zapisywania plików PDF, który pozwala na wprowadzanie danych bezpośrednio na stronie pdf?
Wypróbuj PDFCubed.com Nie trzeba nic instalować, wszystko odbywa się online. Możesz wysłać swoje dokumenty do przetworzenia przez Internet, e-mail lub skrzynkę odbiorczą. Zeskanowane pliki PDF i TIF są konwertowane na tekstowe pliki PDF z możliwością przeszukiwania, a następnie można je odzyskać przez Internet, pocztę e-mail lub Dropbox.