Batch OCR dla wielu plików PDF (jeszcze nie OCRed)? [Zamknięte]

9

Korzystam z Google Desktop Search (korzystam z systemu Vista) i nie wszystkie moje pliki PDF są rozpoznawane w folderze archiwum. Jest to normalne, ponieważ „ pliki PDF zawierające zeskanowane obrazy ” nie są indeksowane ( http://desktop.google.com/support/bin/answer.py?hl=pl&answer=90651 )

Więc chciałbym OCR wielu moich plików PDF, które nie są jeszcze OCRedowane. Mój cel: daję programowi folder, który sam przeszukuje w podfolderach pliki PDF, które należy przekonwertować na pliki PDF-OCRed.

Uwaga: w przeszłości, jeśli plik PDF był chroniony hasłem, usunąłem hasło za pomocą innego narzędzia wsadowego (płatnego): verypdf.com „pwdremover” http://www.verypdf.com/pwdremover/

Jakiś (niezbyt drogi) pomysł?

Próbowałem już: Finereader 6 pro na XP w tym czasie, ale nie było procesora wsadowego w zestawie ... Paperfile paperfile.net, który używa Tesseract http://code.google.com/p/tesseract-ocr/ . Ale OCR to tylko PDF na tekst, a nie PDF na PDF! Istnieje również inny projekt http://code.google.com/p/ocropus/

Z góry dziękuję ;)

pdf ocr desktop-search

— Erb
źródło

Rok później aktualizacja: Witaj, Najwyraźniej oprogramowanie „ABBYY Hot Folder & Scheduling”, zawarte tylko w ABBYY FineReader (> w. 9.0) Edycje licencji dla firm i witryn, może pomóc (nie próbowałem: 600 $!)! Również Tesseract powinien teraz działać na Windowsie (teraz bez powodzenia dla mnie

— !;

Ponadto program ABBYY FineReader (> v. 9.0) Pro ma zadanie automatyzacji: wybierasz folder główny + jego podfoldery i wykonuje to zadanie. Ale głównym problemem jest to, że otwiera wszystkie pliki PDF jednocześnie (!!), a następnie je odczytuje (= ocr), a następnie zapisuje unikalny plik pdf! Więc jeśli masz setki pdf, to cholerstwo nie działa dla mnie! ; (Szkoda, co za koszmar!; (

— Erb

6

tl; dr? Zacznij od Nuance PowerPDF Advanced.

Oceniłem oprogramowanie OCR w grudniu 2014 r. W ramach przygotowań do dużego projektu - OCR na milionach anglojęzycznych stron wykonanych partiami. Jeśli chcesz wydać kilkaset dolarów, masz wiele opcji; wersje próbne mogą Ci pomóc, jeśli musisz przekonwertować tylko kilkaset stron.

Wiele pakietów oprogramowania chce załadować wszystkie pliki wejściowe, wykonać OCR i połączyć bałagan w jedno wyjście. IMHO, to jest błędne, nie mam pojęcia, kto by tego chciał. Szukałem prawdziwej partii: jeden plik wyjściowy dla każdego pliku wejściowego, operacja nienadzorowana, nie przestawaj na nic, daj mi szczegółowy raport na końcu. Ostrzeżenie spoilera: Nie znalazłem tego.

Następują pakiety w kolejności alfabetycznej. Ceny przedstawione poniżej są cenami, ale rabaty są obfite. Weź moje komentarze na temat dokładności z odrobiną soli; Twoje dane wejściowe nie będą takie same jak moje dane wejściowe, więc Twój przebieg z pewnością będzie się różnić.

ABBYY Finereader 12 Corporate: 400 USD. Funkcja partii jest nazywana „Menedżerem zadań” i znajduje się w menu Narzędzia. Przetwarza pliki z folderu, w tym z podfolderów; z przyjemnością utworzy osobny plik wyjściowy dla każdego pliku wejściowego. Wydaje się, że nie jest w stanie zachować hierarchii folderów wejściowych; wszystkie pliki wyjściowe poszły do tego samego folderu wyjściowego. Dokładność była wysoka w moich testach, ale wciąż najniższa z wymienionych tutaj pakietów.

Adobe Acrobat XI: 300 USD. Funkcja wsadowa nosi nazwę „Rozpoznawanie tekstu / w wielu plikach”, którą można znaleźć, klikając Narzędzia (trzeci pasek narzędzi, prawy górny róg głównego ekranu). Przetwarza podfoldery, jedno wyjście dla każdego wejścia. Zatrzymuje i wyświetla monit, jeśli znajdzie plik chroniony hasłem. Domyślnie nie zachowuje wejściowego drzewa katalogów; można to zrobić, zapisując dane wyjściowe w tym samym folderze co dane wejściowe. Dokładność była całkiem dobra w moich testach.

Nuance OmniPage Ultimate (alias v19): 500 USD. Funkcja wsadowa nazywa się „DocuDirect” i jest to osobny program dostarczany z pakietem. Przetwarza foldery i podfoldery; jeśli odpowiednio wybierzesz funkcje, zachowa ono drzewo katalogów wejściowych w obszarze wyjściowym. Jedno wyjście dla każdego wejścia. Zatrzymuje się i żąda hasła do chronionego pliku. Wydaje się, że doskonale wykorzystuje wielordzeniowe procesory do równoległego uruchamiania zadań. Dokładność była doskonała . Ale stabilność procesora wsadowego jest niska; zamazany dokument zatrzyma go na właściwym miejscu, aby nigdy nie odzyskać, z łatwością wykoleiając partię.

Nuance PowerPDF Advanced v1.1 (następca OmniPage Ultimate): 150 USD. Funkcja wsadowa nosi nazwę „Konwerter wsadowy” i jest dostępna z poziomu programu głównego na karcie Zaawansowane przetwarzanie. Przetwarza foldery i podfoldery, zachowując strukturę wejściową w danych wyjściowych. Jedno wyjście dla każdego wejścia. Użyje wielu rdzeni, ale nie agresywnie; oznacza to, że nie mogłem nasycić hosta wielordzeniowego. Dokładność jest excllent , jako dobre lub lepsze niż OmniPage. Złe lub rozmyte pliki nie spowodowały zawieszenia się. Procesor wsadowy zapisuje ( szok ) zwykły plik dziennika w katalogu wyjściowym.

ReadIris Corporate 14: 600 USD. Funkcja partii jest wywoływana przez element „Batch OCR”, który jest ujawniany poprzez kliknięcie przycisku „Z plików” na ekranie głównym. Przetwarza foldery i podfoldery, po jednym wyjściu dla każdego wejścia, a domyślnie wyjściowa struktura katalogów odpowiada strukturze katalogów wejściowych. Zatrzymuje i żąda wprowadzenia przez użytkownika nieprawidłowego pliku; przetwarza bez dalszej reklamacji wszystkie chronione dokumenty najwyraźniej przez OCR-obraz. Dokładność była bardzo dobra, na równi z Acrobat.

Na moim komputerze stacjonarnym (tylko dwurdzeniowy), z wybranymi danymi wejściowymi, każda paczka wymagała co najmniej 3 sekund na przetworzenie strony; niektórzy zajęli więcej. Może być w stanie sprowadzić to na maszynie z większą liczbą rdzeni.

Mnóstwo jest gotowych, pamiętaj o ich zaplanowaniu: niepoprawne pliki PDF (niektóre paczki zatrzymują się), pliki PDF chronione hasłem (niektóre paczki zatrzymują się, inne konwertują mimo to!), A także strony obrócone (pozioma zamiast pionowej). Jeśli chcesz, aby partia działała do końca, musisz przygotować obszar wprowadzania dla tych pakietów bardzo, bardzo ostrożnie. Zajrzyj do funkcji drukowania do pliku PDF pakietu GhostScript, aby znaleźć sposób na usunięcie ochrony z plików PDF.

Uruchamianie dużych partii może prowadzić do wyczerpania pamięci i problemów z zawieszaniem się, nawet jeśli nie powinno (argh - prawdopodobnie wycieki pamięci). Jeśli w ogóle wykonujesz jakąkolwiek automatyzację, dużym problemem jest odkrycie po tym, co się naprawdę wydarzyło - które dokumenty nie mogły zostać przetworzone, które zawiodły podczas przetwarzania itp. To tak, jakby ludzie nie słyszeli o oprogramowaniu komputerowym o czymś, co nazywa się "plik dziennika".

Wreszcie uzyskanie wsparcia, nawet jako płatnego klienta, jest dość trudne dla tych pakietów masowego rynku. Na przykład złożyłem skargę do jednego z cenionych przedstawicieli obsługi klienta na pakiet (który powinien pozostać bezimienny) zawieszony na niektóre duże dane wejściowe. Czekałem 36 godzin, zanim się poddałem :). Słodko zasugerowali ograniczenie wielkości partii do 300 dokumentów. To było po prostu dla mnie całkowicie nie do przyjęcia, ale hej, to sprawiło, że ten bilet wsparcia został zamknięty, a cholera? I to wszystko ma znaczenie, prawda? Westchnienie.

HTH

— chrisinmtown
źródło

Witaj Chrislott, Dziękuję za szczegółową odpowiedź. ;) Doceniam. ;) Mamy ponad 4 lata później i niewiarygodnie wciąż żadne oprogramowanie nie jest idealne, aby po prostu zrobić automatyczny OCR w folderze i zwolnić plik dziennika z błędami po zakończeniu! ... Może postaram się skontaktować z Nuance.

— Erb

Na razie korzystam ze starej wersji Acrobat pro i kilku darmowych. To długi proces. W razie potrzeby mogę go szczegółowo opisać! Ale praca jest wykonywana najlepiej, jak to możliwe! ;)

— Erb

3

Adobe Acrobat przetworzy folder plików PDF i, podobnie jak większość produktów Adobe, obowiązuje 30-dniowa wersja próbna .
Funkcja znajduje się w menu „Dokument”:

Dokument> Recocnition Text OCR> Rozpoznawanie tekstu w wielu plikach za pomocą OCR

skąd możesz dodać swój folder.

W programie Acrobat X funkcja jest dostępna w następujący sposób:

Narzędzia> Rozpoznaj tekst> W wielu plikach

— dłonie
źródło

Dziękuję „dłonie”. ;) Spróbuję, jak pozwala na to czas. W mojej poprzedniej wersji finereader.abbyy.com podobało mi się to, że rozpoznaje kilka różnych języków. ;)

— Erb

1

W rzeczywistości pdfsandwich został zaktualizowany w ciągu ostatniego roku i nie było mi wcale trudno zainstalować w Linux Mint. Wyniki, które daje, są gorsze niż Adobe Acrobat, ale jest to jedyne wykonalne rozwiązanie, jakie do tej pory znalazłem w Linuksie.

— Brian Z
źródło

1

Bardzo interesujące! Nie wiedziałem o tym. Dodaję link z en.wikisource.org/wiki/… i przetestuję go w przyszłości. (W rzeczywistości istnieje wiele innych rozwiązań, ale nie zacznę tutaj!)

— Nemo,

0

Wypróbuj WatchOCR . Jest to pakiet oprogramowania typu open source, który konwertuje zeskanowane obrazy na pliki PDF z możliwością wyszukiwania tekstu. Jest darmowy i open source i ma przyjemny interfejs WWW do zdalnej administracji. Przy odpowiedniej konfiguracji można go użyć do utworzenia partii pdf / ocr dla całej sieci za pośrednictwem udziałów SMB. Niestety jest to tylko linux. Ale możesz zainstalować go na starym serwerze, a następnie cała organizacja będzie mogła z niego korzystać.

Jeśli chcesz zrobić to samo online bez instalowania czegokolwiek, wypróbuj PDFCubed.com

— Rlangner
źródło

Strona główna WatchOCR jest przykucnięta, ale zarchiwizowana

— Tobias Kienzler,