tl; dr? Zacznij od Nuance PowerPDF Advanced.
Oceniłem oprogramowanie OCR w grudniu 2014 r. W ramach przygotowań do dużego projektu - OCR na milionach anglojęzycznych stron wykonanych partiami. Jeśli chcesz wydać kilkaset dolarów, masz wiele opcji; wersje próbne mogą Ci pomóc, jeśli musisz przekonwertować tylko kilkaset stron.
Wiele pakietów oprogramowania chce załadować wszystkie pliki wejściowe, wykonać OCR i połączyć bałagan w jedno wyjście. IMHO, to jest błędne, nie mam pojęcia, kto by tego chciał. Szukałem prawdziwej partii: jeden plik wyjściowy dla każdego pliku wejściowego, operacja nienadzorowana, nie przestawaj na nic, daj mi szczegółowy raport na końcu. Ostrzeżenie spoilera: Nie znalazłem tego.
Następują pakiety w kolejności alfabetycznej. Ceny przedstawione poniżej są cenami, ale rabaty są obfite. Weź moje komentarze na temat dokładności z odrobiną soli; Twoje dane wejściowe nie będą takie same jak moje dane wejściowe, więc Twój przebieg z pewnością będzie się różnić.
ABBYY Finereader 12 Corporate: 400 USD. Funkcja partii jest nazywana „Menedżerem zadań” i znajduje się w menu Narzędzia. Przetwarza pliki z folderu, w tym z podfolderów; z przyjemnością utworzy osobny plik wyjściowy dla każdego pliku wejściowego. Wydaje się, że nie jest w stanie zachować hierarchii folderów wejściowych; wszystkie pliki wyjściowe poszły do tego samego folderu wyjściowego. Dokładność była wysoka w moich testach, ale wciąż najniższa z wymienionych tutaj pakietów.
Adobe Acrobat XI: 300 USD. Funkcja wsadowa nosi nazwę „Rozpoznawanie tekstu / w wielu plikach”, którą można znaleźć, klikając Narzędzia (trzeci pasek narzędzi, prawy górny róg głównego ekranu). Przetwarza podfoldery, jedno wyjście dla każdego wejścia. Zatrzymuje i wyświetla monit, jeśli znajdzie plik chroniony hasłem. Domyślnie nie zachowuje wejściowego drzewa katalogów; można to zrobić, zapisując dane wyjściowe w tym samym folderze co dane wejściowe. Dokładność była całkiem dobra w moich testach.
Nuance OmniPage Ultimate (alias v19): 500 USD. Funkcja wsadowa nazywa się „DocuDirect” i jest to osobny program dostarczany z pakietem. Przetwarza foldery i podfoldery; jeśli odpowiednio wybierzesz funkcje, zachowa ono drzewo katalogów wejściowych w obszarze wyjściowym. Jedno wyjście dla każdego wejścia. Zatrzymuje się i żąda hasła do chronionego pliku. Wydaje się, że doskonale wykorzystuje wielordzeniowe procesory do równoległego uruchamiania zadań. Dokładność była doskonała . Ale stabilność procesora wsadowego jest niska; zamazany dokument zatrzyma go na właściwym miejscu, aby nigdy nie odzyskać, z łatwością wykoleiając partię.
Nuance PowerPDF Advanced v1.1 (następca OmniPage Ultimate): 150 USD. Funkcja wsadowa nosi nazwę „Konwerter wsadowy” i jest dostępna z poziomu programu głównego na karcie Zaawansowane przetwarzanie. Przetwarza foldery i podfoldery, zachowując strukturę wejściową w danych wyjściowych. Jedno wyjście dla każdego wejścia. Użyje wielu rdzeni, ale nie agresywnie; oznacza to, że nie mogłem nasycić hosta wielordzeniowego. Dokładność jest excllent , jako dobre lub lepsze niż OmniPage. Złe lub rozmyte pliki nie spowodowały zawieszenia się. Procesor wsadowy zapisuje ( szok ) zwykły plik dziennika w katalogu wyjściowym.
ReadIris Corporate 14: 600 USD. Funkcja partii jest wywoływana przez element „Batch OCR”, który jest ujawniany poprzez kliknięcie przycisku „Z plików” na ekranie głównym. Przetwarza foldery i podfoldery, po jednym wyjściu dla każdego wejścia, a domyślnie wyjściowa struktura katalogów odpowiada strukturze katalogów wejściowych. Zatrzymuje i żąda wprowadzenia przez użytkownika nieprawidłowego pliku; przetwarza bez dalszej reklamacji wszystkie chronione dokumenty najwyraźniej przez OCR-obraz. Dokładność była bardzo dobra, na równi z Acrobat.
Na moim komputerze stacjonarnym (tylko dwurdzeniowy), z wybranymi danymi wejściowymi, każda paczka wymagała co najmniej 3 sekund na przetworzenie strony; niektórzy zajęli więcej. Może być w stanie sprowadzić to na maszynie z większą liczbą rdzeni.
Mnóstwo jest gotowych, pamiętaj o ich zaplanowaniu: niepoprawne pliki PDF (niektóre paczki zatrzymują się), pliki PDF chronione hasłem (niektóre paczki zatrzymują się, inne konwertują mimo to!), A także strony obrócone (pozioma zamiast pionowej). Jeśli chcesz, aby partia działała do końca, musisz przygotować obszar wprowadzania dla tych pakietów bardzo, bardzo ostrożnie. Zajrzyj do funkcji drukowania do pliku PDF pakietu GhostScript, aby znaleźć sposób na usunięcie ochrony z plików PDF.
Uruchamianie dużych partii może prowadzić do wyczerpania pamięci i problemów z zawieszaniem się, nawet jeśli nie powinno (argh - prawdopodobnie wycieki pamięci). Jeśli w ogóle wykonujesz jakąkolwiek automatyzację, dużym problemem jest odkrycie po tym, co się naprawdę wydarzyło - które dokumenty nie mogły zostać przetworzone, które zawiodły podczas przetwarzania itp. To tak, jakby ludzie nie słyszeli o oprogramowaniu komputerowym o czymś, co nazywa się "plik dziennika".
Wreszcie uzyskanie wsparcia, nawet jako płatnego klienta, jest dość trudne dla tych pakietów masowego rynku. Na przykład złożyłem skargę do jednego z cenionych przedstawicieli obsługi klienta na pakiet (który powinien pozostać bezimienny) zawieszony na niektóre duże dane wejściowe. Czekałem 36 godzin, zanim się poddałem :). Słodko zasugerowali ograniczenie wielkości partii do 300 dokumentów. To było po prostu dla mnie całkowicie nie do przyjęcia, ale hej, to sprawiło, że ten bilet wsparcia został zamknięty, a cholera? I to wszystko ma znaczenie, prawda? Westchnienie.
HTH