Od dziś to wiem: najlepszą rzeczą do ekstrakcji tekstu z plików PDF jest TET, zestaw narzędzi do ekstrakcji tekstu . TET jest częścią rodziny produktów PDFlib.com.
PDFlib.com to firma Thomasa Merza. Jeśli nie rozpoznajesz jego nazwiska: Thomas Merz jest autorem „PostScript and PDF Bible”.
Pierwszym wcieleniem TET jest biblioteka . Że można prawdopodobnie zrobić wszystko, co chciał Budda006, w tym informacje o położeniu każdego elementu na stronie. Aha, i może również wyodrębniać obrazy. Ponownie łączy obrazy, które są podzielone na kawałki.
pdflib.com oferuje również inne wcielenie tej technologii, wtyczkę TET do programu Acrobat . Trzecim wcieleniem jest PDFlib TET iFilter . To jest samodzielne narzędzie dla komputerów stacjonarnych użytkowników. Oba są darmowe (jak w piwie) do użytku prywatnego, niekomercyjnego.
Jest naprawdę potężny. O wiele lepsze niż własna ekstrakcja tekstu Adobe. Wyodrębnił dla mnie tekst, w którym inne narzędzia (w tym Adobe) wypluwają tylko śmieci.
Właśnie przetestowałem samodzielne narzędzie dla komputerów stacjonarnych i to, co mówią na ich stronie internetowej, jest prawdą. Ma bardzo dobrą linię poleceń. Niektóre z moich "problematycznych" plików testowych PDF narzędzie obsłużyło z pełną satysfakcją.
Od teraz ta rzecz będzie moją rekomendacją dla wszystkich wyrafinowanych i trudnych wymagań dotyczących ekstrakcji tekstu PDF.
TET jest po prostu niesamowity. Wykrywa tabele. W tabelach identyfikuje komórki obejmujące wiele kolumn. Identyfikuje osobno wiersze tabeli i zawartość każdej komórki tabeli. Bardzo dobrze radzi sobie z łączeniem wyrazów: usuwa łączniki i przywraca całe wyrazy. Obsługuje języki inne niż ASCII (w tym CJK, arabski i hebrajski). Napotykając ligatury, przywraca oryginalne znaki ...
Spróbuj.