Po pierwsze, musisz zrozumieć, co to jest plik PDF. Pliki PDF zostały zaprojektowane tak, aby naśladować wydrukowaną stronę i zostały zaprojektowane wyłącznie jako format wyjściowy, a nie format wejściowy. PDF to w zasadzie mapa zawierająca dokładną lokalizację znaków (pojedyncze litery lub znaki interpunkcyjne itp.) lub obrazów. W większości przypadków plik PDF nie przechowuje nawet informacji o tym, gdzie kończy się jedno słowo, a zaczyna inne, a tym bardziej takie rzeczy, jak miękkie łamanie vs. twarde łamanie końców akapitów.
(Kilka najnowszych plików PDF zawiera pewne informacje na temat tych rzeczy, ale jest to nowa technologia i możesz mieć szczęście znaleźć takie pliki PDF. Nawet jeśli tak, przeglądarka plików PDF może o tym nie wiedzieć.)
W każdym razie, od twojego oprogramowania zależy wdrożenie „sztucznej inteligencji”, aby wyodrębnić z lokalizacji poszczególnych znaków to, co jest słowem, co jest akapitem i tak dalej. Inne oprogramowanie zrobi to lepiej niż inne, a także będzie zależeć od tego, jak utworzono plik PDF. W każdym razie nigdy nie należy oczekiwać doskonałych rezultatów. Posiadanie wyjściowego pliku PDF to nie to samo, co dokument źródłowy. O wiele lepiej spróbować to uzyskać, jeśli możesz.
Standardowym rozwiązaniem twojego problemu jest użycie Adobe Acrobat Professional (drogi, nie darmowy czytnik) do konwersji pliku PDF na HTML. Nawet to nie zapewni doskonałych rezultatów.
Istnieje bezpłatne oprogramowanie, którego można użyć do wyodrębnienia tekstu z plików PDF z nienaruszonym formatowaniem, ale ponownie nie oczekuj doskonałych rezultatów. Zobacz np. Kaliber (który można przekonwertować do formatu RTF), pdftohtml / pdfreflow lub edytor tekstu AbiWord (z włączonymi wszystkimi wtyczkami importu / eksportu). Dostępna jest również wtyczka do importu plików PDF dla OpenOffice.
Ale proszę nie oczekiwać perfekcji z żadnym z tych wyników. Idziesz tutaj pod prąd. PDF po prostu nie ma być edytowalnym formatem wejściowym.