Mam plik PDF zawierający mapy budynku, w którym pracuję, tutaj:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
Oryginalne pliki źródłowe zostały utracone i poproszono mnie o wyodrębnienie obrazów map, najlepiej bez tekstu i ikon, które zostały na nich nałożone. Okazało się to denerwująco trudne.
Do tej pory wypróbowałem następujące programy GUI:
- Adobe Reader: pozwala mi zaznaczać tekst, ale nie obrazy tła
- Przeglądarka plików PDF FoxIt: pozwala mi zaznaczać tekst, ale nie obrazy tła
- XPDF w systemie Ubuntu 10.10: pozwala mes wybierać tekst, ale nie obrazy tła
A także następujące programy wiersza polecenia:
- pdfimages: wyodrębnia ikony wskazujące łazienki, ale nie obrazy tła
- pdftohtml: to samo co pdfimages, a ponadto tworzy źle oznakowany dokument HTML
- pdfextract: to samo co pdfimages
- konwersja: pomyślnie zapisane obrazy, ale z wypalonym tekstem
Próbowałem nawet ręcznie otworzyć plik PDF w edytorze tekstu i wyodrębnić obiekty strumienia, wklejając je do nowego pliku i zapisując go z rozszerzeniem .jpg, .png lub .bmp (każdy z kolei). Biorąc pod uwagę, jak mało wiem o wewnętrznej strukturze plików PDF, nic dziwnego, że to nie zadziałało.
Więc ... czy jest jakiś sposób, aby odzyskać obrazy mapy z tej rzeczy bez uzyskiwania tekstu i ikon?
qpdf
do konwersji części binarnych na ASCII, o ile to możliwe. (2) Użyj edytora tekstu, aby uczynić cały tekst niewidocznym, którego nie chcę widzieć na ekranie ani na wydrukach (można to łatwo i bez uszkodzenia tabeli XRef przełączać niewidzialną flagą). (3) Ponownie destyluj wynik za pomocą Ghostscript, aby maksymalnie zmniejszyć jego rozmiar. - Niestety, nie można już pobrać pliku w celu zademonstrowania procedury ...