Zanim zacząłem używać Ubuntu, użyłem czytnika PDF Nitro, aby automatycznie wyodrębnić obrazy z plików PDF. Czy istnieje czytnik PDF dla systemu Linux, który to robi?
Chciałbym móc wyodrębniać zdjęcia szybciej / łatwiej niż podczas robienia zdjęcia.
Zanim zacząłem używać Ubuntu, użyłem czytnika PDF Nitro, aby automatycznie wyodrębnić obrazy z plików PDF. Czy istnieje czytnik PDF dla systemu Linux, który to robi?
Chciałbym móc wyodrębniać zdjęcia szybciej / łatwiej niż podczas robienia zdjęcia.
Odpowiedzi:
pdfimages
pdfimages
to narzędzie do pobierania obrazów PDF, które zapisuje obrazy w pliku PDF w formacie PPM, PBM, JPEG lub JPEG 2000.
Jest to część poppler-utils
pakietu, którą musisz zainstalować.
Stosowanie: pdfimages [options] <PDF-file> <image-root>
Przykład: Poniżej wyodrębniono wszystkie obrazy z pliku PDF, zapisując je w formacie JPEG.
pdfimages -j in.pdf /tmp/out
Zapisuje obrazy z pliku PDF in.pdf
w plikach /tmp/out-000.jpg
(lub /tmp/out-000.pbm
; patrz poniżej) /tmp/out-001.jpg
itp.
Pdfimages strona mężczyzna wyjaśnia:
-j: Normally, all images are written as PBM (for monochrome images) or PPM for
non-monochrome images) files. With this option, images in DCT format are
saved as JPEG files. All non-DCT images are saved in PBM/PPM format as usual.
-all Write JPEG, JPEG2000, JBIG2, and CCITT images in their native format. CMYK files are written as TIFF files. All other images are written as PNG files. This is equivalent to specifying the options -png -tiff -j -jp2 -jbig2 -ccitt.
-all
przełącznik jest obsługiwany tylko w ostatnich wersjach poppler-utils. Na przykład, jeśli nadal jesteś w dniu 12.04, nie będziesz mieć dostępu do tej opcji
-all
przejdź do formatów PNM. Są bezstratne i możesz przetwarzać obrazy np. W formacie PNG.
$ pdfimages -list <PDF-file>
aby sprawdzić oryginalny format w kolumnie „enc”, więc nie musisz ponownie kodować obrazu do innego formatu.
Często używam do tego Inkscape. Załaduj stronę i usuń wszystkie inne rzeczy. Zaletą jest to, że można uzyskać obrazy wektorowe w SVG i modyfikować je według własnego uznania.
Mam plik PDF zawierający dwie kolumny z osadzonymi obrazami utworzonymi za pomocą LaTeX, w których oryginalne obrazy zostały dostarczone jako EPS. Wypróbowałem zaproponowane rozwiązanie w oparciu pdfimages
, ale niestety nie zwróciło ono żadnych zdjęć. Próbowałem wtedy użyć Inkscape, ale generowane przez niego obrazy SVG były zniekształcone i nie miałem też szczęścia eksportować ich jako EPS.
Oprogramowanie, które działało dla nas, to MasterPdfEditor .
Oto procedura
Rezultat jest bardzo wysokiej jakości, ale oprogramowanie nie jest bezpłatne. Istnieje wersja demonstracyjna, która „pozwala wypróbować wszystkie funkcje”, ale zawiera „dodanie znaku wodnego do pliku wyjściowego”. Szczerze mówiąc, nie zauważyłem żadnego znaku wodnego w utworzonym pliku PDF.
Możesz także wypróbować pdfmod. Jest to GUI (interfejs graficzny), który może wyodrębniać obrazy i wykonywać inne podstawowe operacje na plikach pdf.
Jeśli potrzebujesz przyciętego obrazu w formacie pdf / eps, wyodrębnij stronę z obrazem za pomocą pdfmod
(zgodnie z sugestią Do zrobienia).
Następnie używając pdfcrop
możesz przyciąć go odpowiednio ustawiając marginesy metodą prób i błędów:
pdfcrop --margins "-15 -50 0 -140" extracted_page.pdf
Używam pdfimages, który jest narzędziem wiersza poleceń i działa świetnie dla mnie. Jest bardzo łatwy w użyciu i można użyć opcji --help, aby dowiedzieć się więcej o jego użyciu. Używam Ubuntu i jest fabrycznie zainstalowany. Jeśli twoje pliki pdf są zaszyfrowane lub chronione hasłem, istnieją odpowiednie opcje, więc to narzędzie działa świetnie. Możesz przeczytać więcej o obrazach pdf tutaj
W przypadku obrazów pdf wyodrębniony obraz może składać się z dwóch lub więcej części. Prostym sposobem na ich ponowne złożenie bez obawy o wyodrębnione formaty jest zaimportowanie części do LibreOffice Draw, przycięcie z dialogiem przycięcia obrazu, ustawienie części, dostosowanie rozmiaru strony i eksportowanie w dowolnym formacie.
Jeśli chcesz przyciąć obraz z pliku pdf za pomocą przeglądarki pdfviewer, możesz wypróbować okular. Może przycinać wszystko (teksty lub obrazy) w formacie png lub jpeg. Jeśli chcesz wyodrębnić obrazy w formacie png z pliku pdf, możesz to zrobić przy użyciu minimalnego polecenia za pomocą pdftohtml. Konwertuje pdf na html plus obrazy. Tutaj możesz znaleźć przykład - https://www.youtube.com/watch?v=CG1rf7k3xo8 . Jeśli chcesz wyodrębnić wiele zdjęć z pliku pdf, sugeruję wypróbowanie tego.
Użyte oprogramowanie: Xreader OS: Antergos
Kroki:
pdfimages
można to zrobić lepiej / gorzej niż NitroPDF?