Jak przekonwertować stronę internetową na plik PDF?


7

Istnieje wiele sposobów konwersji strony internetowej na format PDF (usługi online, bookmarklety, rozwiązania Print to PDF itp.).

Ale żaden z nich nie daje pliku PDF z możliwością przeszukiwania. Wygląda na to, że wszystkie konwertują HTML na jeden gigantyczny obraz. Czy istnieje możliwość przekonwertowania strony internetowej na plik PDF z możliwością wyszukiwania?


Jeśli to rozwiązało twój problem, powinieneś opublikować odpowiedź na ten temat. Najlepiej z wszelkimi szczegółami, które mogą pomóc komuś, kto ma to samo pytanie w przyszłości. Po pewnym czasie będziesz w stanie zaakceptować odpowiedź, a następnie przyszli ludzie z tym problemem będą mieli ładne czyste pytania i odpowiedzi, które mogą znaleźć.
EBGreen

@EBGreen Masz rację. Gotowe.
AngryHacker

Odpowiedzi:


7

Znalazłem projekt wkhtmltopdf , który wydaje się załatwić sprawę . To linia poleceń, więc jest trochę krzywej uczenia się, ale nie jest tak źle.

Aby przekonwertować stronę internetową, otwórz okno poleceń w katalogu, w którym wkhtmltopdfzostał zainstalowany, i wykonaj następujące czynności:

wkhtmltopdf.exe http://www.yourpage.com/index.htm c:\misc\cnn.pdf

Aplikacja ma absurdalnie wiele opcji dostosowanych do potrzeb, ale ustawienia domyślne dają całkiem niezły wynik.


co jeśli strona zawiera uwierzytelnione dane, takie jak myspace / facebook? to rozwiązanie nie zadziała
Bonus Kun

6

Program CutePDF korzysta z GhostScript do przetwarzania tekstu, a następnie ps2pdf do tworzenia przeszukiwalnych plików PDF stron internetowych. To oczywiście nie zadziała, jeśli tekst na stronie jest obrazem na początek.


Próbowałem - nie tworzy plików PDF z możliwością przeszukiwania
AngryHacker

Czy na pewno można przeszukiwać witrynę, a nie gigantyczny obraz lub flash? Zwykle otrzymuję pliki PDF z możliwością przeszukiwania za pomocą CutePDF ze stron internetowych.
anand.trex

@ trex279 Można go przeszukiwać, ale używają dużo semantyki HTML5, być może CutePDF i inne aplikacje nie są jeszcze na czasie. Wkhtmltopdf działa, ponieważ jest to wrapper wokół Khtml (aka WebKit), używany w Chrome i Safari, dzięki czemu lepiej jest w stanie powiedzieć, co jest.
AngryHacker

3

Jaki jest problem z rozwiązaniami Print to PDF? Mam dwa wirtualne drukarki zainstalowane w moim systemie: PDF Creator i Virtual Printer od Adobe Acrobat X. Oba działają dobrze. Mogę łatwo wyszukiwać tekst w wygenerowanych plikach PDF, o ile moja przeglądarka plików PDF ma funkcje OCR (co jest obecnie powszechne).
Jeśli myślisz o utworzeniu czegoś takiego jak dokument tekstowy i słowny, nie możesz tego zrobić. Ogranicza format PDF lub mówi, jak działa format PDF. Z tego powodu możemy osadzać czcionki itp. W tym formacie bez żadnej zależności, aby był uniwersalny.
I nie sądzę, że projekt wkhtmltopdf może wygenerować plik PDF, w którym można wyszukiwać tekst bez korzystania z technologii OCR (ponieważ narusza specyfikację PDF).


1

Używam Adobe Acrobat 8 ​​Professional (aktualna wersja to Adobe Acrobat X ). Ma opcję menu, File... Create PDF... From Web Page...która prosi mnie o adres URL, a następnie pobiera stronę pod adresem URL jako plik PDF z tekstem do przeszukiwania. Przekształci również rekurencyjnie strony, do których prowadzą linki z tej strony. Można skończyć z wieloma stronami HTML w jednym wielostronicowym pliku PDF, z zachowanymi łączami między stronami.

W przypadku niektórych stron internetowych program Acrobat Create PDF źle formatuje. W takim przypadku wracam do Adobe PDF 8.0sterownika drukarki zainstalowanego w moim systemie Acrobat 8 ​​Professional. Bardzo dobrze daje mi PDF w postaci odpowiednika strony internetowej, na którą patrzę, z tekstem do przeszukiwania.

Adobe Acrobat 8 ​​Professional nie jest wolnym oprogramowaniem. Jest to oprogramowanie prawnie zastrzeżone. Jednak IMHO zasługuje na tyle samo miejsca na komputerze każdego pracownika wiedzy, co Microsoft Office. I nie określiłeś, że nalegałeś na darmowy program do konwersji strony internetowej na PDF z możliwością wyszukiwania.



0

Właśnie wydrukowałem tę stronę w Google Chrome i zapisałem ją jako plik pdf. Nie mam problemów z używaniem wyszukiwania w drukowanym pliku pdf. Dane wyjściowe mogą się różnić w zależności od typu strony, jeśli strona zawiera ramki flash - najprawdopodobniej nie będzie można tam szukać treści.



0

PrimoPDF! To jest darmowe. Działa idealnie i może zamienić wszystko, co można wydrukować, w plik PDF (z możliwością wyszukiwania). Działa, dodając się jako nowa drukarka. Łatwy również do odinstalowania.

Mam nadzieję że to pomoże.


PrimoPDF to najlepszy program do przekształcania stron internetowych w pliki PDF
HelpingHand

Istnieje również dodatek do Firefoksa, który zamienia go w obraz.
HelpingHand

Ten program może także pisać na utworzonym obrazie.
HelpingHand

I rozmyć niektóre sekcje.
HelpingHand

Nie mogę jednak znaleźć jego nazwy.
HelpingHand
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.