Oto jeden ze sposobów, który wymagałby niektórych nie tak powszechnych narzędzi:
- ocrodjvu
- pdfbeads , który ma swoje własne wymagania, które może znaleźć Google
Możemy użyć djvu2hocr
polecenia (z ocrodjvu
pakietu), aby wyodrębnić ukrytą warstwę tekstową z pliku DjVu (nie wykonuje żadnego OCR lub podobnego, po prostu wyodrębnia warstwę tekstową z geometrią), tj .:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
interwencja poprawia nazwy klas w wyjściowym hOCR (który jest po prostu prostym plikiem HTML)
Teraz wyodrębniamy stronę DjVu do formatu TIFF za pomocą:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
abyśmy zakończyli z plikiem znajdującym się w folderze roboczym:
sample.djvu
pg10.html
pg10.tif
Oto, gdzie pdfbeads
pojawia się gra, a my po prostu wykonujemy:
pdfbeads -o pg10.pdf
następnie ten fajny program zajmuje się wszystkim, co znajduje się w tym folderze (pliki HTML i TIFF o tej samej nazwie podstawowej) i tworzy wyjściowy plik PDF z niektórymi produktami ubocznymi:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
który jest identyczny z wejściowym plikiem DjVu i ma warstwę tekstową w środku:
Podsumowanie komentarzy:
Długie komentarze poniżej omawiają reprezentowanie mniejszych obrazów ze strony dokumentu DjVu jako oddzielnych obiektów, co nie jest łatwo możliwe, ponieważ strona dokumentu DjVu sama w sobie jest pojedynczym obrazem z opcjonalną warstwą tekstową, bez „informacji” o mniejszych obrazach jako oddzielnych obiektach. Jeśli dokument DjVu ma kolorowe obrazy, zwykle będą one umieszczane na warstwie tła; w takim przypadku użytkownik może skorzystać z narzędzi takich jak ddjvu
(wyodrębnij tylko warstwę tła) i imagemagick
(automatyczne przycinanie), aby wydrukować tylko obrazy zamiast całego obszaru roboczego, ale nie można zautomatyzować tworzenia danych wyjściowych w formacie PDF
Innym rozsądniejszym, ale wolniejszym podejściem jest użycie zwykłych narzędzi OCR GUI. gscan2pdf
(> 1.0) jest sugerowany jako możliwy kandydat na komputer z systemem Linux