Zeskanuj wiele stron bezpośrednio do pliku PDF


36

Czy w Ubuntu jest jakiś łatwy w użyciu program, który może skanować wiele stron bezpośrednio do pliku PDF?


Zastanawiam się, czy są jakieś specjalne kwalifikacje potrzebne do skanerów / drukarek, których chciałbym używać w Ubuntu?
JFW

@JFW, oto lista obsługiwanych urządzeń dla XSane, zaplecza używanego przez większość skanerów Ubuntu. Drukarka / skaner / kopiarki HP wydają się dobrym wyborem, jeśli szukasz.
poolie 17.04.2011

Odpowiedzi:


38

Pomysł posiadania prostego narzędzia do skanowania leżał u podstaw opracowania, no cóż, Simple Scan - narzędzia skanującego instalowanego domyślnie od 10.04 (Aplikacje ‣ Grafika ‣ Proste skanowanie). alternatywny tekst

Po prostu zeskanuj tyle stron, ile chcesz i podczas zapisywania wybierz format PDF.

Innym nieco mniej prostym programem, który oferuje dodatkowe funkcje, takie jak rozpoznawanie tekstu, jest gscan2pdf , również w repozytoriach. alternatywny tekst


3
+1 za proste skanowanie - jest to takie łatwe i proste, ale także bardzo wydajne - szczególnie nadaje się do wspomnianego zadania.
8128

6

„Łatwy w użyciu” leży w oku użytkownika, ale xsanezapewnia tę funkcjonalność. Wybierz wielostronicowy, w którym jest napisane „przeglądarka” (lub naciśnij CTRL-M), i nie powinno być zbyt trudno go rozgryźć.


1
Osobiście widzę, że xsane jest daleki od łatwości użycia ...
8128

Przez cały czas używałem xsane. Nigdy nie przyszło mi do głowy, że może istnieć lepsze narzędzie.
Amanda

3

Używałem, xsanedopóki nie zobaczyłem tego pytania i uznałem jego interfejs za idiosynkratyczny co najmniej, ale skuteczny.

Widząc to pytanie, poszukałem i znalazłem gscan2pdf żyjący w repozytoriach Ubuntu Lucid / Maverick. Używa tego samego silnika skanowania (libsane), ale interfejs użytkownika jest znacznie bardziej podobny do Gnome. Dla dobrego czasu spróbuj:

sudo apt-get install gscan2pdf

3

Zmień nazwę pliku z myfile.jpg na myfile.pdf w oknie dialogowym zapisywania w programie Simple Scan.

Testowane na Ubuntu 14.04, Simple Scan 3.12.1.

Działa to, mimo że menu rozwijane typu pliku nie pokazuje „PDF”, tylko „Obrazy”. Uważam to za błąd interfejsu użytkownika.

Ta funkcja jest udokumentowana w Help > Contents:

W oknie dialogowym „Zapisz jako” wybierz jeden z obsługiwanych typów plików lub po prostu zmień rozszerzenie w polu „Nazwa”.

Mówi, że obsługiwane są następujące formaty:

  • PDF
  • JPEG
  • PNG
  • SPRZECZKA

Ciekawostka: jeśli zmienisz typ skanowania (menu rozwijane oprócz „Skanuj”) na „Tekst”, domyślnym typem pliku będzie PDF.


1

Skanuj strony ze skanera USB. Użyj tesseract do OCR do pliku PDF. Scal wiele stron w jednym pliku PDF. Zastosowanie: scan2PDF nazwa pliku wyjściowego numer_strony

#!/bin/bash
#scan2PDF
#Requires:      tesseract 3.03 for OCR to PDF
#               scanimage for scanning, I use  1.0.24
#               pdfunite to merge multiple PDF into one, I use 0.26.5
#
#       Use scanimage -L to get a list of devices.
#       e.g. device `genesys:libusb:006:003' is a Canon LiDE 210 flatbed scanner
#       then copy/paste genesys:libusb:006:003 into SCANNER below.
#       play with CONTRAST to get good images
DPI=300
TESS_LANG=nor  #Language that Tesseract uses for OCR
SCANNER=genesys:libusb:006:003  #My USB scanner
CONTRAST=35   #Contrast to remove paper look

FILENAME=$1 #Agrument 1,filename
PAGES=$2    #Argument 2, number of pages

re='^[0-9]+$'  #Check if second argument is a number
if ! [[ ${PAGES} =~ $re ]] ; then
   echo "error: Usage: $0 filename number_of_pages" >&2; exit 1
fi

SCRIPT_NAME=`basename "$0" .sh` #Directory to store temporary files
TMP_DIR=${SCRIPT_NAME}-tmp

if [ -d ${TMP_DIR} ]  #Check if it exists a directory already
then
        echo Error: The directory ${TMP_DIR} exists.
        exit 2
fi
mkdir ${TMP_DIR}  #Make and go to temp dir
cd ${TMP_DIR}

echo Starts Scanimage...
scanimage -d ${SCANNER} --format=tiff --mode Color --resolution ${DPI} -p --contrast ${CONTRAST} --batch-start=1 --batch-count=${PAGES}  --batch-prompt


echo Starts Tesseract OCR

for file in  *.tif  #Goes through every tif file in temp dir
do
        tesseract $file  ${file%.tif} -l ${TESS_LANG} pdf

done

if [ "$PAGES" = "1" ] #How many pages
then
    cp out1.pdf ../${FILENAME}.pdf  #Only one page, just copy the PDF back
else
        for file in *.pdf  #More pages, merge the pages into one PDF and copy back
    do
            pdfuniteargs+=${file} 
            pdfuniteargs+=" "
    done
    pdfunite $pdfuniteargs ../${FILENAME}.pdf
fi
    echo ${FILENAME}.pdf done

rm *                    #Done, clean up
cd ..
rmdir ${TMP_DIR}

Jest to metoda bardzo Linuxoidal
RTH

1

Dla tych z Was, którzy chcą używać XSANE. Jest bardzo wydajny i intuicyjny po przeczytaniu przewodnika konfiguracji połączonego z Pomocą> XSane Doc w programie - aby wiedzieć, ile możesz z tym zrobić. Warto również sprawdzić, czy backend SANE działa poprawnie (nie jest zbyt specyficzny dla Arch): https://wiki.archlinux.org/index.php/SANE

Jeśli chcesz automatycznie skanować dokumenty z podajnika i zastanawiasz się, czy XSane będzie wiedział, kiedy zatrzymać (i nie zatrzymać się zbyt wcześnie), po prostu wprowadź liczbę w lewym górnym rogu (ikona skanowania) większą niż liczba pasujących stron w twoim podajniku. To znaczy, jeśli twój podajnik może przyjąć 10 stron, wpisz 15 (aby uwzględnić różnice grubości). Jeśli masz skaner dwustronny, podwoj ten numer.

Kiedy podajnik skończy się, pojawi się okno dialogowe z zielonym trójkątem ostrzegawczym z napisem „„ Zeskanowane strony: 0 ”. Oznacza to po prostu, że podajnik jest pusty i możesz zamknąć okno dialogowe. Jeśli wybrałeś„ przeglądarka ”lub„ zapisz ” "w prawym górnym rogu XSane, wtedy wszystkie pliki będą tam - pamiętaj, aby zapisać je w przeglądarce. Teraz możesz ponownie nacisnąć przycisk skanowania, aby kontynuować od miejsca, w którym przerwałeś, a liczby rosną od tego samego punktu lub możesz rozpocząć nowy projekt. Nie zostaną dodane żadne puste strony. Jeśli wybierzesz opcję „Wiele stron”, okno dialogowe projektu powinno pokazywać wszystkie ukończone skany i możesz kliknąć, aby zapisać jako wielostronicowy plik PDF lub TIFF lub PostScript.

HTH,

DC

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.