Jak mogę uzyskać liczbę słów w pliku PDF? Myślę, że większość plików pdf, dla których chcę uzyskać całkowitą liczbę słów, ma osadzoną warstwę tekstową, więc nie potrzebuję OCR.
Zadanie powstało w wyniku wyszukiwania niektórych prac naukowych o znanej wielkości, np. 15 000 słów. Większość artykułów modyfikujących publikuje się w formacie pdf
pdftotext
: nie zapomnij o e. I można korzystać z jednego polecenia:pdftotext myfile.pdf - | wc -w
.