Niektóre pliki PDF wytwarzają śmieci („ mojibake ”) podczas kopiowania tekstu (nawet jeśli są w porządku). Uniemożliwia to ich przeszukiwanie (cokolwiek, czego szukasz, nie pasuje do śmieci).
Czy ktoś ma łatwe obejście?
Przykłady:
- TEAC TV manual EU2816STF (daje powyższe problemy w programie Adobe Reader zarówno w systemie Windows, jak i na komputerze Mac, ale działa dobrze w wersji zapoznawczej na komputerze Mac)
- Leadtek Winfast PVR2 manual (link FTP; ma również problemy z podglądem na komputerze Mac)
- Instrukcja obsługi karty tunera TV Swann (łącze FTP; ma również problemy z podglądem na komputerze Mac)
- Umowa licencyjna Phonalisc (z nieistniejącego DTMS )
- Kwartalny przegląd funduszy Macquarie IFP
- BAN-TACS Small Business Booklet (wersja zarchiwizowana)
- Ulotka Easterfest 2004 (również z archiwum)
Korzystam z programu Adobe Reader (najnowsza wersja) dla systemu Windows - być może alternatywna przeglądarka może pomóc? Szukam darmowego rozwiązania dla systemu Windows. Otwarte źródło byłoby jeszcze lepsze.
Edycja: Dokumenty dla narzędzia Tekst wielowartościowy wyodrębniają dobre podsumowanie przyczyn niepowodzenia, w tym: (cytowany dokument ostatnio zmodyfikowano w styczniu 2006 r.)
- Tekst może nie mieć odwzorowania Unicode. Czcionki PDF typu 3 często nie mają, a TeX DVI ma znaki, które nie mają odpowiedników Unicode.
- Kodowanie Unicode może być wadliwe. Open Office mapuje niektóre znaki na ten sam kod Unicode, co powoduje, że list aparanta spada i podwaja się.
Wydaje mi się, że najlepszym rozwiązaniem w tych przypadkach byłoby OCR każdego glifu czcionką, aby dowiedzieć się, jaki to naprawdę znak. Zauważ, że byłoby to łatwiejsze niż OCR do skanowania hałaśliwego zeskanowanego dokumentu, ponieważ dostępny jest dokładny kształt glifu (w nieskończonej rozdzielczości, ponieważ jest to obraz „wektorowy”).
clipbrd.exe
(patrz mydigitallife.info/2008/11/06/… ) możesz zobaczyć, co jest w schowku. Co ci to daje?