Myślę, że najlepszym rozwiązaniem byłoby przekonwertowanie pliku PDF na obrazy w przyzwoitej rozdzielczości, a następnie porównanie obrazów.
Aby wygenerować obrazy z PDF, możesz skorzystać z Adobe PDF Library lub rozwiązania sugerowanego w Best way do konwersji plików PDF na pliki TIFF .
Aby porównać wygenerowane pliki TIFF, znalazłem GNU tiffcmp (dla Windows część GnuWin32 tiff ) i tiffinfo wykonało dobrą robotę. Użyj tiffcmp -l i policz liczbę wierszy wyniku, aby znaleźć wszelkie różnice. Jeśli jesteś zadowolony z małej ilości zmian w treści (np. Różnice w wygładzaniu), użyj tiffinfo, aby policzyć całkowitą liczbę pikseli, a następnie możesz wygenerować procentową wartość różnicy.
Nawiasem mówiąc, dla każdego, kto robi proste porównanie PDF, gdzie struktura nie uległa zmianie, można użyć diff z wiersza poleceń i zignorować pewne wzorce, np.
diff --brief -I xap: -I xapMM: -I / CreationDate -I / BaseFont -I / ID --binary --text
Nadal występuje problem polegający na tym, że nie zawsze wychwytuje zmiany w generowanych nazwach czcionek.