Mam ponad 10.000 zdjęć, które około 2000 są duplikatami w innych formatach (jak JPEG, PNG, GIF). Obie te liczby rosną każdego dnia. Muszę usunąć te duplikaty i za to muszę wiedzieć, jak je znaleźć w pierwszej kolejności.
Moją pierwszą myślą było, by sprawdzić e obrazy piksele i znaleźć inne zdjęcia, które mają takie same kolorowe piksele w tych samych współrzędnych. Ale opcja ta nie zawsze działa. Powiedzmy, że szukam duplikatu. Jeśli chodzi o obiekt do przeszukiwania, wybieram 8-bitowy plik PNG. Znajdzie wszystkie duplikaty tego obrazu, ale tylko 8-bitowy PNG, czasem 8-bitowy GIF i rzadko JPEG (z powodu algorytmów obrazów, jak sądzę?).
Moją drugą myślą było zduplikowanie wszystkich tych obrazów i ponowne pokolorowanie ich w ścisłej palecie dwóch kolorów (powiedzmy czarno-biały) i wykonanie takiego samego skanu, jak podano powyżej. Po raz kolejny obraz JPEG nie jest w 100% podobny do formatu GIF lub PNG (z tego samego powodu co powyżej?).
Trzecią myślą było zmniejszenie procentu tego, jak bardzo obraz musi być znajomy, i zwiększenie ilości kolorów, które mogą się różnić, co skutkuje niechcianym usunięciem obrazu ...
jakieś pomysły?