„Jaki jest najbardziej poprawny teoretycznie / informacyjnie i fizycznie sposób obliczenia entropii obrazu?”
Doskonałe i aktualne pytanie.
Wbrew powszechnemu przekonaniu rzeczywiście można intuicyjnie (i teoretycznie) zdefiniować naturalną entropię informacji dla obrazu.
Rozważ następujący rysunek:
Widzimy, że obraz różnicowy ma bardziej zwarty histogram, dlatego jego entropia informacji Shannona jest niższa. Możemy więc uzyskać niższą redundancję, stosując entropię Shannona drugiego rzędu (tj. Entropię uzyskaną z danych różnicowych). Jeśli możemy rozszerzyć ten pomysł izotropowo na 2D, możemy spodziewać się dobrych oszacowań dla entropii informacji obrazu.
Dwuwymiarowy histogram gradientów umożliwia rozszerzenie 2D.
Możemy sformalizować argumenty i rzeczywiście zostało to niedawno zakończone. Podsumowując krótko:
Obserwacja, że prosta definicja (patrz na przykład definicja entropii obrazu MATLAB) ignoruje strukturę przestrzenną, jest kluczowa. Aby zrozumieć, co się dzieje, warto krótko powrócić do skrzynki 1D. Od dawna wiadomo, że użycie histogramu sygnału do obliczenia jego informacji / entropii Shannona ignoruje strukturę czasową lub przestrzenną i daje słabą ocenę wewnętrznej ściśliwości lub nadmiarowości sygnału. Rozwiązanie było już dostępne w klasycznym tekście Shannona; użyj właściwości drugiego rzędu sygnału, tj. prawdopodobieństwa przejścia. Obserwacja z 1971 r. (Rice & Plaunt), że najlepszym predyktorem wartości piksela w skanie rastrowym jest wartość poprzedzającego piksela, co natychmiast prowadzi do predyktora różnicowego i entropii Shannona drugiego rzędu, która jest zgodna z prostymi pomysłami kompresji, takimi jak kodowanie długości przebiegu. Pomysły te zostały dopracowane pod koniec lat 80-tych, co zaowocowało pewnymi klasycznymi technikami bezstratnego (różnicowego) kodowania, które są nadal w użyciu (PNG, bezstratny JPG, GIF, bezstratny JPG2000), podczas gdy falki i DCT są używane tylko do kodowania stratnego.
Przejście teraz do 2D; badaczom bardzo trudno było rozszerzyć pomysły Shannona na wyższe wymiary bez wprowadzania zależności orientacyjnej. Intuicyjnie możemy oczekiwać, że entropia informacji Shannona obrazu będzie niezależna od jego orientacji. Oczekujemy również, że obrazy o skomplikowanej strukturze przestrzennej (jak na przykład przypadkowy szum pytającego) będą miały wyższą entropię informacji niż obrazy o prostej strukturze przestrzennej (jak na przykład gładka skala szarości pytającego). Okazuje się, że powodem, dla którego tak trudno było rozszerzyć pomysły Shannona z 1D na 2D, jest fakt (jednostronna) asymetria w oryginalnej formule Shannona, która uniemożliwia symetryczną (izotropową) formułę w 2D. Po skorygowaniu asymetrii 1D rozszerzenie 2D może przebiegać łatwo i naturalnie.
Przejdźmy do sedna (zainteresowani czytelnicy mogą sprawdzić szczegółową ekspozycję w preprint arXiv na https://arxiv.org/abs/1609.01117 ), gdzie entropia obrazu jest obliczana z histogramu 2D gradientów (funkcja gęstości prawdopodobieństwa gradientu).
Najpierw obliczany jest pdf 2D na podstawie binningu szacunków obrazów x i y pochodnych. Przypomina to operację binowania stosowaną do generowania bardziej powszechnego histogramu intensywności w 1D. Pochodne można oszacować na podstawie 2-pikselowych różnic skończonych obliczonych w kierunku poziomym i pionowym. Dla kwadratowego obrazu NxN f (x, y) obliczamy wartości NxN pochodnej cząstkowej fx i wartości NxN fy. Skanujemy obraz różnicowy i dla każdego używanego piksela (fx, fy) znajdujemy dyskretny pojemnik w docelowej tablicy (2D pdf), która jest następnie zwiększana o jeden. Powtarzamy dla wszystkich pikseli NxN. Wynikowy plik pdf 2D musi zostać znormalizowany, aby mieć ogólne prawdopodobieństwo jednostkowe (wystarczy podzielić przez NxN). Plik 2D pdf jest teraz gotowy do następnego etapu.
Obliczenie entropii informacji Shannona 2D z gradientu pdf pdf jest proste. Klasyczna formuła sumowania logarytmicznego Shannona ma zastosowanie bezpośrednio, z wyjątkiem istotnego współczynnika wynoszącego połowę, który pochodzi ze specjalnych rozważań o ograniczonym paśmie dla obrazu gradientowego (szczegóły w artykule arXiv). Współczynnik połowiczny sprawia, że obliczona entropia 2D jest jeszcze niższa w porównaniu do innych (bardziej redundantnych) metod szacowania entropii 2D lub kompresji bezstratnej.
Przepraszam, że nie zapisałem tutaj niezbędnych równań, ale wszystko jest dostępne w tekście przedruku. Obliczenia są bezpośrednie (nie iteracyjne), a złożoność obliczeniowa jest uporządkowana (liczba pikseli) NxN. Ostateczna obliczona entropia informacji Shannona jest niezależna od rotacji i odpowiada dokładnie liczbie bitów wymaganej do zakodowania obrazu w nie redundantnej reprezentacji gradientowej.
Nawiasem mówiąc, nowa miara entropii 2D przewiduje (intuicyjnie przyjemną) entropię 8 bitów na piksel dla obrazu losowego i 0,000 bitów na piksel dla obrazu z gładkim gradientem w pierwotnym pytaniu.