Porównanie dwóch histogramów przy użyciu odległości Chi-Square

18

Chcę porównać dwa obrazy twarzy. Obliczyłem ich histogramy LBP. Więc teraz muszę porównać te dwa histogramy i uzyskać coś, co powie, ile te histogramy są równe (0 - 100%).

Istnieje wiele sposobów rozwiązania tego zadania, ale autorzy metody LBP podkreślają (Opis twarzy z lokalnymi wzorami binarnymi: Zastosowanie do rozpoznawania twarzy. 2004), że odległość Chi-Square jest lepsza niż przecięcie histogramu i statystyka prawdopodobieństwa Log.

Autorzy pokazują również formułę odległości chi-kwadrat:

\sum_{i = 1}^{n} \frac{(x_{i} - y_{i})^{2}}{(x_{i} + y_{i})}

$\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)}$

Gdzie jest liczbą przedziałów, jest wartością pierwszego bin, jest wartością drugiego bin. $n$ $x_i$ $y_i$

W niektórych badaniach (na przykład Rodzina odległości kwadratowego chi-histogramu) widziałem, że wzór odległości chi-kwadrat to:

\frac{1}{2} \sum_{i = 1}^{n} \frac{(x_{i} - y_{i})^{2}}{(x_{i} + y_{i})}

$\cfrac{1}{2}\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)}$

I tam http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm Widzę, że wzór na odległość Chi-Square to:

\sum_{i = 1}^{n} \frac{(x_{i} - y_{i})^{2}}{y_{i}}

$\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {y_i}$

Utknąłem z tym. Mam kilka pytań:

Jakiego wyrażenia powinienem użyć?
Jak mam interpretować wynik różnicy? Wiem, że różnica równa 0 oznacza, że oba histogramy są równe, ale skąd mam wiedzieć, kiedy oba histogramy są całkowicie różne? Czy muszę do tego użyć stołu Chi-Square? Czy muszę użyć progu? Zasadniczo chcę odwzorować różnicę na procenty.
Dlaczego te trzy wyrażenia są różne?

chi-squared histogram image-processing

— Anton Holovin
źródło

Czy yi nie jest wartością tego samego przedziału co xi, ale w rozkładzie komparatora, a nie drugim przedziałem?

— ReneBt

7

@Silverfish poprosił o rozszerzenie odpowiedzi przez PolatAlemdar, która nie została podana, więc spróbuję ją rozwinąć tutaj.

Dlaczego nazwa chisquare odległość? Test chisquare dla tabel awaryjnych oparty jest na więc pomysł polega na zachowaniu tej formy i użyciu jej jako miara odległości. To daje trzecią formułę OP, gdzie interpretowane jest jako obserwacja, a jako oczekiwanie, co wyjaśnia komentarz PolatAlemdara „Jest stosowany w dyskretnych rozkładach prawdopodobieństwa”, jak na przykład w testach poprawności dopasowania. Ta trzecia postać nie jest funkcją odległości, ponieważ jest asymetryczna w zmiennych i . Dla porównania histogramu, będziemy chcieli funkcję odległości, która jest symetryczna w i

χ^{2} = \sum_{cells} \frac{(O_{i} - E_{i})^{2}}{E_{i}}

$\chi^2 = \sum_{\text{cells}} \frac{(O_i-E_i)^2}{E_i}$

x_{i}

$x_i$

y_{i}

$y_i$

x

$x$

y

$y$

x

$x$

y

$y$ i dają to dwie pierwsze formy. Różnica między nimi to tylko stały współczynnik

, co nie jest ważne, o ile tylko konsekwentnie wybierasz jeden formularz (choć wersja z dodatkowym współczynnikiem

\frac{1}{2}

$\frac12$

jest lepsze, jeśli chcesz porównać z formą asymetryczną). Zwróć uwagę na podobieństwo tych wzorów z kwadratową odległością euklidesową, która nie jest przypadkiem, odległość chisquare jest rodzajemważonejodległości euklidesowej. Z tego powodu formuły w OP są zwykle umieszczane pod znakiem root, aby uzyskaćodległości. Poniżej śledzimy to.

\frac{1}{2}

$\frac12$

Odległość Chisquare jest również używana w analizie korespondencji. Aby zobaczyć związek z zastosowaną tam formą, niech będą komórkami tabeli awaryjnej z wierszami i kolumnami Oznaczania sumy rzędów być i sumy kolumna po . Odległość chisquare między rzędami jest dana przez $x_{ij}$ $R$ $C$ $x_{+j}=\sum_i x_{ij}$ $x_{i+}=\sum_j x_{ij}$ $l,k$ W przypadku tylko dwóch wierszy (dwa histogramy) odzyskuje to pierwszą formułę OP (modulo znak root).

χ^{2)} (l, k) = \sqrt{\sum_{jot} \frac{1}{x_{+ jot}} {(\frac{x_{l jot}}{x_{l +}} - \frac{x_{k jot}}{x_{k +}})}^{2)}}

$\chi^2(l,k) = \sqrt{\sum_j \frac1{x_{+j}}\left(\frac{x_{lj}}{x_{l+}}-\frac{x_{kj}}{x_{k+}} \right)^2 }$

EDIT

Odpowiadając na pytanie w komentarzach poniżej: Książka z długimi dyskusjami o odległości chisquare to „ANALIZA KORESPONDENCJI W PRAKTYCE (drugie wydanie)” Michaela Greenacre (Chapman i Hall). Jest to dobrze znana nazwa, wywodząca się z podobieństwa do chisquare w połączeniu z tabelami nieprzewidzianymi. Jaką dystrybucję ma? Nigdy tego nie studiowałem, ale prawdopodobnie (pod pewnymi warunkami ...) miałby w przybliżeniu rozkład chisquare. Dowody powinny być podobne do tego, co robi się z tabelami nieprzewidzianymi, większość literatury na temat analizy korespondencji nie dotyczy teorii dystrybucji. Artykuł zawierający pewną, być może istotną taką teorię, to http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Zobacz także/stats//search?q=%22chisquare+distance%22 w przypadku niektórych innych istotnych postów na tej stronie.

— kjetil b halvorsen
źródło

Czy mogę zapytać, dlaczego ostatnie równanie nazywa się odległością chisquare? Czy jest dystrybuowany jako taki? Czy możesz podać pochodną lub link do niej? Nie mogę tego znaleźć.

— LeastSquaresWonderer

1

Zobacz moje zmiany powyżej.

— kjetil b halvorsen

3

Uważam, że ten link jest bardzo przydatny: http://docs.opencv.org/2.4/doc/tutorials/imgproc/histograms/histogram_comparison/histogram_comparison.html

Nie jestem pewien, dlaczego, ale OpenCV używa trzeciej formuły, którą podajesz do porównania histogramu Chi-Square.

Pod względem znaczenia nie jestem pewien, czy jakiś algorytm pomiarowy da ci ograniczony zakres, na przykład od 0% do 100%. Innymi słowy, możesz z całą pewnością stwierdzić, że dwa obrazy są takie same: wartość korelacji 1,0 lub wartość chi-kwadrat 0,0; ale trudno jest ustalić limit między dwoma obrazami: wyobraź sobie, że porównujesz obraz całkowicie biały z obrazem całkowicie czarnym, wartością liczbową byłaby nieskończoność, a może brak liczby.

— Russell
źródło

2

$x$ $y$

Pozostałe dwa służą do obliczania podobieństwa histogramu.

— PolatAlemdar
źródło

1

$x$

x

$x$

2

x

$x$

y

$y$

0

Zgodnie z wnioskiem OP wartość procentowa (dla równania 1):

$p = \frac{\chi * S * 100}{N}$

$p$ $\chi$ $N$ $S$

Uzupełnione zgodnie z wnioskiem:

Obliczając to równanie, można uzyskać procent różnicy od pełnego histogramu. Obliczając to dla obu histogramów, a następnie odejmując jeden od drugiego, można uzyskać różnicę procentową.

— Carlos Barcellos
źródło

2

Trudno mi zrozumieć, w jaki sposób jest to odpowiedź na którekolwiek z pytań. Czy możesz rozwinąć?

— The Laconic

To da (w procentach, zgodnie z żądaniem), jak różni się jeden histogram od pełnego histogramu. Jeśli obliczysz to równanie z obu histogramów, poznamy różnicę między nimi, jak to używane do triangulacji.

— Carlos Barcellos