@Silverfish poprosił o rozszerzenie odpowiedzi przez PolatAlemdar, która nie została podana, więc spróbuję ją rozwinąć tutaj.
Dlaczego nazwa chisquare odległość? Test chisquare dla tabel awaryjnych oparty jest na
więc pomysł polega na zachowaniu tej formy i użyciu jej jako miara odległości. To daje trzecią formułę OP, gdzie interpretowane jest jako obserwacja, a jako oczekiwanie, co wyjaśnia komentarz PolatAlemdara „Jest stosowany w dyskretnych rozkładach prawdopodobieństwa”, jak na przykład w testach poprawności dopasowania. Ta trzecia postać nie jest funkcją odległości, ponieważ jest asymetryczna w zmiennych i . Dla porównania histogramu, będziemy chcieli funkcję odległości, która jest symetryczna w X i Y xiyix
χ2=∑cells(Oi−Ei)2Ei
xjayjaxyxyi dają to dwie pierwsze formy. Różnica między nimi to tylko stały współczynnik
, co nie jest ważne, o ile tylko konsekwentnie wybierasz jeden formularz (choć wersja z dodatkowym współczynnikiem
112) jest lepsze, jeśli chcesz porównać z formą asymetryczną). Zwróć uwagę na podobieństwo tych wzorów z kwadratową odległością euklidesową, która nie jest przypadkiem, odległość chisquare jest rodzajem
ważonejodległości euklidesowej. Z tego powodu formuły w OP są zwykle umieszczane pod znakiem root, aby uzyskać
odległości. Poniżej śledzimy to.
12)
Odległość Chisquare jest również używana w analizie korespondencji. Aby zobaczyć związek z zastosowaną tam formą, niech będą komórkami tabeli awaryjnej z wierszami R i kolumnami C. Oznaczania sumy rzędów być x + j = Σ i x i j i sumy kolumna po x i + = Σ J x i j . Odległość chisquare między rzędami l , k jest dana przez
χ 2 ( l , k ) =xI jRdox+ j= ∑jaxI jxja += ∑jotxI jl , k
W przypadku tylko dwóch wierszy (dwa histogramy) odzyskuje to pierwszą formułę OP (modulo znak root).
χ2)( l , k ) = ∑jot1x+ j( xl jxl +- xk jxk +)2)-------------------⎷
EDIT
Odpowiadając na pytanie w komentarzach poniżej: Książka z długimi dyskusjami o odległości chisquare to „ANALIZA KORESPONDENCJI W PRAKTYCE (drugie wydanie)” Michaela Greenacre (Chapman i Hall). Jest to dobrze znana nazwa, wywodząca się z podobieństwa do chisquare w połączeniu z tabelami nieprzewidzianymi. Jaką dystrybucję ma? Nigdy tego nie studiowałem, ale prawdopodobnie (pod pewnymi warunkami ...) miałby w przybliżeniu rozkład chisquare. Dowody powinny być podobne do tego, co robi się z tabelami nieprzewidzianymi, większość literatury na temat analizy korespondencji nie dotyczy teorii dystrybucji. Artykuł zawierający pewną, być może istotną taką teorię, to http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Zobacz także/stats//search?q=%22chisquare+distance%22 w przypadku niektórych innych istotnych postów na tej stronie.