Mierzenie „odległości” między dwoma rozkładami wielowymiarowymi

28

Szukam dobrej terminologii do opisania tego, co próbuję zrobić, aby ułatwić wyszukiwanie zasobów.

Powiedzmy, że mam dwa skupienia punktów A i B, każdy powiązany z dwiema wartościami, X i Y, i chcę zmierzyć „odległość” między A i B - tzn. Jak prawdopodobne jest, że próbkowano je z tego samego rozkładu (Mogę założyć, że rozkłady są normalne). Na przykład, jeśli X i Y są skorelowane w A, ale nie w B, rozkłady są różne.

Intuicyjnie dostałbym macierz kowariancji A, a następnie spojrzałem na to, jak prawdopodobne jest dopasowanie się tam każdego punktu B i odwrotnie (prawdopodobnie używając czegoś takiego jak odległość Mahalanobisa).

Ale to trochę „ad-hoc” i prawdopodobnie istnieje bardziej rygorystyczny sposób opisania tego (oczywiście w praktyce mam więcej niż dwa zestawy danych z więcej niż dwiema zmiennymi - próbuję ustalić, który z moich zestawów danych są wartościami odstającymi).

Dzięki!

multivariate-analysis terminology distance-functions

— Emile
źródło

Nie wiem dlaczego, ale test Mantela błysnął mi przed oczami, kiedy przeczytałem twój post.

— Roman Luštrik,

15

Istnieje również dywergencja Kullbacka-Leiblera , która jest związana z odległością Hellingera, o której wspomniałeś powyżej.

— Przywróć Monikę - G. Simpson
źródło

2

czy można obliczyć rozbieżność punktów Kullbacka-Leiblera bez założenia o podstawowej gęstości prawdopodobieństwa, z której pochodzą punkty?

— Andre Holzner,

16

Hmm, odległość Bhattacharyya wydaje się być tym, czego szukam, chociaż odległość Hellingera również działa.

— Emile
źródło

wspominasz Bhattacharyya i Hellinga, a następnie akceptujesz odpowiedź mówiącą o KL ... Na koniec, jaki był twój wybór i dlaczego?

— Simon C.

1

Wierzę, że to była dywergencja KL, ale ... to było w 2010 roku i moja pamięć jest daleka od ideału.

— Emile

Ach tak, zgadłem, ale i tak dziękuję!

— Simon C.

9

Heurystyczny

Forma Minkowskiego
Ważona-średnia-wariancja (WMV)

Statystyka testów nieparametrycznych

2 (Chi Square)
Kołmogorow-Smirnov (KS)
Cramer / von Mises (CvM)

Rozbieżności w teorii informacji

Kullback-Liebler (KL)
Rozbieżność Jensen – Shannon (metryka)
Jeffrey-dywergencja (stabilna numerycznie i symetryczna)

Miary odległości od ziemi

Przecięcie histogramu
Kwadratowa forma (QF)
Odległość Moverów Ziemi (EMD)

— skyde
źródło

7

Najbardziej kompletne badanie znajduje się w Wnioskach statystycznych opartych na pomiarach rozbieżności autorstwa Leandro Pardo, Complutense University, Chapman Hall 2006.

— Mark Salmon
źródło

0

Kilka innych miar „Różnicy statystycznej”

Test permutacji (Fisher)
Twierdzenie o granicy centralnej i twierdzenie Słuckiego
Test Manna-Whitneya-Wilcoxina
Test Andersona – Darlinga
Test Shapiro – Wilka
Test Hosmera – Lemeshowa
Test Kuipera
jądro rozbieżności Stein
Podobieństwo Jaccard
Hierarchiczne grupowanie dotyczy również miar podobieństwa między grupami. Najpopularniejsze miary podobieństwa grupowego to być może pojedyncze połączenie, pełne połączenie i średnie połączenie.

— Danylo Zherebetskyy
źródło