Co to jest odległość Hellingera i kiedy z niej korzystać?


19

Chcę wiedzieć, co tak naprawdę dzieje się w Hellinger Distance (w prostych słowach). Co więcej, jestem również zainteresowany tym, jakie rodzaje problemów możemy wykorzystać Hellinger Distance? Jakie są zalety korzystania z Hellinger Distance?


9
Odległość Hellingera jest probabilistycznym analogiem odległości euklidesowej. Istotną właściwością jest jej symetria jako metryka. Takie właściwości matematyczne są przydatne, jeśli piszesz artykuł i potrzebujesz funkcji odległości, która ma pewne właściwości, aby umożliwić dowód. W aplikacji ktoś może odkryć, że jedna metryka daje lepsze lub lepsze wyniki niż inna dla określonego zadania; np. odległość Wassersteina jest modna w generatywnych sieciach przeciwników
Emre

Dziękuje za komentarz. Natknąłem się na to pytanie, które jest dość podobne do pytania, które mam teraz. datascience.stackexchange.com/questions/22324/… Daj mi znać, dlaczego odpowiedź mówi, że Hellinger Distance jest odpowiedni?
Smith Volka

2
Prawdopodobnie do wizualizacji tematów w przestrzeni metrycznej. Inną ciekawą właściwością jest to, że odległość Hellingera jest skończona dla dystrybucji z różnym wsparciem. Dobrze, że zadajesz te pytania. Sugeruję wypróbowanie różnych wskaźników dla siebie i obserwowanie wyników.
Emre

Dzięki. to dobry link. bardzo pomaga. Ale czy odległość Hellingera ogranicza się tylko do tematów pochodzących z Latent Dirichlet Allocation (LDA), jak wspomniano w linku?
Smith Volka

1
Nie, nie ma żadnego nieodłącznego związku z LDA.
Emre

Odpowiedzi:


7

Odległość Hellingera jest miarą mierzącą różnicę między dwoma rozkładami prawdopodobieństwa. Jest to probabilistyczny analog odległości euklidesowej .

Biorąc pod uwagę dwa rozkłady prawdopodobieństwa, i , odległość Hellingera definiuje się jako:QPQ

h(P,Q)=12PQ2

Jest to przydatne podczas kwantyfikacji różnicy między dwoma rozkładami prawdopodobieństwa. Na przykład, jeśli oszacujesz dystrybucję dla użytkowników i osób niebędących użytkownikami usługi. Jeśli dla niektórych obiektów odległość Hellingera jest niewielka między tymi grupami, wówczas cechy te nie są statystycznie przydatne do segmentacji.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.