Zalety odległości Jeffries Matusita

Według niektórych artykułów, które czytam, powszechnie stosuje się odległość Jeffriesa i Matusity. Ale nie mogłem znaleźć wielu informacji na ten temat, z wyjątkiem poniższej formuły

JMD (x, y) = $\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2}$

Jest podobny do odległości euklidesowej z wyjątkiem pierwiastka kwadratowego

E (x, y) = $\sqrt[2]{\sum(x_i-y_i)^2}$

Pod względem klasyfikacji odległość JM jest uważana za bardziej niezawodną niż odległość euklidesowa. Czy ktoś może wyjaśnić, dlaczego ta różnica sprawia, że odległość JM jest lepsza?

classification k-nearest-neighbour euclidean

— romy_ngo
źródło

Nie mogę znaleźć wiarygodnego odniesienia, które używa tej formuły dla odległości Jeffries-Matusita. Znane przeze mnie formuły są oparte na macierzach kowariancji dla dwóch klas i wydają się nie mieć związku z podaną tutaj, ale wydaje się, że pod tą nazwą mogą istnieć dwie (lub więcej) różne rzeczy. Czy możesz podać referencję lub (jeszcze lepiej) link? BTW, to

liczy się przypadkiem? (Jeśli tak, istnieje naturalna interpretacja twojej formuły.)

x_{i}

$x_i$

y_{i}

$y_i$

— whuber

@whuber: Może

są stać się przez

x

$x$

y

$y$

p (x)

$p(x)$

q (x)

$q(x)$

— user603

@ user603 Tak, myślę, że masz. Teraz ujawniają się związki z rozbieżnościami KL i miarą Battacharyya.

— whuber

Oto niektóre kluczowe różnice, poprzedzające dłuższe wyjaśnienie poniżej:

Co najważniejsze: odległość Jeffriesa-Matusity dotyczy raczej rozkładów niż ogólnie wektorów.
Przytoczony powyżej wzór odległości JM dotyczy tylko wektorów reprezentujących dyskretne rozkłady prawdopodobieństwa (tj. Wektorów sumujących się do 1).
W przeciwieństwie do odległości euklidesowej, odległość JM można uogólnić na dowolne rozkłady, dla których można sformułować odległość Bhattacharrya.
Odległość JM ma, poprzez odległość Bhattacharrya, interpretację probabilistyczną.

Odległość Jeffriesa-Matusity, która wydaje się szczególnie popularna w literaturze teledetekcji, jest transformacją odległości Bhattacharryi (popularnej miary podobieństwa między dwoma rozkładami, oznaczonej tutaj jako ) z zakresu do ustalonego zakresu $b_{p,q}$ $[0, \inf)$ : $[0, \sqrt{2}]$

jot {M.}_{p, q} = \sqrt{2) (1 - \exp (- b (p, q))}

$JM_{p,q}=\sqrt{2(1-\exp(-b(p,q))}$

Praktyczną zaletą odległości JM, zgodnie z tym artykułem, jest to, że środek ten „ma tendencję do tłumienia wysokich wartości rozdzielności, jednocześnie przeceniając niskie wartości rozdzielności”.

Odległość Bhattacharryi mierzy odmienność dwóch rozkładów i w następującym abstrakcyjnym sensie ciągłym: $p$ $q$ Jeśli rozkładyisą przechwytywane przez histogramy, reprezentowane przez wektory długości jednostkowej (gdziety element jest znormalizowaną liczbą dlatej zprzedziałów), staje się to:

b (p, q) = - \ln \int \sqrt{p (x) q (x)} re x

$b(p,q)=-\ln\int{\sqrt{p(x)q(x)}}dx$

p

$p$

q

$q$

i

$i$

i

$i$

N

$N$

W konsekwencji odległość JM dla dwóch histogramów wynosi:

b (p, q) = - \ln \sum_{ja = 1}^{N.} \sqrt{p_{ja} \cdot q_{ja}}

$b(p,q)=-\ln\sum_{i=1}^{N}\sqrt{p_i\cdot q_i}$

jot {M.}_{p, q} = \sqrt{2) (1 - \sum_{ja = 1}^{N.} \sqrt{p_{ja} \cdot q_{ja}})}

$JM_{p,q}=\sqrt{2\left(1-\sum_{i=1}^{N}{\sqrt{p_i\cdot q_i}}\right)}$

\sum_{i} p_{i} = 1

$\sum_{i}{p_i}=1$

jot {M.}_{p, q} = \sqrt{\sum_{ja = 1}^{N.} {(\sqrt{p_{ja}} - \sqrt{q_{ja}})}^{2)}} = \sqrt{\sum_{ja = 1}^{N.} (p_{ja} - 2) \sqrt{p_{ja}} \sqrt{q_{ja}} + q_{ja})} = \sqrt{2) (1 - \sum_{ja = 1}^{N.} \sqrt{p_{ja} \cdot q_{ja}})}

$JM_{p,q}=\sqrt{\sum_{i=1}^{N}{\left(\sqrt{p_i} - \sqrt{q_i}\right)^2}}=\sqrt{\sum_{i=1}^{N}{\left(p_i -2 \sqrt{p_i}\sqrt{q_i} + q_i \right)}}=\sqrt{2\left(1-\sum_{i=1}^{N}{\sqrt{p_i\cdot q_i}}\right)}$

— rroowwllaanndd
źródło

+1 Bardzo dziękuję za włożenie się i zrobienie tego bardzo dobrze wykonanego wysiłku, aby wyjaśnić sytuację.

— whuber