Jaki algorytm implementuje ward.D w hclust (), jeśli nie jest to kryterium Warda?

16

Ten używany przez opcję „ward.D” (odpowiednik jedynej opcji Ward „ward” w wersjach R <= 3.0.3) nie implementuje kryterium grupowania Warda (1963), natomiast opcja „ward.D2” implementuje to kryterium ( Murtagh i Legendre 2014).

( http://stat.ethz.ch/R-manual/R-pched/library/stats/html/hclust.html )

Najwyraźniej totem D. nie wdraża poprawnie kryterium totemu. Niemniej jednak wydaje się, że dobrze sobie radzi z tworzonymi przez siebie klastrami. Co implementuje metoda = „totem.D”, jeśli nie jest to kryterium totemu?

Bibliografia

Murtagh, F., i Legendre, P. (2014). Hierarchiczna metoda skupiania aglomeracyjnego Warda: które algorytmy implementują kryterium Warda ?. Journal of Classification , 31 (3), 274–295.

r clustering ward

— Raffael
źródło

Czy gazety Murthagh i Legendre mówią coś na ten temat?

— cbeleites wspiera Monikę

Nie mam dostępu do tego artykułu

— Raffael

Pierwszą rzeczą, która pojawia się dla mnie, jest pdf manuskryptu u montreal !?

— cbeleites wspiera Monikę

więc co mówi gazeta? Nie mogę tego znaleźć

— Raffael

Właśnie o to proszę.

— cbeleites wspiera Monikę

11

Odpowiedni manuskrypt znajduje się tutaj .

Różnica między totemem D i totemem D2 jest różnicą między dwoma kryteriami grupowania, które w manuskrypcie nazywane są Totem1 i Totem2.

Zasadniczo sprowadza się to do tego, że algorytm totemu jest bezpośrednio poprawnie zaimplementowany tylko w totem2 (totem2), ale totem1 (totemowy) może być również użyty, jeśli odległości euklidesowe (od dist()) zostaną podniesione do kwadratu przed wprowadzeniem ich do hclust()za pomocą metody tot jako metody.

Na przykład SPSS również implementuje Ward1, ale ostrzega użytkowników, że odległości powinny być podniesione do kwadratu, aby uzyskać kryterium Totem. W takim sensie implementacja totem D nie jest przestarzała, ale dobrym pomysłem może być zachowanie go dla kompatybilności wstecznej.

— JTT
źródło

2

Z artykułu, do którego linkujesz, nie wynika Ward algorithm is directly correctly implemented in just Ward2, ale raczej, że: (1) aby uzyskać poprawne wyniki dla obu implementacji, użyj kwadratowych odległości euklidesowych z Totem1 i niekwadratowych odległości euklidesowych z Totem2; (2) w celu dalszego porównania ich wyjściowych dendrogramów (identycznych), zastosuj pierwiastek kwadratowy do poziomów fuzji po Ward1 lub kwadratowych poziomów fuzji po Ward2, przed skonstruowaniem dendrogramu.

— ttnphns

Oczywiście masz rację. Dziękuję za wyjaśnienie. To, co rozumiem przez „bezpośrednio poprawnie zaimplementowane”, to to, że żadne dalsze kroki, takie jak pierwiastek kwadratowy z wysokości, nie są potrzebne, aby dojść do prawidłowego wyniku za pomocą metody ward.D2.

— JTT

1

Maleńki niuans tutaj jest to, że metodą Warda, to nie definiuje, co jest „poprawne” lub prawdziwe przedstawienie poziomów Fusion - czy powinny być wykreślone „nonsquared” lub „kwadrat”. Przyczyną niezdecydowania jest to, że poziomy syntezy jądrowej na Oddziale nie są odległościami , lecz przyrostowymi dyspersjami.

— ttnphns

9

Jedyną różnicą między ward.D& ward.D2jest parametr wejściowy.

hclust(dist(x)^2,method="ward.D") ~ hclust(dist(x)^2,method="ward")

które są równoważne: hclust(dist(x),method="ward.D2")

Możesz znaleźć artykuł ponownie: Hierarchiczna metoda grupowania Warda: kryterium klastrowania i algorytm aglomeracyjny

W Ward2 wartości kryterium są „ w skali od odległości ” natomiast Ward1 wartości kryterium są „ w skali od odległości do kwadratu ”.

— Nilesh
źródło

Wolę tę odpowiedź, ponieważ druga sugeruje, że totem jest zły, nie jest. Po prostu inny.

— Chris

6

Natknąłem się na artykuł badawczy, który odpowiada funkcji celu, która jest optymalizowana przez „Ward1 (ward.D)”: Hierarchiczne grupowanie poprzez wspólne odległości wewnątrz: Rozszerzanie metody minimalnej wariancji totemu . Okazuje się, że implementacja „Ward1 (ward.D)” R jest równoważna minimalizacji odległości energii między grupami klastrów.

2.1 klastrze i funkcja celu $e$

Niech a jest niepuste podzbiory . Określają między-na, lub -odległość pomiędzy i jako $A = \{a_1, \ldots, a_{n_1}\}$ $B = \{b_1, \ldots, b_{n_2}\}$ $\mathbb R^d$ $e$ $e(A, B)$ $A$ $B$
$\begin{aligned} e (A, B) = & \frac{n_{1} n_{2}}{n_{1} + n_{2}} (\frac{2}{n_{1} n_{2}} \sum_{i = 1}^{n_{1}} \sum_{j = 1}^{n_{2}} ‖ a_{i} - b_{j} ‖ \\ (1) & - \frac{1}{n_{1}^{2}} \sum_{i = 1}^{n_{1}} \sum_{j = 1}^{n_{1}} ‖ a_{i} - a_{j} ‖ - \frac{1}{n_{2}^{2}} \sum_{i = 1}^{n_{2}} \sum_{j = 1}^{n_{2}} ‖ b_{i} - b_{j} ‖) . \end{aligned}$ $\begin{align} e(A, B) = &\frac{n_1n_2}{n_1+n_2}\bigg(\frac{2}{n_1n_2}\sum_{i=1}^{n_1} \sum_{j=1}^{n_2} \|a_i-b_j\| \\ &- \frac{1}{n_1^2}\sum_{i=1}^{n_1}\sum_{j=1}^{n_1}\|a_i-a_j\| - \frac{1}{n_2^2}\sum_{i=1}^{n_2}\sum_{j=1}^{n_2}\|b_i-b_j\|\bigg). \tag{1} \end{align}$

— użytkownik3235207
źródło

e^{(2)}

$e^{(2)}$ ward.D2

e^{(1)}

$e^{(1)}$ ward.D1

0 < α < 2

$0<\alpha<2$

e^{(α)}

$e^{(\alpha)}$

1

$1$