W moim zestawie danych mamy zarówno zmienne ciągłe, jak i naturalnie dyskretne. Chcę wiedzieć, czy możemy przeprowadzać hierarchiczne grupowanie przy użyciu obu typów zmiennych. A jeśli tak, jaki pomiar odległości jest odpowiedni?
W moim zestawie danych mamy zarówno zmienne ciągłe, jak i naturalnie dyskretne. Chcę wiedzieć, czy możemy przeprowadzać hierarchiczne grupowanie przy użyciu obu typów zmiennych. A jeśli tak, jaki pomiar odległości jest odpowiedni?
Odpowiedzi:
Jednym ze sposobów jest zastosowanie współczynnika podobieństwa Gowera, który jest miarą złożoną 1 ; wymaga zmiennych ilościowych (takich jak skala ocen), binarnych (takich jak obecne / nieobecne) i nominalnych (takich jak pracownik / nauczyciel / urzędnik). Później Podani 2 dodał także opcję przyjmowania zmiennych porządkowych.
Współczynnik można łatwo zrozumieć nawet bez wzoru; obliczasz wartość podobieństwa między poszczególnymi osobami dla każdej zmiennej, biorąc pod uwagę typ zmiennej, a następnie uśredniasz dla wszystkich zmiennych. Zwykle program obliczający Gowera pozwala na ważenie zmiennych, to znaczy ich udziału, w formule złożonej. Jednak właściwe ważenie zmiennych różnego typu stanowi problem , nie istnieją wyraźne wytyczne, które sprawiają, że Gower lub inne „złożone” wskaźniki zbliżenia przyciągają twarz.
Aspekty podobieństwa Gowera ( ):
(Łatwo jest rozszerzyć listę typów. Na przykład można dodać zestawienie zmiennych zliczających, używając znormalizowanej odległości chi-kwadrat przeliczonej na podobieństwo).
Współczynnik wynosi od 0 do 1.
Przy odległościach euklidesowych (odległościach wspierających przestrzeń euklidesową) wystarczy praktycznie każda klasyczna technika grupowania. Uwzględniając K-średnie (jeśli twój program K-średnich może oczywiście przetwarzać macierze odległości) i włączając Warda, centroid, medianowe metody grupowania hierarchicznego . Być może użycie środków K lub innych metod opartych na odległości euklidesowej z odległością wciąż niemetuklidesową jest heurystycznie dopuszczalne. W przypadku odległości niemetrycznych nie można stosować takich metod.
Poprzedni akapit mówi o tym, czy K-średnie lub Totem lub takie skupienie jest legalne, czy nie z odległością Gowera matematycznie (geometrycznie). Z punktu widzenia skali pomiarowej („psychometrycznej”) nie należy obliczać średniej lub euklidesowej odchyłki odległości od niej w danych kategorycznych (nominalnych, binarnych, a także porządkowych); dlatego z tej postawy po prostu nie możesz przetwarzać współczynnika Gowera za pomocą K-średnich, Totemu itp. Ten punkt widzenia ostrzega, że nawet jeśli przestrzeń euklidesowa jest obecna, może być granulowana, a nie gładka ( patrz powiązane ).
Jeśli natknąłeś się na to pytanie i zastanawiasz się, jaki pakiet do pobrania za pomocą metryki Gowera w R , cluster
pakiet ma funkcję o nazwie daisy () , która domyślnie używa metryki Gowera za każdym razem, gdy używane są mieszane typy zmiennych. Lub możesz ręcznie ustawić, aby korzystał z danych Gowera.
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))
StatMatch
.