Chcę skupić mały zestaw danych (64 obserwacje 4 zmiennych interwałowych i pojedynczej zmiennej kategorialnej trzyczynnikowej). Teraz jestem całkiem nowy w analizie skupień, ale zdaję sobie sprawę, że od czasów, gdy hierarchiczne grupowanie lub k-średnie były jedynymi dostępnymi opcjami, nastąpił znaczny postęp. W szczególności wydaje się, że dostępne są nowe metody klastrowania oparte na modelach, które, jak wskazał chl , umożliwiają stosowanie „wskaźników dopasowania” do decydowania o liczbie klastrów lub klas ”.
Jednak standardowy pakiet R dla klastrowania opartego na modelach mclust
najwyraźniej nie pasuje do modeli o mieszanych typach danych. fpc
Model będzie, ale ma kłopoty montażu modelu, podejrzewam, ze względu na zakaz Gaussa charakteru zmiennych ciągłych. Czy powinienem kontynuować podejście oparte na modelu? Chciałbym nadal używać R, jeśli to możliwe. Widzę, że mam kilka opcji:
- Konwertuj trzypoziomową zmienną kategorialną na dwie zmienne zastępcze i użyj
mclust
. Nie jestem pewien, czy to wpłynie na wyniki, ale jeśli nie, to moja preferowana opcja. - Przekształć w jakiś sposób zmienne ciągłe i użyj
fpc
pakietu. - Użyj innego pakietu R, którego jeszcze nie spotkałem.
- Utwórz macierz odmienności za pomocą miary Gowera i użyj tradycyjnych hierarchicznych lub klastrowych technik relokacji.
Czy stats.se hivemind ma tutaj jakieś sugestie?