Czy istnieje sposób na określenie, które cechy / zmienne zestawu danych są najważniejsze / dominujące w ramach rozwiązania k-średnich klastrów?
Czy istnieje sposób na określenie, które cechy / zmienne zestawu danych są najważniejsze / dominujące w ramach rozwiązania k-średnich klastrów?
Odpowiedzi:
Jeden ze sposobów oceny przydatności każdej cechy (= zmienna = wymiar) z książki Burns, Robert P. i Richard Burns. Metody badań biznesowych i statystyki za pomocą SPSS. Sage, 2008. ( lustro ), użyteczność jest definiowana przez zdolność dyskryminacyjną cech do rozróżniania klastrów.
Zazwyczaj badamy średnie dla każdego skupienia w każdym wymiarze za pomocą ANOVA, aby ocenić, jak różne są nasze klastry. Idealnie byłoby uzyskać znacznie różne środki dla większości, jeśli nie wszystkich wymiarów, zastosowanych w analizie. Wielkość wartości F wykonywanych dla każdego wymiaru wskazuje, jak dobrze dany wymiar rozróżnia klastry.
Innym sposobem byłoby usunięcie określonej funkcji i sprawdzenie, jak wpłynie to na wewnętrzne wskaźniki jakości . W przeciwieństwie do pierwszego rozwiązania konieczne będzie ponowne wykonanie klastrowania dla każdej funkcji (lub zestawu funkcji), które chcesz przeanalizować.
FYI:
Mogę wymyślić dwie inne możliwości, które koncentrują się bardziej na tym, które zmienne są ważne dla których klastrów.
Klasyfikacja wielu klas. Rozważmy obiekty należące do członków klastra x tej samej klasy (np. Klasa 1) oraz obiekty należące do innych członków klastrów drugiej klasy (np. Klasa 2). Wytrenuj klasyfikatora, aby przewidywał członkostwo w klasie (np. Klasa 1 vs. klasa 2). Współczynniki zmienne klasyfikatora mogą służyć do oszacowania znaczenia każdej zmiennej w grupowaniu obiektów w klastrze x . Powtórz to podejście dla wszystkich innych klastrów.
Podobieństwo zmiennych wewnątrz klastra. Dla każdej zmiennej oblicz średnie podobieństwo każdego obiektu do jego środka ciężkości. Zmienna o wysokim podobieństwie między środkiem ciężkości a jej obiektami jest prawdopodobnie ważniejsza dla procesu grupowania niż zmienna o niskim podobieństwie. Oczywiście wielkość podobieństwa jest względna, ale teraz zmienne mogą być uszeregowane według stopnia, w jakim pomagają grupować obiekty w każdej grupie.