Szacowanie najważniejszych funkcji partycji k-średnich klastra


19

Czy istnieje sposób na określenie, które cechy / zmienne zestawu danych są najważniejsze / dominujące w ramach rozwiązania k-średnich klastrów?


1
Jak definiujesz „ważny / dominujący”? Czy masz na myśli najbardziej przydatne do rozróżniania klastrów?
Franck Dernoncourt

3
Tak, najbardziej przydatne jest to, co miałem na myśli. Myślę, że częścią mojego problemu z rozgryzieniem tego jest to, jak to sformułować.
user1624577,

Dziękuję za wyjaśnienie. Jednym z typowych terminów określających ten problem w uczeniu maszynowym jest wybór funkcji .
Franck Dernoncourt

Odpowiedzi:


8

Jeden ze sposobów oceny przydatności każdej cechy (= zmienna = wymiar) z książki Burns, Robert P. i Richard Burns. Metody badań biznesowych i statystyki za pomocą SPSS. Sage, 2008. ( lustro ), użyteczność jest definiowana przez zdolność dyskryminacyjną cech do rozróżniania klastrów.

Zazwyczaj badamy średnie dla każdego skupienia w każdym wymiarze za pomocą ANOVA, aby ocenić, jak różne są nasze klastry. Idealnie byłoby uzyskać znacznie różne środki dla większości, jeśli nie wszystkich wymiarów, zastosowanych w analizie. Wielkość wartości F wykonywanych dla każdego wymiaru wskazuje, jak dobrze dany wymiar rozróżnia klastry.

Innym sposobem byłoby usunięcie określonej funkcji i sprawdzenie, jak wpłynie to na wewnętrzne wskaźniki jakości . W przeciwieństwie do pierwszego rozwiązania konieczne będzie ponowne wykonanie klastrowania dla każdej funkcji (lub zestawu funkcji), które chcesz przeanalizować.

FYI:


4
Jest bardzo ważne, aby dodać, że w tym kontekście powinno się nie brać tych F (lub p), jako wartości wskaźników istotności statystycznej (czyli względny populacji), ale raczej po prostu jako wskaźniki wielkości różnic.
ttnphns

3

Mogę wymyślić dwie inne możliwości, które koncentrują się bardziej na tym, które zmienne są ważne dla których klastrów.

  1. Klasyfikacja wielu klas. Rozważmy obiekty należące do członków klastra x tej samej klasy (np. Klasa 1) oraz obiekty należące do innych członków klastrów drugiej klasy (np. Klasa 2). Wytrenuj klasyfikatora, aby przewidywał członkostwo w klasie (np. Klasa 1 vs. klasa 2). Współczynniki zmienne klasyfikatora mogą służyć do oszacowania znaczenia każdej zmiennej w grupowaniu obiektów w klastrze x . Powtórz to podejście dla wszystkich innych klastrów.

  2. Podobieństwo zmiennych wewnątrz klastra. Dla każdej zmiennej oblicz średnie podobieństwo każdego obiektu do jego środka ciężkości. Zmienna o wysokim podobieństwie między środkiem ciężkości a jej obiektami jest prawdopodobnie ważniejsza dla procesu grupowania niż zmienna o niskim podobieństwie. Oczywiście wielkość podobieństwa jest względna, ale teraz zmienne mogą być uszeregowane według stopnia, w jakim pomagają grupować obiekty w każdej grupie.


0

Oto bardzo prosta metoda. Należy zauważyć, że odległość euklidesowa między dwoma centrami skupień jest sumą kwadratowej różnicy między poszczególnymi elementami. Następnie możemy po prostu użyć kwadratowej różnicy jako wagi dla każdej funkcji.

Odległość euklidesowa

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.