Co robisz, gdy nie ma punktu łokcia dla grupowania kmeanów


13

Nauczyłem się, że wybierając liczbę klastrów, powinieneś poszukać punktu łokcia dla różnych wartości K. Wykreśliłem wartości withinss dla wartości k od 1 do 10, ale nie widzę wyraźnego łokieć. Co robisz w takim przypadku?

Kłopotliwe KMeans


2
Istnieje wiele kryteriów grupowania, przy czym zasada „kolano SS” jest tylko jednym, a nie najlepszym. Wypróbuj inne. Równie prawdopodobne jest, że nie masz klastrów w swoich danych.
ttnphns

@ttnphns O czym jest ta mistyczna osoba, o której mówisz? Jak mogę nie mieć klastrów w moich danych? Skąd mam wiedzieć?
Glen

Odpowiedzi:


7

Zła metoda?

Być może używasz niewłaściwego algorytmu dla swojego problemu.

Niewłaściwe przetwarzanie wstępne?

Środki K są bardzo wrażliwe na przetwarzanie wstępne. Jeśli jeden atrybut jest na znacznie większą skalę niż inne, zdominuje wynik. Twój wynik będzie wtedy efektywnie jednowymiarowy

Wizualizuj wyniki

Cokolwiek zrobisz, musisz zweryfikować swoje wyniki za pomocą czegoś innego niż rozpoczynanie od liczby, takiej jak SSQ. Zamiast tego rozważ wizualizację .

Wizualizacja może również powiedzieć, że być może w twoich danych jest tylko jeden klaster .


Jakie są dobre opcje wizualizacji dla danych wielowymiarowych?
Jeremy

1
Zależy od twoich danych. Niektóre dane mogą być dobrze rzutowane, ponieważ mają znacznie niższą wewnętrzną wymiarowość. Szeregi czasowe można łatwo wykreślić, a jeśli dane są serializowane, wizualizuj je jako obrazy? W każdym razie wizualizacja zależy od twoich danych, nigdy nie będzie jednego uniwersalnego rozwiązania.
Ma ZAKOŃCZENIE - Anony-Mousse

3

Jednym ze sposobów jest ręczne sprawdzenie członków w klastrach pod kątem określonego k, aby sprawdzić, czy grupy mają sens (czy można je rozróżnić?). Można tego dokonać za pomocą tabel awaryjnych i środków warunkowych. Zrób to dla różnych wartości K, aby określić, która wartość jest odpowiednia.

Mniej subiektywnym sposobem jest użycie wartości sylwetki:

/programming/18285434/how-do-i-choose-k-when-using-k-means-clustering-with-silhouette-function

Można to obliczyć za pomocą twojego ulubionego pakietu oprogramowania. Z linku:

Ta metoda porównuje podobieństwo wewnątrz grupy z podobieństwem najbliższej grupy. Jeśli jakakolwiek średnia odległość członka danych do innych członków tego samego klastra jest większa niż średnia odległość do niektórych innych członków klastra, wówczas wartość ta jest ujemna, a tworzenie klastrów nie powiodło się. Z drugiej strony wartości silhuette zbliżone do 1 wskazują na pomyślną operację grupowania. 0,5 nie jest dokładną miarą dla grupowania.


Glen, osobiście uważam, że twoja odpowiedź jest niepełna. Pierwszy akapit wydaje się niejasny. Czym jest ta „kontrola ręczna”, czy możesz opisać tę procedurę? Zatem sylwetka jest „mniej subiektywna” niż co ? I dlaczego?
ttnphns

Odpowiedź @ttnphns zaktualizowana.
Glen

contingency tables and conditional meansTo jest dalej mistyczne. Co mam z nimi zrobić, aby dotrzeć „subiektywnie” do dobrego k?
ttnphns

@ttnphns Jeśli plakat ma pytania na ten temat, sprawdzę. Jak powiedziałem, powinieneś sprawdzić, czy grupy są rozróżnialne. Wydaje mi się jasne.
Glen

Więc jeśli otrzymam niskie wartości sylwetki (~ .35), może to oznaczać, że te dane tak naprawdę nie mają dobrych klastrów?
Jeremy

0
  • Brak łokcia dla K-średnich nie oznacza, że ​​w danych nie ma klastrów;
  • Brak kolanka oznacza, że ​​użyty algorytm nie może oddzielić klastrów; (pomyśl o środkach K dla okręgów koncentrycznych w porównaniu z DBSCAN)

Zasadniczo możesz rozważyć:

  • dostrój swój algorytm;
  • użyj innego algorytmu;
  • wykonaj wstępne przetwarzanie danych.

-1

Możemy użyć pakietu NbClust, aby znaleźć najbardziej optymalną wartość k. Zapewnia 30 wskaźników do określania liczby klastrów i proponuje najlepszy wynik.

NbClust (dane = df, odległość = „euklidesowy”, min. Nc = 2, maks. Nc = 15, metoda = „kmeans”, indeks = „wszystkie”)


Witamy na stronie! Czy mógłbyś rozwinąć tę odpowiedź? Chociaż jest to pomocne, nieco więcej szczegółów uczyni je bardziej użytecznymi.
mkt - Przywróć Monikę
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.