Jak wybrać metodę grupowania? Jak sprawdzić poprawność rozwiązania klastrowego (aby uzasadnić wybór metody)?


35

Jednym z największych problemów związanych z analizą skupień jest to, że może się zdarzyć, że będziemy musieli wyciągnąć odmienne wnioski, gdy oprą się na różnych zastosowanych metodach klastrowania (w tym różnych metodach łączenia w hierarchicznym klastrze).

Chciałbym poznać Twoją opinię na ten temat - którą metodę wybierzesz i jak. Można powiedzieć, że „najlepszą metodą grupowania jest odpowiednia odpowiedź”; ale w odpowiedzi mogę zapytać, czy analiza skupień ma być techniką bez nadzoru - skąd mam wiedzieć, która metoda lub połączenie jest właściwą odpowiedzią?

Ogólnie: czy sam klaster jest wystarczająco solidny, aby na nim polegać? Czy potrzebujemy drugiej metody i uzyskamy wspólny wynik, który będzie oparty na obu?

Moje pytanie dotyczy nie tylko możliwych sposobów sprawdzania / oceny wydajności klastrowania, ale jest szersze - na jakiej podstawie wybieramy / preferujemy jedną metodę / algorytm klastrowania nad inną. Czy są też powszechne ostrzeżenia , które powinniśmy rozejrzeć, wybierając metodę klastrowania naszych danych?

Wiem, że jest to bardzo ogólne pytanie i bardzo trudno na nie odpowiedzieć. Chciałbym tylko wiedzieć, czy masz jakieś uwagi, porady lub sugestie, aby dowiedzieć się więcej na ten temat.


Sprawdź także to podobne pytanie.
ttnphns

I ten jeden.
ttnphns

2
Niektóre linki konkretnie dotyczące wewnętrznej i zewnętrznej walidacji: to . I to . I że . I że . I że . I to . I tam . I szukaj więcej.
ttnphns

Odpowiedzi:


50

Często mówią, że nie ma innej techniki analitycznej tak silnej jak „jak siejesz, będziesz kosić”, podobnie jak analiza skupień.

Mogę sobie wyobrazić wiele wymiarów lub aspektów „słuszności” tej lub innej metody grupowania :

  1. Metafora klastrowa . „Wolałem tę metodę, ponieważ tworzy ona takie klastry (lub taki sposób), które odpowiadają mojej koncepcji klastra w moim konkretnym projekcie” . Każdy algorytm klastrowy lub podklucz / metoda implikuje odpowiednią strukturę / budowę / kształt klastra. W odniesieniu do metod hierarchicznych zaobserwowałem to w jednym z punktów tutaj , a także tutaj. Tzn. Niektóre metody dają klastry, które są prototypowo „typami”, inne dają „koła [według zainteresowań]”, jeszcze inne „[polityczne] platformy”, „klasy”, „łańcuchy” itp. Wybierz tę metodę, która metafora klastrów Ci odpowiada. Na przykład, jeśli widzę moje segmenty klientów jako typy - bardziej lub mniej kuliste kształty z zagęszczeniem (ami) w środku, wybiorę metodę wiązania Warda lub K-środków, ale nigdy nie metodę pojedynczego połączenia, wyraźnie. Jeśli potrzebuję centralnego reprezentatywnego punktu, mógłbym użyć metody medoidalnej. Jeśli potrzebuję sprawdzić punkty pod kątem ich rdzenia i urządzeń peryferyjnych, mógłbym zastosować podejście DBSCAN.

  2. Założenia dotyczące danych / metod . „Wolałem tę metodę, ponieważ moja natura lub format danych predysponuje ją” . Ten ważny i rozległy punkt jest również wspomniany w moim linku powyżej. Różne algorytmy / metody mogą wymagać dla nich różnego rodzaju danych lub różnych miar bliskości, które mają być zastosowane do danych, i odwrotnie, różne dane mogą wymagać różnych metod. Istnieją metody dla danych ilościowych i metody dla danych jakościowych. Mieszanka cech ilościowych i jakościowych dramatycznie zawęża zakres wyboru między metodami. Środki Totemu lub K.opierają się - wprost lub pośrednio - tylko na (kwadratowej) odległości euklidesowej odległości, a nie na arbitralnej metodzie. Dane binarne mogą wymagać specjalnych miar podobieństwa, które z kolei będą silnie kwestionować niektóre metody, na przykład Warda lub K. Duże zbiory danych mogą wymagać specjalnych algorytmów lub specjalnych implementacji.

  3. 1about), więc wysoka ważność może częściowo wynikać z przypadkowej osobliwości danego zestawu danych; posiadanie zestawu danych testowych jest zawsze korzystne.]

  4. Ważność zewnętrzna . „Wolałem tę metodę, ponieważ dała mi klastry, które różnią się ich pochodzeniem lub klastry, które pasują do prawdziwych, które znam” . Jeśli partycja klastrowa przedstawia klastry, które są wyraźnie różne na niektórych ważnych podstawach (tj. Nie uczestniczyły w analizie klastrowej), to jest zaletą tej metody, która utworzyła partycję. Użyj dowolnej analizy, która ma zastosowanie, aby sprawdzić różnicę; istnieje również szereg użytecznych kryteriów klastrowania zewnętrznego(Rand, miara F itp.). Innym wariantem zewnętrznego sprawdzania poprawności jest to, że w jakiś sposób znasz prawdziwe klastry w swoich danych (znasz „prawdę podstawową”), na przykład kiedy sam wygenerowałeś klastry. Zatem, jak dokładnie twoja metoda klastrowania jest w stanie odkryć prawdziwe klastry, jest miarą zewnętrznej ważności.

  5. Ważność krzyżowa . „Wolałem tę metodę, ponieważ daje mi bardzo podobne klastry na równoważnych próbkach danych lub dobrze ekstrapoluje na takie próbki” . Istnieją różne podejścia i ich hybrydy, niektóre bardziej wykonalne w przypadku niektórych metod grupowania, a inne w przypadku innych metod. Dwa główne podejścia to sprawdzenie stabilności i uogólnienieczek. Sprawdzając stabilność metody klastrowania, jeden losowo dzieli lub ponownie próbkuje dane w częściowo przecinających się lub całkowicie rozłącznych zestawach i wykonuje grupowanie na każdym; następnie dopasowuje i porównuje rozwiązania z pewną wschodzącą cechą klastra (na przykład centralną lokalizacją tendencji klastra), czy jest stabilna w zestawach. Sprawdzanie uogólnienia oznacza przeprowadzanie klastrowania w zestawie pociągów, a następnie wykorzystanie jego nowo powstającej charakterystyki lub reguły klastra do przypisania obiektów zestawu testowego, a także wykonanie klastrowania w zestawie testowym. Następnie porównuje się przydział członkostwa i wynik grupowania członkostwa w klastrze obiektów zestawu testowego.

  6. Interpretacja . „Wolałem tę metodę, ponieważ dała mi ona klastry, które, jak wyjaśniono, są najbardziej przekonujące, że na świecie jest jakieś znaczenie” . To nie jest statystyczna - to twoja psychologiczna walidacja. Jak znaczące są wyniki dla Ciebie, domeny i potencjalnie odbiorców / klientów. Wybierz metodę dającą najbardziej zrozumiałe, ostre wyniki.

  7. Towarzyskość . Niektóre badania regularnie, a wszystkie badania od czasu do czasu mówią: „Wolałem tę metodę, ponieważ dała z moimi danymi podobne wyniki z wieloma innymi metodami spośród wszystkich tych, które sondowałem” . Jest to heurystyczna, ale wątpliwa strategia, która zakłada, że ​​istnieją dość uniwersalne dane lub dość uniwersalna metoda.

Punkty 1 i 2 są teoretyczne i poprzedzają uzyskanie wyniku; na tych punktach opiera się wyłącznie wyniosła, pewna siebie strategia eksploracyjna. Punkty 3, 4 i 5 są empiryczne i podążają za wynikiem; na tych punktach opiera się wyłącznie podejrzana, wypróbowana strategia eksploracyjna. Punkt 6 jest kreatywny, co oznacza, że ​​zaprzecza jakiemukolwiek wynikowi, aby spróbować go usprawiedliwić. Punkt 7 jest lojalnym mauvaise foi.

Punkty od 3 do 7 mogą być również oceniane przy wyborze „najlepszej” liczby klastrów .


1


1
Bardzo podoba mi się wewnętrzna miara trafności, taka jak suma wariancji wewnątrzgrupowych w K-średnich i hierarchicznym grupowaniu Warda, a także indeksy Dunna. Są niezależne od danych, a czasem nawet niezależne od algorytmu grupowania, chociaż niektóre z nich mają sens tylko w przypadku określonych algorytmów.
Douglas De Rizzo Meneghetti

2
@DouglasDeRizzoMeneghetti Nie zgadzam się. Nie są one niezależne od danych (przyjmują bardzo silne założenia dotyczące danych, takie jak liniowość i równoważność atrybutów), ani nie są niezależne od algorytmu klastrowania. W rzeczywistości każda wewnętrzna miara jest własnym algorytmem klastrowym (można zoptymalizować dla tej funkcji - jest to po prostu zbyt drogie).
Anony-Mousse

1
Rozumiem, że niektóre wewnętrzne miary ważności, takie jak suma wariancji wewnątrz klastra, mają lepsze wyniki, jeśli członkostwa w klastrze zostały nabyte za pomocą metody klastrowania, która ma tendencję do minimalizowania sumy wariancji wewnątrz klastra, i że miarą ważności jest Dunn indeksy zakładają, że dobre klastry są zwarte i daleko od siebie (nawet jeśli interpretacje „zwartych” i „daleko od siebie” pozostawia się do interpretacji), ale fakt, że można obliczyć te miary tylko z wartościami cech i członkostwem w klastrze elementy sprawiają, że są one dość wszechstronne.
Douglas De Rizzo Meneghetti

9

Są to głównie kryteria czerwonej flagi . Właściwości danych, które mówią, że pewne podejście na pewno zawiedzie.

  1. jeśli nie masz pojęcia, co oznaczają twoje dane , przestań je analizować. zgadujesz tylko zwierzęta w chmurach.

  2. jeśli atrybuty różnią się skalą i są nieliniowe lub pochylone. może to zrujnować Twoją analizę, chyba że masz bardzo dobry pomysł na odpowiednią normalizację. Zatrzymaj się i naucz się rozumieć swoje funkcje, jest zbyt wcześnie, aby je klastować.

  3. jeśli każdy atrybut jest równoważny (ta sama skala) i liniowy, a chcesz skwantyzować swój zestaw danych (a błąd najmniejszych kwadratów ma znaczenie dla danych), to warto spróbować k-średnich. Jeśli Twoje atrybuty są innego rodzaju i skali, wynik nie jest dobrze zdefiniowany. Przeciwprzykład: wiek i dochód. Dochód jest bardzo wypaczony i x years = y dollarjest nonsensowny.

  4. jeśli masz bardzo jasne pojęcie o tym, jak oszacować podobieństwo lub odległość (w znaczący sposób; zdolność do obliczenia pewnej liczby nie wystarczy), dobrym wyborem jest klastrowanie hierarchiczne i DBSCAN. Jeśli nie masz pojęcia, jak oszacować podobieństwo, najpierw rozwiąż ten problem.

Widzisz, że najczęstszym problemem jest to, że ludzie próbują zrzucić swoje surowe dane do tworzenia klastrów, kiedy najpierw muszą je zrozumieć i znormalizować, a także ustalić podobieństwo.

Przykłady:

  1. Piksele obrazu w przestrzeni RGB. Najmniejsze kwadraty mają pewien sens i wszystkie atrybuty są porównywalne - k-średnich jest dobrym wyborem.

  2. Dane geograficzne: najmniejsze kwadraty nie są zbyt odpowiednie. będą wartości odstające. ale odległość jest bardzo znacząca. Użyj DBSCAN, jeśli masz dużo hałasu, lub HAC (hierarchiczne skupienie aglomeracyjne), jeśli masz bardzo czyste dane.

  3. Gatunek obserwowany w różnych siedliskach. Najmniejsze kwadraty są wątpliwe, ale np. Podobieństwo Jaccard jest znaczące. Prawdopodobnie masz tylko kilka obserwacji i nie ma „fałszywych” siedlisk - użyj HAC.


+1. Błagam tylko o znalezienie innego wyrażenia zamiast stop criteria. Ponieważ, jak wiadomo, „reguły zatrzymywania” lub „kryteria zatrzymywania” są synonimem „wewnętrznych kryteriów klastrowania” w dziedzinie klastrowania hierarchicznego. Jest to więc zajęty termin. Ale masz na myśli te słowa w innym znaczeniu w odpowiedzi, co może dezorientować czytelnika.
ttnphns

1
Co powiesz na „kryteria czerwonej flagi”? Widzę twój punkt zatrzymania progu dla HAC.
Anony-Mousse

Świetny dla mnie, dobry wybór.
ttnphns

W pkt 2,3 mówisz (non)linear attributes. Co masz na myśli? W jaki sposób atrybut „liniowy”? czy mówisz o liniowych relacjach , tj. elipsoidalnych (a nie zakrzywionych) kształtach klastrów?
ttnphns

Dane z np. Rozkładem wykładniczym.
Anony-Mousse

3

Nie sądzę, aby istniał dobry sposób na to; Myślę, że merytoryczne są dobre rozwiązania.

Oczywiście możesz spróbować podzielić dane i utworzyć klaster wiele razy, i tak jeden, ale nadal pozostaje pytanie, które z nich jest przydatne.


2
Myślę, że termin sens nie można podkreślić wystarczy. To także jest sedno mojej odpowiedzi - najpierw musisz zrozumieć swoje dane.
Anony-Mousse

@ Anony-Mousse, to przesada z twojej strony. Założę się, że ludzie, którzy nie wiedzą, jak „zapomnieć” o „zrozumieniu” swoich danych, prawie nie odwiedzają tej witryny i nie zadają tak dobrych pytań, jak te zadawane tutaj.
ttnphns

@ttnphns Nie wiem, jak często takie osoby odwiedzają tę stronę iz pewnością nie zadają takich pytań. Ale wiele osób oczekuje, że analiza skupień będzie działać jak funkcja Excela. Wybierz dane, kliknij „klaster” i wyjdź z magicznych segmentów klientów. Który nigdy nie wydaje się działać lepiej niż losowo. I np. Ten użytkownik nie zrozumiał swoich danych: stats.stackexchange.com/q/195521/7828
Anony-Mousse
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.