Jak powiedzieć ilościowo, czy dane 1D są skupione wokół 1 czy 3 wartości?


9

Mam dane na temat czasu między uderzeniami serca człowieka. Jednym ze wskazań ektopowych (dodatkowych) uderzeń jest to, że przedziały te są skupione wokół trzech wartości zamiast jednej. Jak mogę uzyskać ilościową miarę tego?

Chcę porównać wiele zestawów danych, a te dwa 100-bin histogramy są reprezentatywne dla wszystkich z nich.

wprowadź opis zdjęcia tutaj

Mógłbym porównać wariancje, ale chcę, aby mój algorytm mógł wykryć, czy w każdym przypadku jest jeden czy trzy klastry, bez porównywania z innymi przypadkami.

Jest to przeznaczone do przetwarzania offline, więc w razie potrzeby dostępna jest duża moc obliczeniowa.


Odpowiedzi:


3

Radzę mocno przed użyciem k-średnich tutaj. Wyniki dla różnych wartości k nie są bardzo dobrze porównywalne. Metoda jest po prostu prymitywną heurystyką. Jeśli naprawdę chcesz użyć klastrowania, skorzystaj z klastrowania EM, ponieważ twoje dane wydają się zawierać normalne dystrybucje. I sprawdź swoje wyniki!

Zamiast tego oczywistym podejściem jest próba dopasowania jednej funkcji Gaussa i (na przykład przy użyciu metody Levenberga-Marquarda) dopasowania trzech funkcji Gaussa, być może ograniczona do tej samej wysokości (aby uniknąć degeneracji).

Następnie przetestuj, która z dwóch rozkładów lepiej pasuje.


Dzięki, nie wiedziałem o Levenberg-Marquardt! Te klastry nie są gaussowskie; czy nadal uważasz, że funkcje Gaussa byłyby najlepszym plikiem PDF, w którym można je dopasować?
Nikolaus

+1 do tego i do Grega Snowa. Całkowicie zgadzam się z tą radą. @Nikolaus Myślę, że to wygląda na „wystarczająco gaussowskie”, aby pasowało do mieszanki rozkładów gaussowskich. Nie chcesz idealnego dopasowania, tylko sposób na sprawdzenie, ile jest klastrów. W tej optyce dobrym pomysłem może być ograniczenie wszystkich komponentów do tego samego standardowego odchylenia (z powodów wyjaśnionych przez Anony-Mousse).
Elvis

Wyglądają mi wystarczająco gaussowsko. K-oznacza modeluje dane z komórkami Voronoi. Nie wydaje mi się rozsądne zakładanie, że najlepszy punkt podziału znajduje się dokładnie pośrodku dwóch sąsiednich środków.
Ma ZAKOŃCZENIE - Anony-Mousse

6

Dopasuj rozkład mieszanki do danych, coś w rodzaju mieszanki 3 rozkładów normalnych, a następnie porównaj prawdopodobieństwo tego dopasowania z dopasowaniem pojedynczego rozkładu normalnego (za pomocą testu współczynnika prawdopodobieństwa lub AIC / BIC). flexmixPakiet Rmoże być pomocne.


4

Jeśli chcesz użyć klastrowania K-oznacza, potrzebujesz sposobu na porównanie przypadków i . Jednym podejściem byłoby wykorzystanie statystyki luki z Tibshirani i in. i wybierz który zapewnia lepszą wartość. W SLmisc dostępna jest implementacja R , chociaż ta konkretna funkcja spróbuje , więc musisz zadbać o to, aby tylko lub można było zwrócić jako wartość optymalną.K=1K=3KK=1,2,3K=1K=3


2

Użyj algorytmu grupowania K-średnich, aby zidentyfikować różne środki

Poszukaj funkcji KNN w poszukiwaniu R, aby znaleźć odpowiednią funkcję


1
ahh, właśnie miałem to opublikować! Możesz również skorzystać z tego linku, aby uzyskać kody i inne informacje: statmethods.net/advstats/cluster.html
King

Próbowałem z kmeansfunkcją Matlaba . Wynikowe środki różnią się znacznie w zależności od próby. (Zła heurystyka w tej implementacji?) W przypadku zestawu 1-klastrowego czasami otrzymuję środki w przybliżeniu (270 293 693), czasami (około 260 285 308). W przypadku zestawu 3-klastrowego niektóre odpowiedzi to (196, 324, 468) i (290, 459, 478).
Nikolaus,

Czy jest miejsce, w którym mogę wkleić dane?
Nikolaus,

Aha, o tym 693 oznacza: istnieją dwie oczywiste wartości odstające, 532 i 855, z ogólnej liczby 755 wartości. Wszystkie pozostałe wartości można zobaczyć na histogramie.
Nikolaus

Musisz spojrzeć poza środki, które otrzymujesz od k-średnich, i zobaczyć, jak dobrze faktycznie opisują twoje dane!
Ma ZAKOŃCZENIE - Anony-Mousse
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.