Pytania otagowane jako k-means

k-średnich to metoda dzielenia danych na klastry poprzez znalezienie określonej liczby średnich, k, st, gdy dane są przypisane do klastrów w / najbliższej średniej, suma kwadratów w / i klastra jest zminimalizowana

5
Jak zrozumieć wady K-średnich
K-średnich jest szeroko stosowaną metodą analizy skupień. W moim rozumieniu ta metoda NIE wymaga ŻADNYCH założeń, tj. Podaj mi zbiór danych i wcześniej określoną liczbę klastrów, k, i po prostu stosuję ten algorytm, który minimalizuje sumę błędów kwadratu (SSE), wewnątrz klastra do kwadratu błąd. Zatem k-średnich jest zasadniczo problemem optymalizacyjnym. …


6
Jak stwierdzić, czy dane są „klastrowane” wystarczająco, aby algorytmy klastrowania mogły dać znaczące wyniki?
Skąd miałbyś wiedzieć, czy twoje (wysokowymiarowe) dane wykazują wystarczającą liczbę klastrów, aby wyniki z kmeans lub innego algorytmu klastrowania były rzeczywiście znaczące? W szczególności w przypadku algorytmu k-średnich, jak duże powinno być zmniejszenie wariancji wewnątrz klastra, aby rzeczywiste wyniki grupowania były znaczące (a nie fałszywe)? Czy klastrowanie powinno być widoczne, …

3
Jak stworzyć ładny wykres wyników analizy skupień k-średnich?
Używam R, aby wykonać grupowanie K-oznacza. Używam 14 zmiennych do uruchomienia K-średnich Jaki jest ładny sposób na wykreślenie wyników K-średnich? Czy są jakieś istniejące wdrożenia? Czy posiadanie 14 zmiennych komplikuje wykreślanie wyników? Znalazłem coś o nazwie GGcluster, które wygląda fajnie, ale wciąż jest w fazie rozwoju. Przeczytałem też coś o …

6
Grupowanie na wyjściu t-SNE
Mam aplikację, w której przydałoby się skupić hałaśliwy zestaw danych przed wyszukaniem efektów podgrup w klastrach. Najpierw spojrzałem na PCA, ale potrzeba około 30 komponentów, aby uzyskać 90% zmienności, więc grupowanie tylko na kilku komputerach PC wyrzuci wiele informacji. Następnie spróbowałem t-SNE (po raz pierwszy), co daje mi dziwny kształt …

6
Dlaczego algorytm klastrowania k-oznacza używa wyłącznie metryki odległości euklidesowej?
Czy jest jakiś konkretny cel pod względem wydajności lub funkcjonalności, dlaczego algorytm k-średnich nie wykorzystuje na przykład podobieństwa (dis) cosinusa jako metryki odległości, a może jedynie stosować normę euklidesową? Zasadniczo, czy metoda K-oznacza jest zgodna i poprawna, gdy rozważa się lub stosuje inne odległości niż euklidesowe? [Dodane przez @ttnphns. Pytanie …

5
Jaki jest związek między grupowaniem k-średnich a PCA?
Powszechną praktyką jest stosowanie PCA (analiza głównego składnika) przed algorytmem grupowania (takim jak k-średnie). Uważa się, że poprawia to wyniki klastrowania w praktyce (redukcja hałasu). Jestem jednak zainteresowany porównawczym i dogłębnym badaniem związku między PCA i k-średnich. Na przykład Chris Ding i Xiaofeng He, 2004, K-oznacza Clustering poprzez Principal Component …

10
Jak zdecydować o właściwej liczbie klastrów?
Znajdujemy centra klastrów i przypisujemy punkty do k różnych pojemników klastra w klastrowaniu k-średnich, który jest bardzo dobrze znanym algorytmem i znajduje się prawie w każdym pakiecie uczenia maszynowego w sieci. Ale brakującą i najważniejszą częścią moim zdaniem jest wybór poprawnego k. Jaka jest jego najlepsza wartość? Co rozumiemy przez …

3
Grupowanie za pomocą K-Means i EM: w jaki sposób są one powiązane?
Studiowałem algorytmy dla grupowania danych (uczenie bez nadzoru): EM i k-średnich. Cały czas czytam: k-średnich jest wariantem EM, przy założeniu, że klastry są kuliste. Czy ktoś może wyjaśnić powyższe zdanie? Nie rozumiem, co oznaczają sfery i jak kmeany i EM są powiązane, ponieważ jeden wykonuje przyporządkowanie probabilistyczne, a drugi w …


5
Czy ważne jest skalowanie danych przed grupowaniem?
Znalazłem ten samouczek , który sugeruje, że powinieneś uruchomić funkcję skalowania na elementach przed grupowaniem (uważam, że konwertuje dane do wyników Z). Zastanawiam się, czy to konieczne. Pytam głównie dlatego, że nie mam łokcia, gdy nie skaluję danych, ale znika, gdy jest skalowane. :)


1
W jaki sposób PCA pomógłby w analizie skupień metodą k-średnich?
Kontekst : Chcę podzielić obszary mieszkalne miasta na grupy na podstawie ich cech społeczno-ekonomicznych, w tym gęstości zabudowy, gęstości zaludnienia, powierzchni zieleni, ceny mieszkań, liczby szkół / ośrodków zdrowia / ośrodków opieki dziennej itp. Chcę zrozumieć, na ile różnych grup można podzielić dzielnice mieszkaniowe i jakie są ich unikalne cechy. …


5
Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.