Statystyki i duże zbiory danych k-means

1

Różnica między standardowymi a sferycznymi algorytmami k-średnich

Chciałbym zrozumieć, jaka jest główna różnica w implementacji między standardowymi a sferycznymi algorytmami klastrowania k-średnich. Na każdym etapie k-średnich oblicza odległości między wektorami elementów i centroidami gromady i ponownie przypisuje dokument do tej gromady, której centroid jest najbliższy. Następnie wszystkie centroidy są przeliczane. W sferycznych średnich k wszystkie wektory są …

28 clustering data-mining algorithms k-means

2

Jak używać jednocześnie zmiennych binarnych i ciągłych w grupowaniu?

Potrzebuję użyć zmiennych binarnych (wartości 0 i 1) w k-średnich. Ale k-średnie działa tylko ze zmiennymi ciągłymi. Wiem, że niektórzy ludzie nadal używają tych zmiennych binarnych w k-średnich, ignorując fakt, że k-średnie jest zaprojektowane tylko dla zmiennych ciągłych. To jest dla mnie nie do przyjęcia. Pytania: Jaki jest zatem statystycznie …

27 r clustering binary-data k-means mixed-type-data

5

Procedura grupowania, w której każdy klaster ma taką samą liczbę punktów?

Że pewne punkty w , i chcę skupić punkty, aby:X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p Każda grupa zawiera taką samą liczbę elementów . (Załóżmy, że liczba klastrów dzieli .)XXXnnn Każda klaster jest w pewnym sensie „przestrzennie spójny”, podobnie jak klastry z średnich.kkk Łatwo jest wymyślić wiele procedur klastrowania, które spełniają jedną lub drugą z nich, …

25 machine-learning clustering k-means unsupervised-learning

3

Określ różne klastry danych 1d z bazy danych

Mam tabelę bazy danych przesyłania danych między różnymi węzłami. To ogromna baza danych (z prawie 40 milionami transferów). Jednym z atrybutów jest liczba transferów bajtów (nbajtów) w zakresie od 0 bajtów do 2 tera bajtów. Chciałbym zgrupować nbytes w taki sposób, aby dane k klastrów zawierały niektóre transfery x1 należące …

24 clustering k-means

8

Wykonywanie grupowania K-średnich (lub jego bliskich krewnych) za pomocą macierzy odległości, a nie danych punkt po cechach

Chcę wykonać K-oznacza grupowanie obiektów, które mam, ale obiekty te nie są opisywane jako punkty w przestrzeni, tj. Przez objects x featureszestaw danych. Jestem jednak w stanie obliczyć odległość między dowolnymi dwoma obiektami (jest ona oparta na funkcji podobieństwa). Pozbywam się macierzy odległości objects x objects. Wcześniej zaimplementowałem K-średnich, ale …

22 machine-learning clustering data-mining k-means distance

2

Jeśli grupowanie k-średnich jest formą modelowania mieszanki Gaussa, czy można go zastosować, gdy dane nie są normalne?

Czytam Bishopa o algorytmie EM dla GMM i związku między GMM a k-średnich. W tej książce jest napisane, że k-średnich jest trudną wersją GMM. Zastanawiam się, czy to implikuje, że jeśli dane, które próbuję skupić, nie są gaussowskie, nie mogę użyć k-średnich (a przynajmniej nie nadaje się do użycia)? Na …

21 clustering data-mining k-means gaussian-mixture

4

Grupowanie macierzy korelacji

Mam macierz korelacji, która określa, w jaki sposób każdy element jest skorelowany z drugim elementem. Dlatego dla N elementów mam już macierz korelacji N * N. Korzystając z tej macierzy korelacji, w jaki sposób grupuję N elementów w pojemnikach M, aby móc powiedzieć, że elementy Nk w k-tym bin zachowują …

20 clustering python k-means

2

Dowód zbieżności średnich k

W przypadku zadania poproszono mnie o przedstawienie dowodu, że k-średnie zbiega się w skończonej liczbie kroków. Oto co napisałem: CCCE(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) Krok 2 odnosi się do kroku, który oznacza każdy punkt danych najbliższym centrum skupienia, a krok 3 jest krokiem, w którym centra są aktualizowane przy użyciu średniej. Nie …

20 mathematical-statistics k-means

4

Jak zrozumieć wady hierarchicznego grupowania?

Czy ktoś może wyjaśnić zalety i wady hierarchicznego grupowania? Czy klastrowanie hierarchiczne ma te same wady, co oznacza K? Jakie są zalety Hierarchical Clustering nad K? Kiedy powinniśmy używać środków K zamiast hierarchicznego grupowania i odwrotnie? Odpowiedzi na ten post wyjaśnia wady k oznacza bardzo dobrze. Jak zrozumieć wady K-średnich

19 clustering k-means unsupervised-learning hierarchical-clustering

3

Szacowanie najważniejszych funkcji partycji k-średnich klastra

Czy istnieje sposób na określenie, które cechy / zmienne zestawu danych są najważniejsze / dominujące w ramach rozwiązania k-średnich klastrów?

19 machine-learning clustering k-means importance

3

Dlaczego statystyki luk dla k-średnich sugerują jeden klaster, chociaż oczywiście są dwa z nich?

Używam K-średnich do klastra moich danych i szukałem sposobu, aby zasugerować „optymalny” numer klastra. Statystyki luk wydają się być powszechnym sposobem na znalezienie dobrego numeru klastra. Z jakiegoś powodu zwraca 1 jako optymalną liczbę klastrów, ale kiedy patrzę na dane, widać, że istnieją 2 klastry: Tak nazywam lukę w R: …

18 r machine-learning clustering k-means

3

Wizualne wykreślanie wielowymiarowych danych klastra

Mam zestaw danych z 16 zmiennymi i po zgrupowaniu według kmeans chcę wykreślić dwie grupy. Jakie wykresy sugerujesz, aby wizualnie przedstawić dwa klastry?

18 data-visualization clustering k-means

5

Dlaczego k-znaczy nie daje globalnego minimum?

Czytałem, że algorytm k-średnich jest zbieżny tylko z lokalnym minimum, a nie globalnym minimum. Dlaczego to? Mogę logicznie myśleć o tym, w jaki sposób inicjalizacja mogłaby wpłynąć na końcowe grupowanie i istnieje możliwość nieoptymalnego grupowania, ale nie znalazłem niczego, co matematycznie to udowodni. Ponadto, dlaczego k-oznacza proces iteracyjny? Czy nie …

17 clustering k-means convergence gradient-descent minimum

4

Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

Czy klątwa wymiarowa działa na niektóre modele bardziej niż na inne?

Miejsca, które czytałem o klątwie wymiarowej, wyjaśniają to przede wszystkim w odniesieniu do kNN, a ogólnie modeli liniowych. Regularnie widzę najlepszych rankingów w Kaggle korzystających z tysięcy funkcji w zbiorze danych, który prawie nie ma 100 000 punktów danych. Używają głównie drzew Boosted i NN. To, że wiele cech wydaje …

15 neural-networks svm k-means k-nearest-neighbour high-dimensional

Pytania otagowane jako k-means