Pytania otagowane jako k-means

k-średnich to metoda dzielenia danych na klastry poprzez znalezienie określonej liczby średnich, k, st, gdy dane są przypisane do klastrów w / najbliższej średniej, suma kwadratów w / i klastra jest zminimalizowana

1
Różnica między standardowymi a sferycznymi algorytmami k-średnich
Chciałbym zrozumieć, jaka jest główna różnica w implementacji między standardowymi a sferycznymi algorytmami klastrowania k-średnich. Na każdym etapie k-średnich oblicza odległości między wektorami elementów i centroidami gromady i ponownie przypisuje dokument do tej gromady, której centroid jest najbliższy. Następnie wszystkie centroidy są przeliczane. W sferycznych średnich k wszystkie wektory są …

2
Jak używać jednocześnie zmiennych binarnych i ciągłych w grupowaniu?
Potrzebuję użyć zmiennych binarnych (wartości 0 i 1) w k-średnich. Ale k-średnie działa tylko ze zmiennymi ciągłymi. Wiem, że niektórzy ludzie nadal używają tych zmiennych binarnych w k-średnich, ignorując fakt, że k-średnie jest zaprojektowane tylko dla zmiennych ciągłych. To jest dla mnie nie do przyjęcia. Pytania: Jaki jest zatem statystycznie …

5
Procedura grupowania, w której każdy klaster ma taką samą liczbę punktów?
Że pewne punkty w , i chcę skupić punkty, aby:X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p Każda grupa zawiera taką samą liczbę elementów . (Załóżmy, że liczba klastrów dzieli .)XXXnnn Każda klaster jest w pewnym sensie „przestrzennie spójny”, podobnie jak klastry z średnich.kkk Łatwo jest wymyślić wiele procedur klastrowania, które spełniają jedną lub drugą z nich, …

3
Określ różne klastry danych 1d z bazy danych
Mam tabelę bazy danych przesyłania danych między różnymi węzłami. To ogromna baza danych (z prawie 40 milionami transferów). Jednym z atrybutów jest liczba transferów bajtów (nbajtów) w zakresie od 0 bajtów do 2 tera bajtów. Chciałbym zgrupować nbytes w taki sposób, aby dane k klastrów zawierały niektóre transfery x1 należące …

8
Wykonywanie grupowania K-średnich (lub jego bliskich krewnych) za pomocą macierzy odległości, a nie danych punkt po cechach
Chcę wykonać K-oznacza grupowanie obiektów, które mam, ale obiekty te nie są opisywane jako punkty w przestrzeni, tj. Przez objects x featureszestaw danych. Jestem jednak w stanie obliczyć odległość między dowolnymi dwoma obiektami (jest ona oparta na funkcji podobieństwa). Pozbywam się macierzy odległości objects x objects. Wcześniej zaimplementowałem K-średnich, ale …

2
Jeśli grupowanie k-średnich jest formą modelowania mieszanki Gaussa, czy można go zastosować, gdy dane nie są normalne?
Czytam Bishopa o algorytmie EM dla GMM i związku między GMM a k-średnich. W tej książce jest napisane, że k-średnich jest trudną wersją GMM. Zastanawiam się, czy to implikuje, że jeśli dane, które próbuję skupić, nie są gaussowskie, nie mogę użyć k-średnich (a przynajmniej nie nadaje się do użycia)? Na …

4
Grupowanie macierzy korelacji
Mam macierz korelacji, która określa, w jaki sposób każdy element jest skorelowany z drugim elementem. Dlatego dla N elementów mam już macierz korelacji N * N. Korzystając z tej macierzy korelacji, w jaki sposób grupuję N elementów w pojemnikach M, aby móc powiedzieć, że elementy Nk w k-tym bin zachowują …

2
Dowód zbieżności średnich k
W przypadku zadania poproszono mnie o przedstawienie dowodu, że k-średnie zbiega się w skończonej liczbie kroków. Oto co napisałem: CCCE(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) Krok 2 odnosi się do kroku, który oznacza każdy punkt danych najbliższym centrum skupienia, a krok 3 jest krokiem, w którym centra są aktualizowane przy użyciu średniej. Nie …



3
Dlaczego statystyki luk dla k-średnich sugerują jeden klaster, chociaż oczywiście są dwa z nich?
Używam K-średnich do klastra moich danych i szukałem sposobu, aby zasugerować „optymalny” numer klastra. Statystyki luk wydają się być powszechnym sposobem na znalezienie dobrego numeru klastra. Z jakiegoś powodu zwraca 1 jako optymalną liczbę klastrów, ale kiedy patrzę na dane, widać, że istnieją 2 klastry: Tak nazywam lukę w R: …


5
Dlaczego k-znaczy nie daje globalnego minimum?
Czytałem, że algorytm k-średnich jest zbieżny tylko z lokalnym minimum, a nie globalnym minimum. Dlaczego to? Mogę logicznie myśleć o tym, w jaki sposób inicjalizacja mogłaby wpłynąć na końcowe grupowanie i istnieje możliwość nieoptymalnego grupowania, ale nie znalazłem niczego, co matematycznie to udowodni. Ponadto, dlaczego k-oznacza proces iteracyjny? Czy nie …

4
Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji
Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Czy klątwa wymiarowa działa na niektóre modele bardziej niż na inne?
Miejsca, które czytałem o klątwie wymiarowej, wyjaśniają to przede wszystkim w odniesieniu do kNN, a ogólnie modeli liniowych. Regularnie widzę najlepszych rankingów w Kaggle korzystających z tysięcy funkcji w zbiorze danych, który prawie nie ma 100 000 punktów danych. Używają głównie drzew Boosted i NN. To, że wiele cech wydaje …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.