Pytania otagowane jako k-means

k-średnich to metoda dzielenia danych na klastry poprzez znalezienie określonej liczby średnich, k, st, gdy dane są przypisane do klastrów w / najbliższej średniej, suma kwadratów w / i klastra jest zminimalizowana

2
k-średnie vs k-mediana?
Wiem, że istnieje algorytm grupowania k-średnich i k-mediana. Jeden, który wykorzystuje średnią jako środek skupienia, a drugi wykorzystuje medianę. Moje pytanie brzmi: kiedy / gdzie użyć którego?

2
Dlaczego wartość k-średnich nie jest zoptymalizowana przy użyciu opadania gradientu?
Wiem, że k-średnie jest zwykle optymalizowane przy użyciu Maksymalizacji oczekiwań . Jednak moglibyśmy zoptymalizować jego funkcję utraty w ten sam sposób, w jaki zoptymalizowaliśmy każdy inny! Znalazłem kilka artykułów, które faktycznie używają stochastycznego spadku gradientu dla dużych k-średnich, ale nie mogłem uzyskać odpowiedzi na moje pytanie. Czy ktoś wie, dlaczego …

3
Dlaczego używamy k-średnich zamiast innych algorytmów?
Badałem k-średnich i oto, co otrzymałem: k-średnich jest jednym z najprostszych algorytmów, który wykorzystuje metodę uczenia bez nadzoru w celu rozwiązania znanych problemów związanych z klastrowaniem. Działa naprawdę dobrze z dużymi zestawami danych. Istnieją jednak także wady K-Means: Silna wrażliwość na wartości odstające i hałas Nie działa dobrze w przypadku …


3
Stosowność analizy ANOVA po analizie skupień k-średnich
Powiadomienie po tabeli ANOVA po analizie K-średnich wskazuje, że poziomy istotności nie powinny być traktowane jako test równych średnich, ponieważ rozwiązanie klastrowe zostało wyprowadzone na podstawie odległości euklidesowej w celu maksymalizacji odległości. Jakiego testu należy użyć, aby pokazać, czy średnie zmiennych klastrowych różnią się między klastrami? Widziałem to ostrzeżenie w …
14 anova  k-means 

2
Czy istnieje funkcja w R, która pobiera znalezione centra klastrów i przypisuje klastry do nowego zestawu danych
Mam dwie części wielowymiarowego zestawu danych, nazwijmy je trainitest . Chcę zbudować model na podstawie zestawu danych pociągu, a następnie zweryfikować go na zestawie danych testowych. Liczba klastrów jest znana. Próbowałem zastosować klastrowanie k-średnich w R i otrzymałem obiekt zawierający centra klastrów: kClust <- kmeans(train, centers=N, nstart=M) Czy w R …
14 r  clustering  k-means 


3
Czy muszę usunąć zmienne, które są skorelowane / współliniowe przed uruchomieniem kmeans?
Prowadzę kmeans, aby zidentyfikować klastry klientów. Mam około 100 zmiennych do identyfikacji klastrów. Każda z tych zmiennych reprezentuje% wydatków klienta na kategorię. Tak więc, jeśli mam 100 kategorii, mam te 100 zmiennych, więc suma tych zmiennych wynosi 100% dla każdego klienta. Teraz te zmienne są ściśle ze sobą skorelowane. Czy …

5
Jak przekonwertować odległość (euklidesowa) na wynik podobieństwa
Korzystam z oznacza grupowanie głosów w klastrze. Kiedy porównuję wypowiedź do danych głośników w klastrze, otrzymam (na podstawie odległości euklidesowej) średnie zniekształcenie. Odległość ta może wynosić . Chcę przekonwertować tę odległość na wynik podobieństwa . Proszę o wskazówki, jak to osiągnąć.[ 0 , ∞ ] [ 0 , 1 ]kkk[0,∞][0,∞][0,\infty][0,1][0,1][0,1]

4
Inicjalizowanie centrów K-średnich za pomocą losowych podpróbek zestawu danych?
Jeśli mam określony zestaw danych, jak mądre byłoby inicjowanie centrów klastrowych przy użyciu losowych próbek tego zestawu danych? Załóżmy na przykład, że chcę 5 clusters. Przyjmuję, 5 random samplespowiedzmy, size=20%oryginalny zestaw danych. Czy mogę wziąć średnią z każdej z 5 losowych próbek i użyć tych środków jako moich 5 początkowych …


2
Wykorzystanie BIC do oszacowania liczby k w KMEANS
Obecnie próbuję obliczyć BIC dla mojego zestawu danych zabawek (ofc iris (:). Chcę odtworzyć wyniki, jak pokazano tutaj (ryc. 5). Ten papier jest również moim źródłem dla formuł BIC. Mam z tym 2 problemy: Notacja: ninin_i I = liczba elementów w klastrzeiii CiCiC_i i = współrzędne środkowe klastraiii xjxjx_j i …

3
Rozkład prawdopodobieństwa grupowania - metody i mierniki?
Mam pewne punkty danych, każdy zawierający 5 wektorów aglomerowanych wyników dyskretnych, wyniki każdego wektora generowane przez inny rozkład (konkretny rodzaj, którego nie jestem pewien, najlepiej zgaduję, że Weibull, z parametrem kształtu zmieniającym się gdzieś w pobliżu wykładniczej mocy prawo (od 1 do 0, z grubsza).) Chcę użyć algorytmu klastrowania, takiego …

1
średnie k || alias Scalable K-Means ++
Bahman Bahmani i in. wprowadzono k-średnich ||, która jest szybszą wersją k-średnich ++. Algorytm ten pochodzi ze strony 4 ich pracy , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., i Vassilvitskii, S. (2012). Skalowalne k-średnie ++. Postępowanie z VLDB Endowment , 5 (7), 622-633. Niestety nie rozumiem tych wymyślnych …

5
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.