Pytania otagowane jako clustering

Analiza skupień polega na dzieleniu danych na podzbiory obiektów zgodnie z ich wzajemnym „podobieństwem” bez korzystania z istniejącej wiedzy, takiej jak etykiety klas. [Błędy klastra-standardowe i / lub próbki klastra powinny być oznaczone jako takie; NIE używaj dla nich znacznika „grupowania”.]



1
W jaki sposób PCA pomógłby w analizie skupień metodą k-średnich?
Kontekst : Chcę podzielić obszary mieszkalne miasta na grupy na podstawie ich cech społeczno-ekonomicznych, w tym gęstości zabudowy, gęstości zaludnienia, powierzchni zieleni, ceny mieszkań, liczby szkół / ośrodków zdrowia / ośrodków opieki dziennej itp. Chcę zrozumieć, na ile różnych grup można podzielić dzielnice mieszkaniowe i jakie są ich unikalne cechy. …




5
Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
Porównanie hierarchicznych dendrogramów grupowania uzyskanych różnymi odległościami i metodami
[Początkowy tytuł „Pomiar podobieństwa dla hierarchicznych drzew klastrowych” został później zmieniony przez @ttnphns, aby lepiej odzwierciedlić temat] Przeprowadzam szereg hierarchicznych analiz skupień na ramce danych rekordów pacjentów (np. Podobnie do http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) Eksperymentuję z różnymi miarami odległości , różnymi wagami parametrów i różnymi metodami hierarchicznymi , aby zrozumieć ich wpływ …

1
Obliczanie powtarzalności efektów z modelu Lmer
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Różnica między standardowymi a sferycznymi algorytmami k-średnich
Chciałbym zrozumieć, jaka jest główna różnica w implementacji między standardowymi a sferycznymi algorytmami klastrowania k-średnich. Na każdym etapie k-średnich oblicza odległości między wektorami elementów i centroidami gromady i ponownie przypisuje dokument do tej gromady, której centroid jest najbliższy. Następnie wszystkie centroidy są przeliczane. W sferycznych średnich k wszystkie wektory są …

4
Jak zrobić zmniejszenie wymiarów w R.
Mam macierz, w której (i, j) mówi mi, ile razy przeglądałem stronę j. Istnieje 27 000 osób i 95 000 stron. Chciałbym mieć garść „wymiarów” lub „aspektów” w przestrzeni stron, które odpowiadałyby zestawom stron często oglądanych razem. Moim ostatecznym celem jest wtedy, aby móc obliczyć, jak często przeglądałem strony, które …

2
Jak używać jednocześnie zmiennych binarnych i ciągłych w grupowaniu?
Potrzebuję użyć zmiennych binarnych (wartości 0 i 1) w k-średnich. Ale k-średnie działa tylko ze zmiennymi ciągłymi. Wiem, że niektórzy ludzie nadal używają tych zmiennych binarnych w k-średnich, ignorując fakt, że k-średnie jest zaprojektowane tylko dla zmiennych ciągłych. To jest dla mnie nie do przyjęcia. Pytania: Jaki jest zatem statystycznie …


1
Jaka jest dopuszczalna wartość kryterium Calinski & Harabasz (CH)?
Przeprowadziłem analizę danych, próbując zgrupować dane podłużne przy użyciu R i pakietu kml . Moje dane zawierają około 400 indywidualnych trajektorii (jak to się nazywa w artykule). Możesz zobaczyć moje wyniki na poniższym obrazku: Po przeczytaniu rozdziału 2.2 „Wybór optymalnej liczby klastrów” w odpowiednim artykule nie otrzymałem żadnych odpowiedzi. Wolałbym …

3
LSA vs. PCA (klastrowanie dokumentów)
Badam różne techniki stosowane w grupowaniu dokumentów i chciałbym wyjaśnić pewne wątpliwości dotyczące PCA (analiza głównego składnika) i LSA (utajona analiza semantyczna). Po pierwsze - jakie są między nimi różnice? Wiem, że w PCA rozkład SVD jest stosowany do macierzy kowariancji terminów, podczas gdy w LSA jest to matryca termin-dokument. …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.