Pytania otagowane jako clustering

Analiza skupień polega na dzieleniu danych na podzbiory obiektów zgodnie z ich wzajemnym „podobieństwem” bez korzystania z istniejącej wiedzy, takiej jak etykiety klas. [Błędy klastra-standardowe i / lub próbki klastra powinny być oznaczone jako takie; NIE używaj dla nich znacznika „grupowania”.]

2
Grupowanie zaszumionych danych lub wartości odstających
Mam zaszumione dane dwóch takich zmiennych. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, 0.5,0.9) y <- …

1
Formuła bezwładności grupowania w scikit learn
Chciałbym zakodować klastry kmeans w pythonie przy użyciu pand i scikit learning. Aby wybrać dobre k, chciałbym zakodować statystykę luk z Tibshirani i in. 2001 ( pdf ). Chciałbym wiedzieć, czy mogę użyć wyniku bezwładności scikit i dostosować formułę statystyki szczeliny bez konieczności przekodowywania wszystkich obliczeń odległości. Czy ktoś zna …

3
Wybór klastrów dla k-średnich: przypadek 1 klastra
Czy ktoś zna dobrą metodę ustalenia, czy klastrowanie przy użyciu kmeans jest w ogóle odpowiednie? To znaczy, co jeśli twoja próbka jest rzeczywiście jednorodna? Wiem, że model mieszanki (za pośrednictwem mclust w R) zapewni statystyki dopasowania dla przypadku klastra 1: k, ale wydaje się, że wszystkie techniki oceny kmeans wymagają …
9 r  clustering  k-means 

5
Czy klastrowanie wstępne pomaga zbudować lepszy model predykcyjny?
Do zadania modelowania rezygnacji rozważałem: Oblicz k klastrów dla danych Zbuduj k modeli dla każdego klastra osobno. Uzasadnieniem tego jest to, że nie ma nic do udowodnienia, że ​​populacja subskrybentów jest jednorodna, więc uzasadnione jest założenie, że proces generowania danych może być różny dla różnych „grup” Moje pytanie brzmi, czy …

1
Jak porównać obserwowane i oczekiwane zdarzenia?
Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

7
Poszukuję sztucznych danych 2D w celu wykazania właściwości algorytmów klastrowania
Szukam zestawów danych 2-wymiarowych punktów danych (każdy punkt danych jest wektorem dwóch wartości (x, y)) o różnych rozkładach i formach. Pomocny byłby również kod do generowania takich danych. Chcę ich użyć do wykreślenia / wizualizacji działania niektórych algorytmów klastrowych. Oto kilka przykładów: gwiazda jak dane w chmurze cztery klastry, jedna …

4
Jak powiedzieć ilościowo, czy dane 1D są skupione wokół 1 czy 3 wartości?
Mam dane na temat czasu między uderzeniami serca człowieka. Jednym ze wskazań ektopowych (dodatkowych) uderzeń jest to, że przedziały te są skupione wokół trzech wartości zamiast jednej. Jak mogę uzyskać ilościową miarę tego? Chcę porównać wiele zestawów danych, a te dwa 100-bin histogramy są reprezentatywne dla wszystkich z nich. Mógłbym …


2
Czy odległość musi być „metryką”, aby hierarchiczna klastracja była na niej ważna?
Powiedzmy, że definiujemy odległość, która nie jest miarą , między N elementami. Na podstawie tej odległości stosujemy następnie aglomeracyjne hierarchiczne grupowanie . Czy możemy zastosować każdy ze znanych algorytmów (połączenie pojedyncze / maksymalne / średnie itp.), Aby uzyskać znaczące wyniki? Lub inaczej: jaki jest problem z ich użyciem, jeśli odległość …

4
Grupowanie z asymetrycznymi pomiarami odległości
Jak grupujesz obiekt za pomocą asymetrycznej miary odległości? Załóżmy na przykład, że grupujesz zbiór danych z dniami tygodnia jako cechą - odległość od poniedziałku do piątku nie jest taka sama jak odległość od piątku do poniedziałku. Jak włączyć to do pomiaru odległości algorytmu klastrowania?


3
Cykl w algorytmie k-średnich
Według wiki najczęściej stosowanym kryterium konwergencji jest „przypisanie się nie zmieniło”. Zastanawiałem się, czy może wystąpić cykl, jeśli zastosujemy takie kryterium konwergencji? Byłbym zadowolony, gdyby ktokolwiek wskazał odniesienie do artykułu, który podaje przykład jazdy na rowerze lub dowodzi, że jest to niemożliwe.

3
Klastry zajmujące mało miejsca
Większość algorytmów grupowania, jakie widziałem, zaczyna się od tworzenia odległości między poszczególnymi punktami, co staje się problematyczne w przypadku większych zestawów danych. Czy jest taki, który tego nie robi? Czy może jest to podejście częściowe / przybliżone / naprzemienne? Który algorytm / implementacja klastrowania zajmuje mniej niż O (n ^ …

4
Jak przeprowadzić wiele testów chi-kwadrat post-hoc na stole 2 X 3?
Mój zestaw danych obejmuje zarówno całkowitą śmiertelność, jak i przeżycie organizmu w trzech typach miejsc: przybrzeżnym, śródokanałowym i przybrzeżnym. Liczby w poniższej tabeli reprezentują liczbę witryn. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Chciałbym wiedzieć, czy liczba witryn, w których wystąpiła 100% śmiertelność, jest …

2
Pierwsze kroki z biclustering
Przeprowadziłem przypadkowe badania internetowe dotyczące biclusters. (Przeczytałem kilka razy artykuł na Wiki). Jak dotąd wydaje się, że istnieje kilka definicji lub standardowej terminologii. Zastanawiałem się, czy są jakieś standardowe gazety lub książki, które powinien przeczytać każdy, kto jest zainteresowany algorytmami znajdowania bullusterów. Czy można powiedzieć, jaki jest stan techniki w …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.