Pytania otagowane jako clustering

Analiza skupień polega na dzieleniu danych na podzbiory obiektów zgodnie z ich wzajemnym „podobieństwem” bez korzystania z istniejącej wiedzy, takiej jak etykiety klas. [Błędy klastra-standardowe i / lub próbki klastra powinny być oznaczone jako takie; NIE używaj dla nich znacznika „grupowania”.]

3
Rozkład prawdopodobieństwa grupowania - metody i mierniki?
Mam pewne punkty danych, każdy zawierający 5 wektorów aglomerowanych wyników dyskretnych, wyniki każdego wektora generowane przez inny rozkład (konkretny rodzaj, którego nie jestem pewien, najlepiej zgaduję, że Weibull, z parametrem kształtu zmieniającym się gdzieś w pobliżu wykładniczej mocy prawo (od 1 do 0, z grubsza).) Chcę użyć algorytmu klastrowania, takiego …


1
średnie k || alias Scalable K-Means ++
Bahman Bahmani i in. wprowadzono k-średnich ||, która jest szybszą wersją k-średnich ++. Algorytm ten pochodzi ze strony 4 ich pracy , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., i Vassilvitskii, S. (2012). Skalowalne k-średnie ++. Postępowanie z VLDB Endowment , 5 (7), 622-633. Niestety nie rozumiem tych wymyślnych …

5
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Czy można porównać różne metody klastrowania w zbiorze danych bez prawdziwej prawdy poprzez wzajemną weryfikację?
Obecnie próbuję przeanalizować zestaw danych dokumentu tekstowego, który nie ma podstawowej prawdy. Powiedziano mi, że możesz użyć k-krotnego sprawdzania poprawności, aby porównać różne metody klastrowania. Jednak przykłady, które widziałem w przeszłości, wykorzystują podstawową prawdę. Czy istnieje sposób na użycie zestawu K-fold w tym zestawie danych do zweryfikowania moich wyników?

5
Czy mogę użyć PCA do dokonania wyboru zmiennych do analizy skupień?
Muszę zmniejszyć liczbę zmiennych, aby przeprowadzić analizę skupień. Moje zmienne są silnie skorelowane, więc pomyślałem o wykonaniu analizy czynnikowej PCA (analiza głównego składnika). Jeśli jednak użyję uzyskanych wyników, moje klastry nie będą całkiem poprawne (w porównaniu z poprzednimi klasyfikacjami w literaturze). Pytanie: Czy mogę użyć macierzy rotacji, aby wybrać zmienne …

2
Grupowanie danych przestrzennych w R.
Mam zestaw danych miesięcznych dotyczących temperatury powierzchni morza (SST) i chcę zastosować metodologię klastrową do wykrywania regionów o podobnych wzorcach SST. Mam zestaw miesięcznych plików danych od 1985 do 2009 roku i chcę zastosować klastrowanie do każdego miesiąca jako pierwszy krok. Każdy plik zawiera dane siatkowe dla 358416 punktów, z …
12 r  clustering  spatial 


1
Dokładny test Fishera i rozkład hipergeometryczny
Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby kontekst przeszkadzał. …

2
Interpretacja wyniku k-średnich w R
Użyłem kmeansinstrukcji R do wykonania algorytmu k-średnich w zestawie danych tęczówki Andersona. Mam pytanie dotyczące niektórych parametrów, które otrzymałem. Wyniki są następujące: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 W takim przypadku, co oznacza „klaster”? Czy jest to średnia odległości wszystkich obiektów w klastrze? Również w …

1
Solidna metoda klastrowa dla mieszanych danych w języku R
Chcę skupić mały zestaw danych (64 obserwacje 4 zmiennych interwałowych i pojedynczej zmiennej kategorialnej trzyczynnikowej). Teraz jestem całkiem nowy w analizie skupień, ale zdaję sobie sprawę, że od czasów, gdy hierarchiczne grupowanie lub k-średnie były jedynymi dostępnymi opcjami, nastąpił znaczny postęp. W szczególności wydaje się, że dostępne są nowe metody …

3
Jak mogę sprawdzić, czy moje grupowanie danych binarnych jest znaczące
Robię analizy koszyka na zakupy. Mój zestaw danych to zbiór wektorów transakcji z produktami, które są kupowane. Kiedy stosuję k-średnich w transakcjach, zawsze otrzymam jakiś wynik. Matryca losowa prawdopodobnie pokazywałaby także niektóre skupienia. Czy istnieje sposób na sprawdzenie, czy skupienie, które znalazłem, jest znaczące, czy też może być bardzo przypadkowe. …

1
Przypisz wagi do zmiennych w analizie skupień
Chcę przypisać różną wagę do zmiennych w mojej analizie skupień, ale wydaje się, że mój program (Stata) nie ma takiej opcji, więc muszę to zrobić ręcznie. Wyobraź sobie 4 zmienne A, B, C, D. Wagi tych zmiennych powinny wynosić w(A)=50% w(B)=25% w(C)=10% w(D)=15% Zastanawiam się, czy jedno z następujących dwóch …
12 clustering  stata 

1
Co zrobić, gdy macierz kowariancji próbki nie jest odwracalna?
Pracuję nad niektórymi technikami grupowania, w których dla danej grupy wektorów wymiaru d zakładam wielowymiarowy rozkład normalny i obliczam przykładowy średni wektor d-wymiarowy i macierz kowariancji próbki. Potem, gdy stara się zdecydować, czy nowy, niewidzialny, d-wymiarowy wektor należy do tego klastra ja sprawdzając jego odległość za pośrednictwem tego środka: ( …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.