Pytania otagowane jako clustering

Analiza skupień polega na dzieleniu danych na podzbiory obiektów zgodnie z ich wzajemnym „podobieństwem” bez korzystania z istniejącej wiedzy, takiej jak etykiety klas. [Błędy klastra-standardowe i / lub próbki klastra powinny być oznaczone jako takie; NIE używaj dla nich znacznika „grupowania”.]

1
Wybór modelu Mclust
Pakiet R mclustwykorzystuje BIC jako kryterium wyboru modelu klastra. Z mojego zrozumienia, model z najniższym BIC powinien zostać wybrany w porównaniu z innymi modelami (jeśli zależy ci tylko na BIC). Jednak gdy wszystkie wartości BIC są ujemne, Mclustfunkcja domyślnie przyjmuje model o najwyższej wartości BIC. Moje ogólne zrozumienie z różnych …

3
Czy modułowość sieci Newmana działa dla podpisanych, ważonych wykresów?
Modułowość wykresu jest zdefiniowana na stronie Wikipedii . W innym poście ktoś wyjaśnił, że modułowość można łatwo obliczyć (i zmaksymalizować) dla sieci ważonych, ponieważ macierz przyległości może również zawierać wartościowe powiązania. Chciałbym jednak wiedzieć, czy zadziała to również z podpisanymi, cenionymi krawędziami, na przykład od -10 do +10. Czy możesz …

1
Wyjaśnienie maksymalizacji oczekiwań
Znalazłem bardzo pomocny samouczek dotyczący algorytmu EM . Przykład i zdjęcie z samouczka jest po prostu genialne. Powiązane pytanie dotyczące obliczania prawdopodobieństwa, jak działa maksymalizacja oczekiwań? Mam inne pytanie dotyczące połączenia teorii opisanej w samouczku z przykładem. Podczas kroku E, EM wybiera funkcję która ogranicza i dla której .soltgtg_tlogP.( x …

1
Jaka intuicja kryje się za metryką zmienności informacji (VI) do walidacji klastra?
Dla takich statystycznych statystów jak ja bardzo trudno jest uchwycić ideę VImetryki (zmienności informacji) nawet po przeczytaniu odpowiedniego artykułu Marina Melii „ Porównywanie klastrów - odległość oparta na informacjach ” (Journal of Multivariate Analysis, 2007). W rzeczywistości nie znam wielu warunków klastrowania. Poniżej znajduje się MWE i chciałbym wiedzieć, co …

2
Jakie są odległości między zmiennymi tworzącymi macierz kowariancji?
Mam macierzy kowariancji i chcę podzielić zmienne na klastrów za pomocą hierarchicznego grupowania (na przykład, aby posortować macierz kowariancji).kn × nn×nn \times nkkk Czy istnieje typowa funkcja odległości między zmiennymi (tj. Między kolumnami / rzędami kwadratowej macierzy kowariancji)? A jeśli jest ich więcej, czy istnieje dobre odniesienie do tematu?

2
Jak znaleźć grupy (trajektorie) wśród danych podłużnych?
Kontekst Chcę ustawić scenę, zanim nieco rozwinę pytanie. Mam dane podłużne, pomiary wykonywane na osobach co około 3 miesiące, pierwotny wynik jest liczbowy (jak ciągły do ​​1dp) w zakresie od 5 do 14, a większość (wszystkich punktów danych) wynosi od 7 do 10. Jeśli zrobię wykres spaghetti (z wiekiem na …

4
Czy istnieją przypadki, w których nie ma optymalnej wartości k w średnich?
To było w mojej głowie przez co najmniej kilka godzin. Próbowałem znaleźć optymalne k dla danych wyjściowych z algorytmu k-średnich (z metryką podobieństwa kosinusowego ), więc skończyłem na wykreślaniu zniekształcenia w funkcji liczby klastrów. Mój zestaw danych to zbiór 800 dokumentów w 600-wymiarowej przestrzeni. Z tego, co rozumiem, znalezienie punktu …

5
Grupowanie SOM dla zmiennych nominalnych / kołowych
Zastanawiam się tylko, czy ktoś jest zaznajomiony z grupowaniem nominalnych danych wejściowych. Patrzyłem na SOM jako rozwiązanie, ale najwyraźniej działa tylko z funkcjami numerycznymi. Czy są jakieś rozszerzenia dla funkcji jakościowych? W szczególności zastanawiałem się nad „Dniami tygodnia” jako możliwymi funkcjami. Oczywiście możliwe jest przekonwertowanie go na funkcję numeryczną (tj. …

2
Wizualizacja danych wielowymiarowych (LSI) w 2D
Korzystam z ukrytego indeksowania semantycznego, aby znaleźć podobieństwa między dokumentami ( dzięki, JMS! ) Po zmniejszeniu wymiaru próbowałem k-średnich grupowania dokumentów w klastry, co działa bardzo dobrze. Chciałbym jednak pójść nieco dalej i wizualizować dokumenty jako zestaw węzłów, w których odległość między dowolnymi dwoma węzłami jest odwrotnie proporcjonalna do ich …

3
Metody inicjowania grupowania K-oznacza
Interesuje mnie obecny stan wiedzy w zakresie selekcji początkowych nasion (ośrodków skupień) dla K-średnich. Googling prowadzi do dwóch popularnych opcji: losowy wybór nasion początkowych oraz przy użyciu techniki selekcji KMeans ++: Arthur i Vassilvitskii 2006 k-znaczy ++: Zalety ostrożnego siewu Czy są jakieś inne obiecujące metody, o których ktoś tu …

1
R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?
mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
Jakiego algorytmu należy użyć, aby zgrupować ogromny binarny zestaw danych w kilka kategorii?
Mam dużą (650K wierszy * 62 kolumny) macierz danych binarnych (tylko wpisy 0-1). Matryca jest w większości rzadka: około 8% jest wypełnione. Chciałbym podzielić go na 5 grup - powiedzmy nazwanych od 1 do 5. Próbowałem zgrupować hierarchicznie i nie byłem w stanie obsłużyć rozmiaru. Użyłem również algorytmu grupowania k-średnich …

3
Odległość między dwiema mieszankami gaussowskimi do oceny rozwiązań klastrowych
Korzystam z szybkiej symulacji, aby porównać różne metody klastrowania, i obecnie mam problem z oceną rozwiązań klastrowych. Znam różne miary sprawdzania poprawności (wiele z nich znajduje się w klaster.stats () w R), ale zakładam, że najlepiej je wykorzystać, jeśli szacunkowa liczba klastrów faktycznie równa się prawdziwej liczbie klastrów. Chcę zachować …

2
Jak „inteligentnie” skumulować zbiór posortowanych danych?
Staram się inteligentnie bin posortować kolekcję. Mam kolekcję fragmentów danych. Ale wiem, że te dane wpisuje się nierówno wielkości pojemników. Nie wiem, jak inteligentnie wybrać punkty końcowe, aby odpowiednio dopasować dane. na przykład:nnnmmm Powiedzmy, że mam w mojej kolekcji 12 produktów i wiem, że dane zmieszczą się w 3 pojemnikach: …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.