Pytania otagowane jako clustering

Analiza skupień polega na dzieleniu danych na podzbiory obiektów zgodnie z ich wzajemnym „podobieństwem” bez korzystania z istniejącej wiedzy, takiej jak etykiety klas. [Błędy klastra-standardowe i / lub próbki klastra powinny być oznaczone jako takie; NIE używaj dla nich znacznika „grupowania”.]

1
Jaka intuicja kryje się za wymiennymi próbkami pod hipotezą zerową?
Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny, Mann-Whitney-U-testktóry prowadziłby do utraty większej ilości informacji. Jednak nie należy zapominać o jednym …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
Wykrywanie szeregów czasowych i anomalii
Chciałbym skonfigurować algorytm do wykrywania anomalii w szeregach czasowych i planuję użyć do tego klastrowania. Dlaczego powinienem używać macierzy odległości do grupowania, a nie surowych danych szeregów czasowych ?, Do wykrycia anomalii użyję klastrowania opartego na gęstości, algorytmu jako DBscan, więc czy to zadziała w tym przypadku? Czy jest dostępna …

3
Czy można używać odległości Manhattan z połączeniem między klastrami Warda w hierarchicznym klastrowaniu?
Korzystam z hierarchicznego grupowania do analizy danych szeregów czasowych. Mój kod jest implementowany za pomocą funkcji MathematicaDirectAgglomerate[...] , która generuje hierarchiczne klastry przy następujących danych wejściowych: macierz odległości D nazwa metody zastosowanej do ustalenia powiązania między klastrami. Obliczyłem macierz odległości D na podstawie odległości Manhattan: d(x,y)=∑i|xi−yi|d(x,y)=∑i|xi−yi|d(x,y) = \sum_i|x_i - y_i| …


3
Jak wykreślić dane wyjściowe klastrowania?
Próbowałem grupować zestaw danych (zestaw znaków) i otrzymałem 2 klastry. Chciałbym to przedstawić graficznie. Trochę zdezorientowany co do reprezentacji, ponieważ nie mam współrzędnych (x, y). Poszukuję również do tego celu MATLAB / Python. EDYTOWAĆ Myślę, że publikowanie danych wyjaśnia pytanie. Mam dwa klastry, które utworzyłem za pomocą klastrowania kmeans w …

2
Procesy Dirichlet dla grupowania: jak radzić sobie z etykietami?
P: Jaki jest standardowy sposób klastrowania danych przy użyciu procesu Dirichleta? Podczas korzystania z Gibbs klastry próbkowania pojawiają się i znikają podczas próbkowania. Poza tym mamy problem z identyfikowalnością, ponieważ rozkład tylny jest niezmienny w przypadku etykietowania skupień. Dlatego nie możemy powiedzieć, który klaster jest użytkownikiem, a raczej, że dwóch …

2
k-średnie vs k-mediana?
Wiem, że istnieje algorytm grupowania k-średnich i k-mediana. Jeden, który wykorzystuje średnią jako środek skupienia, a drugi wykorzystuje medianę. Moje pytanie brzmi: kiedy / gdzie użyć którego?


3
Dlaczego używamy k-średnich zamiast innych algorytmów?
Badałem k-średnich i oto, co otrzymałem: k-średnich jest jednym z najprostszych algorytmów, który wykorzystuje metodę uczenia bez nadzoru w celu rozwiązania znanych problemów związanych z klastrowaniem. Działa naprawdę dobrze z dużymi zestawami danych. Istnieją jednak także wady K-Means: Silna wrażliwość na wartości odstające i hałas Nie działa dobrze w przypadku …

4
Jak zmierzyć kształt klastra?
Wiem, że to pytanie nie jest dobrze zdefiniowane, ale niektóre gromady mają tendencję do bycia eliptycznymi lub leżą w przestrzeni o mniejszych wymiarach, podczas gdy inne mają kształty nieliniowe (w przykładach 2D lub 3D). Czy istnieje jakakolwiek miara nieliniowości (lub „kształtu”) klastrów? Zauważ, że w przestrzeni 2D i 3D nie …

3
Czy ktoś może wyjaśnić dynamiczne dopasowanie czasu w celu ustalenia podobieństwa szeregów czasowych?
Próbuję uchwycić dynamiczny środek dopasowania czasu do porównywania szeregów czasowych razem. Mam trzy zestawy danych szeregów czasowych takie jak to: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, 0.000275608635737, …

8
Jakie są „gorące algorytmy” uczenia maszynowego?
To naiwne pytanie kogoś, kto zaczyna uczyć się uczenia maszynowego. Czytam dziś książkę „Machine Learning: algorytmiczna perspektywa” z Marsland. Uważam, że jest przydatna jako książka wprowadzająca, ale teraz chciałbym przejść do zaawansowanych algorytmów, które dają obecnie najlepsze wyniki. Najbardziej interesuje mnie bioinformatyka: grupowanie sieci biologicznych i znajdowanie wzorców w sekwencjach …

3
lub
Czy ktoś używa metryk L1L1L_1 lub L.5L.5L_.5 do grupowania, a nie L2L2L_2 ? Aggarwal i wsp., O zaskakującym zachowaniu wskaźników odległości w przestrzeni wielowymiarowej powiedział (w 2001) jest konsekwentnie bardziej preferowany niż metryczny euklidesowy wskaźnik odległości L 2 dla aplikacji eksploracji danych o dużych wymiarachL1L1L_1L2L2L_2 i twierdził, że lub L …

9
Oprogramowanie do wizualizacji dla grupowania
Zablokowana . To pytanie i odpowiedzi są zablokowane, ponieważ pytanie jest nie na temat, ale ma znaczenie historyczne. Obecnie nie akceptuje nowych odpowiedzi ani interakcji. Chcę zebrać ~ 22000 punktów. Wiele algorytmów klastrowania działa lepiej przy wstępnych domysłach o wyższej jakości. Jakie istnieją narzędzia, które mogą dać mi dobry pogląd …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.