Statystyki i duże zbiory danych clustering

1

Jaka intuicja kryje się za wymiennymi próbkami pod hipotezą zerową?

Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny, Mann-Whitney-U-testktóry prowadziłby do utraty większej ilości informacji. Jednak nie należy zapominać o jednym …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

Wykrywanie szeregów czasowych i anomalii

Chciałbym skonfigurować algorytm do wykrywania anomalii w szeregach czasowych i planuję użyć do tego klastrowania. Dlaczego powinienem używać macierzy odległości do grupowania, a nie surowych danych szeregów czasowych ?, Do wykrycia anomalii użyję klastrowania opartego na gęstości, algorytmu jako DBscan, więc czy to zadziała w tym przypadku? Czy jest dostępna …

15 time-series clustering trend

3

Czy można używać odległości Manhattan z połączeniem między klastrami Warda w hierarchicznym klastrowaniu?

Korzystam z hierarchicznego grupowania do analizy danych szeregów czasowych. Mój kod jest implementowany za pomocą funkcji MathematicaDirectAgglomerate[...] , która generuje hierarchiczne klastry przy następujących danych wejściowych: macierz odległości D nazwa metody zastosowanej do ustalenia powiązania między klastrami. Obliczyłem macierz odległości D na podstawie odległości Manhattan: d(x,y)=∑i|xi−yi|d(x,y)=∑i|xi−yi|d(x,y) = \sum_i|x_i - y_i| …

15 clustering distance-functions ward

1

Grupowanie: czy powinienem użyć dywergencji Jensena-Shannona czy jej kwadratu?

Grupuję rozkłady prawdopodobieństwa za pomocą algorytmu propagacji powinowactwa i planuję użyć dywergencji Jensena-Shannona jako miary odległości. Czy poprawne jest użycie samego JSD jako odległości lub kwadratu JSD? Dlaczego? Jakie różnice wynikałyby z wyboru jednego lub drugiego?

15 machine-learning clustering entropy distance-functions

3

Jak wykreślić dane wyjściowe klastrowania?

Próbowałem grupować zestaw danych (zestaw znaków) i otrzymałem 2 klastry. Chciałbym to przedstawić graficznie. Trochę zdezorientowany co do reprezentacji, ponieważ nie mam współrzędnych (x, y). Poszukuję również do tego celu MATLAB / Python. EDYTOWAĆ Myślę, że publikowanie danych wyjaśnia pytanie. Mam dwa klastry, które utworzyłem za pomocą klastrowania kmeans w …

15 clustering data-visualization python

2

Procesy Dirichlet dla grupowania: jak radzić sobie z etykietami?

P: Jaki jest standardowy sposób klastrowania danych przy użyciu procesu Dirichleta? Podczas korzystania z Gibbs klastry próbkowania pojawiają się i znikają podczas próbkowania. Poza tym mamy problem z identyfikowalnością, ponieważ rozkład tylny jest niezmienny w przypadku etykietowania skupień. Dlatego nie możemy powiedzieć, który klaster jest użytkownikiem, a raczej, że dwóch …

14 bayesian clustering mcmc dirichlet-process identifiability

2

k-średnie vs k-mediana?

Wiem, że istnieje algorytm grupowania k-średnich i k-mediana. Jeden, który wykorzystuje średnią jako środek skupienia, a drugi wykorzystuje medianę. Moje pytanie brzmi: kiedy / gdzie użyć którego?

14 clustering k-means

2

Jak pogrupować dane liczbowe w naturalnie tworzące się „nawiasy”? (np. dochód)

Poniżej opisano, co próbuję osiągnąć, ale możliwe jest, że mój alternatywny opis problemu może opisać mój cel: chcę podziel następujące liczby na grupy, w których wariancje liczb w ramach każdej grupy nie są zbyt duże, a różnice między średnimi grup nie są zbyt małe porównaj ostatecznie otrzymany rozkład z „idealnymi” …

14 clustering relative-distribution

3

Dlaczego używamy k-średnich zamiast innych algorytmów?

Badałem k-średnich i oto, co otrzymałem: k-średnich jest jednym z najprostszych algorytmów, który wykorzystuje metodę uczenia bez nadzoru w celu rozwiązania znanych problemów związanych z klastrowaniem. Działa naprawdę dobrze z dużymi zestawami danych. Istnieją jednak także wady K-Means: Silna wrażliwość na wartości odstające i hałas Nie działa dobrze w przypadku …

14 clustering data-mining algorithms k-means

4

Jak zmierzyć kształt klastra?

Wiem, że to pytanie nie jest dobrze zdefiniowane, ale niektóre gromady mają tendencję do bycia eliptycznymi lub leżą w przestrzeni o mniejszych wymiarach, podczas gdy inne mają kształty nieliniowe (w przykładach 2D lub 3D). Czy istnieje jakakolwiek miara nieliniowości (lub „kształtu”) klastrów? Zauważ, że w przestrzeni 2D i 3D nie …

14 unsupervised-learning clustering

3

Czy ktoś może wyjaśnić dynamiczne dopasowanie czasu w celu ustalenia podobieństwa szeregów czasowych?

Próbuję uchwycić dynamiczny środek dopasowania czasu do porównywania szeregów czasowych razem. Mam trzy zestawy danych szeregów czasowych takie jak to: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, 0.000275608635737, …

14 r time-series clustering

8

Jakie są „gorące algorytmy” uczenia maszynowego?

To naiwne pytanie kogoś, kto zaczyna uczyć się uczenia maszynowego. Czytam dziś książkę „Machine Learning: algorytmiczna perspektywa” z Marsland. Uważam, że jest przydatna jako książka wprowadzająca, ale teraz chciałbym przejść do zaawansowanych algorytmów, które dają obecnie najlepsze wyniki. Najbardziej interesuje mnie bioinformatyka: grupowanie sieci biologicznych i znajdowanie wzorców w sekwencjach …

14 machine-learning clustering bioinformatics

3

lub

Czy ktoś używa metryk L1L1L_1 lub L.5L.5L_.5 do grupowania, a nie L2L2L_2 ? Aggarwal i wsp., O zaskakującym zachowaniu wskaźników odległości w przestrzeni wielowymiarowej powiedział (w 2001) jest konsekwentnie bardziej preferowany niż metryczny euklidesowy wskaźnik odległości L 2 dla aplikacji eksploracji danych o dużych wymiarachL1L1L_1L2L2L_2 i twierdził, że lub L …

14 clustering distance-functions rule-of-thumb

9

Oprogramowanie do wizualizacji dla grupowania

Zablokowana . To pytanie i odpowiedzi są zablokowane, ponieważ pytanie jest nie na temat, ale ma znaczenie historyczne. Obecnie nie akceptuje nowych odpowiedzi ani interakcji. Chcę zebrać ~ 22000 punktów. Wiele algorytmów klastrowania działa lepiej przy wstępnych domysłach o wyższej jakości. Jakie istnieją narzędzia, które mogą dać mi dobry pogląd …

14 data-visualization clustering software

4

Czy istnieją jakieś algorytmy klastrowania oparte na braku odległości?

Wydaje się, że w przypadku średnich K i innych powiązanych algorytmów grupowanie opiera się na obliczaniu odległości między punktami. Czy jest taki, który działa bez niego?

14 machine-learning clustering data-mining k-means

Pytania otagowane jako clustering