Statystyki i duże zbiory danych clustering

8

Mam algorytm grupowania (nie k-średnich) z parametrem wejściowym (liczba klastrów). Po wykonaniu grupowanie Chciałbym zaczerpnąć ilościową miarą jakości tego grupowania. Algorytm klastrów ma jedną istotną właściwość. Dla , jeśli karmię punktów danych bez istotnej różnicy między nimi do tego algorytmu w wyniku otrzymam jeden klaster zawierający punktów danych i jeden …

17 clustering

2

Nieparametryczna analiza bayesowska w R.

Szukam dobrego samouczka na temat grupowania danych przy Rużyciu hierarchicznego procesu dirichleta (HDP) (jednej z najnowszych i popularnych nieparametrycznych metod bayesowskich). Istnieje DPpackage(IMHO, najbardziej wszechstronny ze wszystkich dostępnych) w Rnieparametrycznej analizie bayesowskiej. Ale nie jestem w stanie zrozumieć przykładów podanych w R Newsinstrukcji obsługi pakietu lub wystarczająco dobrze, aby zakodować …

17 r bayesian clustering nonparametric

1

Jenks Natural Breaks in Python: Jak znaleźć optymalną liczbę przerw?

Znalazłem tej implementacji Pythona w Breaks Jenks Natural algorytmu i mogłem zrobić to uruchomić na moim Windows 7 maszynie. Jest dość szybki i wykrywa przerwy w krótkim czasie, biorąc pod uwagę rozmiar moich geodanych. Przed użyciem tego algorytmu grupowania dla moich danych korzystałem sklearn.clustering.KMeans (tutaj) z algorytmu. Problemem z KMeans …

17 python clustering optimization

5

Dlaczego k-znaczy nie daje globalnego minimum?

Czytałem, że algorytm k-średnich jest zbieżny tylko z lokalnym minimum, a nie globalnym minimum. Dlaczego to? Mogę logicznie myśleć o tym, w jaki sposób inicjalizacja mogłaby wpłynąć na końcowe grupowanie i istnieje możliwość nieoptymalnego grupowania, ale nie znalazłem niczego, co matematycznie to udowodni. Ponadto, dlaczego k-oznacza proces iteracyjny? Czy nie …

17 clustering k-means convergence gradient-descent minimum

4

Metody grupowania, które nie wymagają wstępnego określania liczby klastrów

Czy istnieją jakieś „nieparametryczne” metody klastrowania, dla których nie musimy określać liczby klastrów? I inne parametry, takie jak liczba punktów na klaster itp.

17 clustering

3

Jaki algorytm implementuje ward.D w hclust (), jeśli nie jest to kryterium Warda?

Ten używany przez opcję „ward.D” (odpowiednik jedynej opcji Ward „ward” w wersjach R <= 3.0.3) nie implementuje kryterium grupowania Warda (1963), natomiast opcja „ward.D2” implementuje to kryterium ( Murtagh i Legendre 2014). ( http://stat.ethz.ch/R-manual/R-pched/library/stats/html/hclust.html ) Najwyraźniej totem D. nie wdraża poprawnie kryterium totemu. Niemniej jednak wydaje się, że dobrze sobie …

16 r clustering ward

4

Grupowanie danych 1D

Mam zestaw danych, chcę utworzyć klastry na tych danych na podstawie tylko jednej zmiennej (nie ma brakujących wartości). Chcę utworzyć 3 klastry na podstawie tej jednej zmiennej. Którego algorytmu grupowania użyć, k-średnich, EM, DBSCAN itp.? Moje główne pytanie brzmi: w jakich okolicznościach powinienem używać k-średnich zamiast EM lub EM ponad …

16 clustering

2

Kiedy łączymy redukcję wymiarowości z klastrowaniem?

Próbuję przeprowadzić klastrowanie na poziomie dokumentu. Skonstruowałem macierz częstotliwości termin-dokument i próbuję zgrupować te wektory o dużych wymiarach za pomocą k-średnich. Zamiast bezpośredniego grupowania, najpierw zastosowałem dekompozycję wektora osobliwego LSA (Latent Semantic Analysis) w celu uzyskania macierzy U, S, Vt, wybrałem odpowiedni próg za pomocą wykresu piargowego i zastosowałem grupowanie …

16 clustering pca dimensionality-reduction text-mining svd

4

Założenia analizy skupień

Przepraszam za podstawowe pytanie, jestem nowy w tej formie analizy i jak dotąd mam bardzo ograniczone rozumienie zasad. Zastanawiałem się tylko, czy wiele z parametrycznych założeń dla testów wielowymiarowych / jednowymiarowych ma zastosowanie do analizy skupień? Wiele źródeł informacji, które przeczytałem na temat analizy skupień, nie określa żadnych założeń. Szczególnie …

16 clustering assumptions

1

Jak obliczyć czystość?

Jak w analizie skupień obliczamy czystość? Jakie jest równanie? Nie szukam kodu, który by to dla mnie zrobił. Niech będzie klastrem k, a c j będzie klasą j.ωkωk\omega_kcjcjc_j Czy czystość jest właściwie dokładnością? wygląda na to, że sumują liczbę prawdziwie sklasyfikowanych klas na klaster na podstawie wielkości próby. źródło równania …

16 clustering

1

Jakiej metody wielokrotnego porównania użyć w modelu Lmer: lsmeans czy glht?

Analizuję zestaw danych przy użyciu modelu efektów mieszanych z jednym ustalonym efektem (warunkiem) i dwoma efektami losowymi (uczestnik ze względu na projekt i parę wewnątrz przedmiotu). Model ten został wygenerowany z lme4pakietu: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Następnie wykonałem test współczynnika wiarygodności tego modelu względem modelu bez ustalonego efektu (warunku) i mam znaczącą różnicę. …

16 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

2

Jaka jest dobra metoda grupowania krótkich tekstów?

Pracuję nad problemem klastrowania tekstu. Dane zawierają kilka zdań. Czy istnieje dobry algorytm, który osiąga wysoką dokładność w przypadku krótkiego tekstu? Czy możesz podać dobre referencje? Algorytmy takie jak KMeans, grupowanie widmowe nie działają dobrze w przypadku tego problemu.

15 machine-learning clustering text-mining

4

Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

4

Text Mining: jak grupować teksty (np. Artykuły prasowe) za pomocą sztucznej inteligencji?

Zbudowałem kilka sieci neuronowych (MLP (w pełni połączony), Elman (cykliczny)) do różnych zadań, takich jak gra w Pong, klasyfikowanie odręcznych cyfr i tym podobne ... Dodatkowo próbowałem zbudować pierwsze sieci neuronowe splotowe, np. Do klasyfikowania wielocyfrowych notatek odręcznych, ale jestem całkowicie nowy w analizowaniu i grupowaniu tekstów, np. W zadaniach …

15 clustering neural-networks feature-selection text-mining self-organizing-maps

2

Jak dopasować model mieszanki do grupowania

Mam dwie zmienne - X i Y i muszę ustawić klaster maksymalnie (i optymalnie) = 5. Załóżmy, że idealny wykres zmiennych wygląda następująco: Chciałbym zrobić z tego 5 klastrów. Coś takiego: Dlatego myślę, że jest to model mieszany z 5 klastrami. Każda grupa ma punkt środkowy i okrąg zaufania wokół …

15 r clustering gaussian-mixture

Pytania otagowane jako clustering