Statystyki i duże zbiory danych clustering

3

Rozkład prawdopodobieństwa grupowania - metody i mierniki?

Mam pewne punkty danych, każdy zawierający 5 wektorów aglomerowanych wyników dyskretnych, wyniki każdego wektora generowane przez inny rozkład (konkretny rodzaj, którego nie jestem pewien, najlepiej zgaduję, że Weibull, z parametrem kształtu zmieniającym się gdzieś w pobliżu wykładniczej mocy prawo (od 1 do 0, z grubsza).) Chcę użyć algorytmu klastrowania, takiego …

13 distributions clustering feature-selection kolmogorov-smirnov k-means

2

Jak odległość Gowera oblicza różnicę między zmiennymi binarnymi?

Mam 17 liczbowych i 5 zmiennych binarnych (0-1), z 73 próbkami w moim zbiorze danych. Muszę przeprowadzić analizę skupień. Wiem, że odległość Gowera jest dobrą miarą dla zbiorów danych ze zmiennymi mieszanymi. Nie mogłem jednak zrozumieć, w jaki sposób odległość Gowera oblicza różnicę między zmiennymi binarnymi . Wydaje mi się, …

13 clustering distance mixed-type-data

1

średnie k || alias Scalable K-Means ++

Bahman Bahmani i in. wprowadzono k-średnich ||, która jest szybszą wersją k-średnich ++. Algorytm ten pochodzi ze strony 4 ich pracy , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., i Vassilvitskii, S. (2012). Skalowalne k-średnie ++. Postępowanie z VLDB Endowment , 5 (7), 622-633. Niestety nie rozumiem tych wymyślnych …

12 clustering k-means

5

Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

4

Czy można porównać różne metody klastrowania w zbiorze danych bez prawdziwej prawdy poprzez wzajemną weryfikację?

Obecnie próbuję przeanalizować zestaw danych dokumentu tekstowego, który nie ma podstawowej prawdy. Powiedziano mi, że możesz użyć k-krotnego sprawdzania poprawności, aby porównać różne metody klastrowania. Jednak przykłady, które widziałem w przeszłości, wykorzystują podstawową prawdę. Czy istnieje sposób na użycie zestawu K-fold w tym zestawie danych do zweryfikowania moich wyników?

12 machine-learning clustering cross-validation unsupervised-learning

5

Czy mogę użyć PCA do dokonania wyboru zmiennych do analizy skupień?

Muszę zmniejszyć liczbę zmiennych, aby przeprowadzić analizę skupień. Moje zmienne są silnie skorelowane, więc pomyślałem o wykonaniu analizy czynnikowej PCA (analiza głównego składnika). Jeśli jednak użyję uzyskanych wyników, moje klastry nie będą całkiem poprawne (w porównaniu z poprzednimi klasyfikacjami w literaturze). Pytanie: Czy mogę użyć macierzy rotacji, aby wybrać zmienne …

12 clustering pca feature-selection factor-analysis

2

Grupowanie danych przestrzennych w R.

Mam zestaw danych miesięcznych dotyczących temperatury powierzchni morza (SST) i chcę zastosować metodologię klastrową do wykrywania regionów o podobnych wzorcach SST. Mam zestaw miesięcznych plików danych od 1985 do 2009 roku i chcę zastosować klastrowanie do każdego miesiąca jako pierwszy krok. Każdy plik zawiera dane siatkowe dla 358416 punktów, z …

12 r clustering spatial

6

Polecane książki lub artykuły jako wprowadzenie do analizy skupień?

Pracuję nad małym (200 mln) fragmentem tekstu, który chcę zbadać za pomocą analizy skupień. Jakie książki lub artykuły na ten temat poleciłbyś?

12 machine-learning references clustering

1

Dokładny test Fishera i rozkład hipergeometryczny

Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby kontekst przeszkadzał. …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

Interpretacja wyniku k-średnich w R

Użyłem kmeansinstrukcji R do wykonania algorytmu k-średnich w zestawie danych tęczówki Andersona. Mam pytanie dotyczące niektórych parametrów, które otrzymałem. Wyniki są następujące: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 W takim przypadku, co oznacza „klaster”? Czy jest to średnia odległości wszystkich obiektów w klastrze? Również w …

12 r machine-learning clustering interpretation k-means

1

Solidna metoda klastrowa dla mieszanych danych w języku R

Chcę skupić mały zestaw danych (64 obserwacje 4 zmiennych interwałowych i pojedynczej zmiennej kategorialnej trzyczynnikowej). Teraz jestem całkiem nowy w analizie skupień, ale zdaję sobie sprawę, że od czasów, gdy hierarchiczne grupowanie lub k-średnie były jedynymi dostępnymi opcjami, nastąpił znaczny postęp. W szczególności wydaje się, że dostępne są nowe metody …

12 clustering model-based-clustering mixed-type-data

3

Jak mogę sprawdzić, czy moje grupowanie danych binarnych jest znaczące

Robię analizy koszyka na zakupy. Mój zestaw danych to zbiór wektorów transakcji z produktami, które są kupowane. Kiedy stosuję k-średnich w transakcjach, zawsze otrzymam jakiś wynik. Matryca losowa prawdopodobnie pokazywałaby także niektóre skupienia. Czy istnieje sposób na sprawdzenie, czy skupienie, które znalazłem, jest znaczące, czy też może być bardzo przypadkowe. …

12 clustering statistical-significance binary-data

1

Przypisz wagi do zmiennych w analizie skupień

Chcę przypisać różną wagę do zmiennych w mojej analizie skupień, ale wydaje się, że mój program (Stata) nie ma takiej opcji, więc muszę to zrobić ręcznie. Wyobraź sobie 4 zmienne A, B, C, D. Wagi tych zmiennych powinny wynosić w(A)=50% w(B)=25% w(C)=10% w(D)=15% Zastanawiam się, czy jedno z następujących dwóch …

12 clustering stata

1

Co zrobić, gdy macierz kowariancji próbki nie jest odwracalna?

Pracuję nad niektórymi technikami grupowania, w których dla danej grupy wektorów wymiaru d zakładam wielowymiarowy rozkład normalny i obliczam przykładowy średni wektor d-wymiarowy i macierz kowariancji próbki. Potem, gdy stara się zdecydować, czy nowy, niewidzialny, d-wymiarowy wektor należy do tego klastra ja sprawdzając jego odległość za pośrednictwem tego środka: ( …

12 clustering multivariate-analysis covariance covariance-matrix matrix-inverse

2

Skąd mam wiedzieć, że mój algorytm grupowania k-średnich cierpi z powodu przekleństwa wymiarowości?

Uważam, że tytuł tego pytania mówi wszystko.

12 clustering k-means high-dimensional

Pytania otagowane jako clustering