Statystyki i duże zbiory danych k-means

2

Użyłem kmeansinstrukcji R do wykonania algorytmu k-średnich w zestawie danych tęczówki Andersona. Mam pytanie dotyczące niektórych parametrów, które otrzymałem. Wyniki są następujące: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 W takim przypadku, co oznacza „klaster”? Czy jest to średnia odległości wszystkich obiektów w klastrze? Również w …

12 r machine-learning clustering interpretation k-means

2

Skąd mam wiedzieć, że mój algorytm grupowania k-średnich cierpi z powodu przekleństwa wymiarowości?

Uważam, że tytuł tego pytania mówi wszystko.

12 clustering k-means high-dimensional

4

Czy istnieją przypadki, w których nie ma optymalnej wartości k w średnich?

To było w mojej głowie przez co najmniej kilka godzin. Próbowałem znaleźć optymalne k dla danych wyjściowych z algorytmu k-średnich (z metryką podobieństwa kosinusowego ), więc skończyłem na wykreślaniu zniekształcenia w funkcji liczby klastrów. Mój zestaw danych to zbiór 800 dokumentów w 600-wymiarowej przestrzeni. Z tego, co rozumiem, znalezienie punktu …

11 machine-learning clustering k-means

3

Metody inicjowania grupowania K-oznacza

Interesuje mnie obecny stan wiedzy w zakresie selekcji początkowych nasion (ośrodków skupień) dla K-średnich. Googling prowadzi do dwóch popularnych opcji: losowy wybór nasion początkowych oraz przy użyciu techniki selekcji KMeans ++: Arthur i Vassilvitskii 2006 k-znaczy ++: Zalety ostrożnego siewu Czy są jakieś inne obiecujące metody, o których ktoś tu …

11 clustering k-means

1

R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?

mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

Jakiego algorytmu należy użyć, aby zgrupować ogromny binarny zestaw danych w kilka kategorii?

Mam dużą (650K wierszy * 62 kolumny) macierz danych binarnych (tylko wpisy 0-1). Matryca jest w większości rzadka: około 8% jest wypełnione. Chciałbym podzielić go na 5 grup - powiedzmy nazwanych od 1 do 5. Próbowałem zgrupować hierarchicznie i nie byłem w stanie obsłużyć rozmiaru. Użyłem również algorytmu grupowania k-średnich …

11 clustering dataset k-means binary-data

2

Grupowanie bardzo wypaczonych, zliczanie danych: jakieś sugestie (transformacja itp.)?

Podstawowy problem Oto mój podstawowy problem: próbuję zgrupować zestaw danych zawierający niektóre bardzo wypaczone zmienne z licznikami. Zmienne zawierają wiele zer i dlatego nie są zbyt pouczające dla mojej procedury klastrowania - która prawdopodobnie jest algorytmem k-średnich. Dobra, mówisz, po prostu przekształć zmienne za pomocą pierwiastka kwadratowego, pola Coxa lub …

11 clustering data-transformation k-means count-data compositional-data

3

Przykład, w którym wynik algorytmu k-medoidu jest inny niż wynik działania algorytmu k-średnich

Rozumiem różnicę między k medoidą a k oznacza średnią. Ale czy możesz podać mi przykład z małym zestawem danych, w którym wyjście medoidy k jest inne niż k oznacza wyjście.

11 k-means k-medoids

3

Średnie K dla podobieństw cosinusa vs. odległość euklidesowa (LSA)

Używam ukrytej analizy semantycznej do reprezentowania zbioru dokumentów w przestrzeni o niższych wymiarach. Chcę zgrupować te dokumenty w dwie grupy za pomocą k-średnich. Kilka lat temu zrobiłem to, używając gensim Pythona i pisząc własny algorytm k-średnich. Określiłem centroidy gromadowe na podstawie odległości euklidesowej, ale następnie zgrupowałem każdy dokument na podstawie …

10 k-means svd lsa cosine-distance cosine-similarity

3

Przypisywanie etykiet klas do klastrów k-oznacza

Mam bardzo podstawowe pytanie dotyczące grupowania. Po znalezieniu k klastrów wraz z ich centroidami, jak przejść do interpretacji klas punktów danych, które zgrupowałem (przypisując znaczące etykiety klas do każdego klastra). Nie mówię o walidacji znalezionych klastrów. Czy można to zrobić, biorąc pod uwagę niewielki zestaw punktów danych, obliczyć, do którego …

10 k-means

1

Dlaczego Anova () i drop1 () podają różne odpowiedzi dla GLMM?

Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

K-oznacza: ile iteracji w sytuacjach praktycznych?

Nie mam doświadczenia w branży eksploracji danych ani dużych zbiorów danych, więc chciałbym usłyszeć, jak dzielisz się doświadczeniami. Czy ludzie faktycznie używają k-średnich, PAM, CLARA itp. Na naprawdę dużym zbiorze danych? Czy po prostu losowo wybierają z niego próbkę? Jeśli po prostu pobiorą próbkę zestawu danych, czy wynik byłby wiarygodny, …

10 clustering data-mining k-means convergence large-data

2

Różnica między PCA a grupowaniem widmowym dla małego zestawu próbek cech logicznych

Mam zestaw danych 50 próbek. Każda próbka składa się z 11 (prawdopodobnie skorelowanych) cech logicznych. Chciałbym przedstawić, w jaki sposób wizualizować te próbki na wykresie 2D i sprawdzić, czy wśród 50 próbek znajdują się klastry / grupy. Wypróbowałem następujące dwa podejścia: (a) Uruchom PCA na matrycy 50x11 i wybierz pierwsze …

10 clustering data-visualization pca k-means spectral-analysis

1

Optymalna liczba składników w mieszaninie Gaussa

Tak więc uzyskanie „idei” optymalnej liczby klastrów w k-średnich jest dobrze udokumentowane. Znalazłem artykuł o robieniu tego w mieszankach gaussowskich, ale nie jestem pewien, czy mnie to przekonuje, nie rozumiem tego zbyt dobrze. Czy istnieje ... łagodniejszy sposób na zrobienie tego?

10 classification k-means mixture unsupervised-learning

2

Zrozumienie tego wykresu sprzedaży lodów PCA w zależności od temperatury

Przyjmuję dane pozorne temperatury w stosunku do sprzedaży lodów i skategoryzowałem je za pomocą K oznacza (n klastrów = 2), aby rozróżnić 2 kategorie (całkowicie pozorne). Teraz przeprowadzam analizę głównych składników tych danych, a moim celem jest zrozumienie tego, co widzę. Wiem, że celem PCA jest zmniejszenie wymiarów (oczywiście nie …

9 pca interpretation k-means dimensionality-reduction

Pytania otagowane jako k-means