Statystyki i duże zbiory danych clustering

2

Grupowanie zaszumionych danych lub wartości odstających

Mam zaszumione dane dwóch takich zmiennych. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, 0.5,0.9) y <- …

9 r machine-learning clustering

1

Formuła bezwładności grupowania w scikit learn

Chciałbym zakodować klastry kmeans w pythonie przy użyciu pand i scikit learning. Aby wybrać dobre k, chciałbym zakodować statystykę luk z Tibshirani i in. 2001 ( pdf ). Chciałbym wiedzieć, czy mogę użyć wyniku bezwładności scikit i dostosować formułę statystyki szczeliny bez konieczności przekodowywania wszystkich obliczeń odległości. Czy ktoś zna …

9 clustering python k-means scikit-learn metric

3

Wybór klastrów dla k-średnich: przypadek 1 klastra

Czy ktoś zna dobrą metodę ustalenia, czy klastrowanie przy użyciu kmeans jest w ogóle odpowiednie? To znaczy, co jeśli twoja próbka jest rzeczywiście jednorodna? Wiem, że model mieszanki (za pośrednictwem mclust w R) zapewni statystyki dopasowania dla przypadku klastra 1: k, ale wydaje się, że wszystkie techniki oceny kmeans wymagają …

9 r clustering k-means

5

Czy klastrowanie wstępne pomaga zbudować lepszy model predykcyjny?

Do zadania modelowania rezygnacji rozważałem: Oblicz k klastrów dla danych Zbuduj k modeli dla każdego klastra osobno. Uzasadnieniem tego jest to, że nie ma nic do udowodnienia, że populacja subskrybentów jest jednorodna, więc uzasadnione jest założenie, że proces generowania danych może być różny dla różnych „grup” Moje pytanie brzmi, czy …

9 machine-learning clustering data-mining predictive-models

1

Jak porównać obserwowane i oczekiwane zdarzenia?

Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

7

Poszukuję sztucznych danych 2D w celu wykazania właściwości algorytmów klastrowania

Szukam zestawów danych 2-wymiarowych punktów danych (każdy punkt danych jest wektorem dwóch wartości (x, y)) o różnych rozkładach i formach. Pomocny byłby również kod do generowania takich danych. Chcę ich użyć do wykreślenia / wizualizacji działania niektórych algorytmów klastrowych. Oto kilka przykładów: gwiazda jak dane w chmurze cztery klastry, jedna …

9 distributions data-visualization clustering dataset

4

Jak powiedzieć ilościowo, czy dane 1D są skupione wokół 1 czy 3 wartości?

Mam dane na temat czasu między uderzeniami serca człowieka. Jednym ze wskazań ektopowych (dodatkowych) uderzeń jest to, że przedziały te są skupione wokół trzech wartości zamiast jednej. Jak mogę uzyskać ilościową miarę tego? Chcę porównać wiele zestawów danych, a te dwa 100-bin histogramy są reprezentatywne dla wszystkich z nich. Mógłbym …

9 clustering

5

Jaka jest różnica między grupowaniem wykresów a metodami wykrywania społeczności?

Zasadniczo celem klastrowania grafów i metod wykrywania społeczności jest obliczanie klastrów. Czy jest jakaś różnica między nimi?

9 clustering

2

Czy odległość musi być „metryką”, aby hierarchiczna klastracja była na niej ważna?

Powiedzmy, że definiujemy odległość, która nie jest miarą , między N elementami. Na podstawie tej odległości stosujemy następnie aglomeracyjne hierarchiczne grupowanie . Czy możemy zastosować każdy ze znanych algorytmów (połączenie pojedyncze / maksymalne / średnie itp.), Aby uzyskać znaczące wyniki? Lub inaczej: jaki jest problem z ich użyciem, jeśli odległość …

9 clustering multilevel-analysis metric hierarchical-clustering

4

Grupowanie z asymetrycznymi pomiarami odległości

Jak grupujesz obiekt za pomocą asymetrycznej miary odległości? Załóżmy na przykład, że grupujesz zbiór danych z dniami tygodnia jako cechą - odległość od poniedziałku do piątku nie jest taka sama jak odległość od piątku do poniedziałku. Jak włączyć to do pomiaru odległości algorytmu klastrowania?

9 clustering distance

2

Grupowanie przestrzenne w oparciu o gęstość aplikacji z klastrowaniem hałasu (DBSCAN) w R

pytanie to zaczęło się jako „ klastrowanie danych przestrzennych w R ”, a teraz zostało przeniesione do pytania DBSCAN. Ponieważ odpowiedzi na pierwsze pytanie sugerowały, że szukałem informacji o DBSCAN i czytałem kilka dokumentów na ten temat. Pojawiły się nowe pytania. DBSCAN wymaga pewnych parametrów, jednym z nich jest „odległość”. …

9 r clustering spatial

3

Cykl w algorytmie k-średnich

Według wiki najczęściej stosowanym kryterium konwergencji jest „przypisanie się nie zmieniło”. Zastanawiałem się, czy może wystąpić cykl, jeśli zastosujemy takie kryterium konwergencji? Byłbym zadowolony, gdyby ktokolwiek wskazał odniesienie do artykułu, który podaje przykład jazdy na rowerze lub dowodzi, że jest to niemożliwe.

9 clustering algorithms k-means

3

Klastry zajmujące mało miejsca

Większość algorytmów grupowania, jakie widziałem, zaczyna się od tworzenia odległości między poszczególnymi punktami, co staje się problematyczne w przypadku większych zestawów danych. Czy jest taki, który tego nie robi? Czy może jest to podejście częściowe / przybliżone / naprzemienne? Który algorytm / implementacja klastrowania zajmuje mniej niż O (n ^ …

9 clustering algorithms large-data

4

Jak przeprowadzić wiele testów chi-kwadrat post-hoc na stole 2 X 3?

Mój zestaw danych obejmuje zarówno całkowitą śmiertelność, jak i przeżycie organizmu w trzech typach miejsc: przybrzeżnym, śródokanałowym i przybrzeżnym. Liczby w poniższej tabeli reprezentują liczbę witryn. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Chciałbym wiedzieć, czy liczba witryn, w których wystąpiła 100% śmiertelność, jest …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

2

Pierwsze kroki z biclustering

Przeprowadziłem przypadkowe badania internetowe dotyczące biclusters. (Przeczytałem kilka razy artykuł na Wiki). Jak dotąd wydaje się, że istnieje kilka definicji lub standardowej terminologii. Zastanawiałem się, czy są jakieś standardowe gazety lub książki, które powinien przeczytać każdy, kto jest zainteresowany algorytmami znajdowania bullusterów. Czy można powiedzieć, jaki jest stan techniki w …

9 clustering data-mining

Pytania otagowane jako clustering