Pytania otagowane jako clustering

Analiza skupień polega na dzieleniu danych na podzbiory obiektów zgodnie z ich wzajemnym „podobieństwem” bez korzystania z istniejącej wiedzy, takiej jak etykiety klas. [Błędy klastra-standardowe i / lub próbki klastra powinny być oznaczone jako takie; NIE używaj dla nich znacznika „grupowania”.]

5
Jak zrozumieć wady K-średnich
K-średnich jest szeroko stosowaną metodą analizy skupień. W moim rozumieniu ta metoda NIE wymaga ŻADNYCH założeń, tj. Podaj mi zbiór danych i wcześniej określoną liczbę klastrów, k, i po prostu stosuję ten algorytm, który minimalizuje sumę błędów kwadratu (SSE), wewnątrz klastra do kwadratu błąd. Zatem k-średnich jest zasadniczo problemem optymalizacyjnym. …

8
Dlaczego odległość euklidesowa nie jest dobrym miernikiem w dużych wymiarach?
Czytałem, że „odległość euklidesowa nie jest dobrą odległością w dużych wymiarach”. Myślę, że to stwierdzenie ma coś wspólnego z przekleństwem wymiarowości, ale co dokładnie? Poza tym, co to są „wysokie wymiary”? Stosuję hierarchiczne grupowanie przy użyciu odległości euklidesowej ze 100 funkcjami. Do ilu funkcji można bezpiecznie korzystać z tych danych?

8
Wykrywanie danej twarzy w bazie danych zdjęć twarzy
Pracuję nad małym projektem z udziałem twarzy użytkowników Twittera za pośrednictwem ich zdjęć profilowych. Problem, z którym się spotkałem, to fakt, że po odfiltrowaniu wszystkich zdjęć oprócz tych, które są wyraźnymi zdjęciami portretowymi, niewielki, ale znaczny odsetek użytkowników Twittera używa zdjęcia Justina Biebera jako swojego profilu. Aby je odfiltrować, w …

6
Jak stwierdzić, czy dane są „klastrowane” wystarczająco, aby algorytmy klastrowania mogły dać znaczące wyniki?
Skąd miałbyś wiedzieć, czy twoje (wysokowymiarowe) dane wykazują wystarczającą liczbę klastrów, aby wyniki z kmeans lub innego algorytmu klastrowania były rzeczywiście znaczące? W szczególności w przypadku algorytmu k-średnich, jak duże powinno być zmniejszenie wariancji wewnątrz klastra, aby rzeczywiste wyniki grupowania były znaczące (a nie fałszywe)? Czy klastrowanie powinno być widoczne, …

3
Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego
Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
Grupowanie na wyjściu t-SNE
Mam aplikację, w której przydałoby się skupić hałaśliwy zestaw danych przed wyszukaniem efektów podgrup w klastrach. Najpierw spojrzałem na PCA, ale potrzeba około 30 komponentów, aby uzyskać 90% zmienności, więc grupowanie tylko na kilku komputerach PC wyrzuci wiele informacji. Następnie spróbowałem t-SNE (po raz pierwszy), co daje mi dziwny kształt …

6
Wybór metody grupowania
Używając analizy skupień w zbiorze danych do grupowania podobnych przypadków, należy wybierać spośród wielu metod grupowania i miar odległości. Czasami jeden wybór może wpływać na drugi, ale istnieje wiele możliwych kombinacji metod. Czy ktoś ma jakieś zalecenia dotyczące wyboru różnych algorytmów / metod grupowania i pomiarów odległości ? W jaki …


6
Dlaczego algorytm klastrowania k-oznacza używa wyłącznie metryki odległości euklidesowej?
Czy jest jakiś konkretny cel pod względem wydajności lub funkcjonalności, dlaczego algorytm k-średnich nie wykorzystuje na przykład podobieństwa (dis) cosinusa jako metryki odległości, a może jedynie stosować normę euklidesową? Zasadniczo, czy metoda K-oznacza jest zgodna i poprawna, gdy rozważa się lub stosuje inne odległości niż euklidesowe? [Dodane przez @ttnphns. Pytanie …

6
Gdzie wyciąć dendrogram?
Hierarchiczne grupowanie może być reprezentowane przez dendrogram. Cięcie dendrogramu na pewnym poziomie daje zestaw klastrów. Cięcie na innym poziomie daje kolejny zestaw klastrów. Jak wybrałbyś miejsce cięcia dendrogramu? Czy istnieje coś, co moglibyśmy uznać za optymalny punkt? Jeśli patrzę na zmieniający się dendrogram w czasie, czy powinienem ciąć w tym …

5
Jaki jest związek między grupowaniem k-średnich a PCA?
Powszechną praktyką jest stosowanie PCA (analiza głównego składnika) przed algorytmem grupowania (takim jak k-średnie). Uważa się, że poprawia to wyniki klastrowania w praktyce (redukcja hałasu). Jestem jednak zainteresowany porównawczym i dogłębnym badaniem związku między PCA i k-średnich. Na przykład Chris Ding i Xiaofeng He, 2004, K-oznacza Clustering poprzez Principal Component …

10
Jak zdecydować o właściwej liczbie klastrów?
Znajdujemy centra klastrów i przypisujemy punkty do k różnych pojemników klastra w klastrowaniu k-średnich, który jest bardzo dobrze znanym algorytmem i znajduje się prawie w każdym pakiecie uczenia maszynowego w sieci. Ale brakującą i najważniejszą częścią moim zdaniem jest wybór poprawnego k. Jaka jest jego najlepsza wartość? Co rozumiemy przez …

10
Grupowanie za pomocą macierzy odległości
Mam (symetryczną) macierz, Mktóra reprezentuje odległość między każdą parą węzłów. Na przykład, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 140 …
52 clustering 

2
W jaki sposób sztuczna sieć neuronowa ANN może być wykorzystywana do klastrowania bez nadzoru?
Rozumiem, w jaki sposób artificial neural network (ANN)można trenować w nadzorowany sposób, stosując propagację wsteczną, aby poprawić dopasowanie, zmniejszając błąd w prognozach. Słyszałem, że ANN można wykorzystać do nauki bez nadzoru, ale jak można tego dokonać bez jakiejś funkcji kosztowej, która poprowadziłaby etapy optymalizacji? W przypadku k-średnich lub algorytmu EM …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.