Pytania otagowane jako clustering

Analiza skupień polega na dzieleniu danych na podzbiory obiektów zgodnie z ich wzajemnym „podobieństwem” bez korzystania z istniejącej wiedzy, takiej jak etykiety klas. [Błędy klastra-standardowe i / lub próbki klastra powinny być oznaczone jako takie; NIE używaj dla nich znacznika „grupowania”.]

3
Grupowanie za pomocą K-Means i EM: w jaki sposób są one powiązane?
Studiowałem algorytmy dla grupowania danych (uczenie bez nadzoru): EM i k-średnich. Cały czas czytam: k-średnich jest wariantem EM, przy założeniu, że klastry są kuliste. Czy ktoś może wyjaśnić powyższe zdanie? Nie rozumiem, co oznaczają sfery i jak kmeany i EM są powiązane, ponieważ jeden wykonuje przyporządkowanie probabilistyczne, a drugi w …



3
Interpretacja predyktora i / lub odpowiedzi transformowanej logarytmicznie
Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV) = Intercept + B1*log(IV) + Error …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 


5
Czy ważne jest skalowanie danych przed grupowaniem?
Znalazłem ten samouczek , który sugeruje, że powinieneś uruchomić funkcję skalowania na elementach przed grupowaniem (uważam, że konwertuje dane do wyników Z). Zastanawiam się, czy to konieczne. Pytam głównie dlatego, że nie mam łokcia, gdy nie skaluję danych, ale znika, gdy jest skalowane. :)

8
Jak przeprowadzić wykrywanie społeczności w ważonej sieci / wykresie społecznościowym?
Zastanawiam się, czy ktoś mógłby zasugerować, jakie są dobre punkty wyjścia, jeśli chodzi o wykrywanie społeczności / partycjonowanie / grupowanie wykresów na wykresie z ważonymi , nieukierunkowanymi krawędziami. Wykres ma około 3 miliony krawędzi, a każda krawędź wyraża stopień podobieństwa między dwoma połączonymi wierzchołkami. W szczególności w tym zbiorze danych …

5
Klaster dynamicznego dopasowywania w czasie
Jakie byłoby podejście do korzystania z dynamicznego dopasowania czasu (DTW) w celu grupowania szeregów czasowych? Czytałem o DTW jako sposobie znajdowania podobieństwa między dwoma szeregami czasowymi, podczas gdy można je przesunąć w czasie. Czy mogę użyć tej metody jako miary podobieństwa dla algorytmu grupowania, takiego jak k-średnie?

5
„Grupowanie” szeregów czasowych w R.
Mam zestaw danych szeregów czasowych. Każda seria obejmuje ten sam okres, chociaż rzeczywiste daty w każdej serii czasowej mogą nie być dokładnie w jednej linii. To znaczy, jeśli szeregi czasowe miałyby zostać odczytane w matrycy 2D, wyglądałoby to tak: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A …

3
Jak wybrać metodę grupowania? Jak sprawdzić poprawność rozwiązania klastrowego (aby uzasadnić wybór metody)?
Jednym z największych problemów związanych z analizą skupień jest to, że może się zdarzyć, że będziemy musieli wyciągnąć odmienne wnioski, gdy oprą się na różnych zastosowanych metodach klastrowania (w tym różnych metodach łączenia w hierarchicznym klastrze). Chciałbym poznać Twoją opinię na ten temat - którą metodę wybierzesz i jak. Można …


4
Jak interpretować średnią z fabuły Silhouette?
Próbuję użyć wykresu sylwetki, aby określić liczbę klastrów w moim zestawie danych. Biorąc pod uwagę zestaw danych Train , użyłem następującego kodu Matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` Powstały wykres …

3
Dlaczego t-SNE nie jest stosowany jako technika redukcji wymiarów do grupowania lub klasyfikacji?
W ostatnim zadaniu powiedziano nam, abyśmy używali PCA na cyfrach MNIST, aby zmniejszyć wymiary z 64 (8 x 8 obrazów) do 2. Następnie musieliśmy grupować cyfry za pomocą Gaussian Mixture Model. PCA wykorzystujące tylko 2 główne komponenty nie daje wyraźnych klastrów, w wyniku czego model nie jest w stanie wytworzyć …

3
Dlaczego istnieje różnica pomiędzy ręcznym obliczeniem regresji logistycznej 95% przedziału ufności a użyciem funkcji confint () w R?
Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow (2. edycja). W trzecim rozdziale znajduje się przykład obliczenia ilorazu szans i 95% …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
(Dlaczego) Czy SOM w stylu Kohonena popadł w niełaskę?
O ile mogę stwierdzić, SOM w stylu Kohonen osiągnęły szczyt około 2005 roku i ostatnio nie spotkały się z tak dużą przychylnością. Nie znalazłem żadnego artykułu, który mówi, że SOM zostały uwzględnione inną metodą lub okazały się równoważne z czymś innym (w każdym razie w większych wymiarach). Ale wygląda na …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.