Pytania otagowane jako clustering

Analiza skupień polega na dzieleniu danych na podzbiory obiektów zgodnie z ich wzajemnym „podobieństwem” bez korzystania z istniejącej wiedzy, takiej jak etykiety klas. [Błędy klastra-standardowe i / lub próbki klastra powinny być oznaczone jako takie; NIE używaj dla nich znacznika „grupowania”.]

4
Jak testujesz implementację k-średnich?
Uwaga: zamieściłem to pytanie na Stackoverflow, ale pomyślałem, że może lepiej pasować do tej platformy. Jak testujesz własną implementację k-średnich dla wielowymiarowych zestawów danych? Myślałem o uruchomieniu już istniejącej implementacji (tj. Matlaba) na danych i porównaniu wyników z moim algorytmem. Wymagałoby to jednak, aby oba algorytmy działały w przybliżeniu tak …

2
Grupowanie bardzo wypaczonych, zliczanie danych: jakieś sugestie (transformacja itp.)?
Podstawowy problem Oto mój podstawowy problem: próbuję zgrupować zestaw danych zawierający niektóre bardzo wypaczone zmienne z licznikami. Zmienne zawierają wiele zer i dlatego nie są zbyt pouczające dla mojej procedury klastrowania - która prawdopodobnie jest algorytmem k-średnich. Dobra, mówisz, po prostu przekształć zmienne za pomocą pierwiastka kwadratowego, pola Coxa lub …

1
Jak automatycznie klastrować U-Matrix?
Po przeszkoleniu samoorganizującej się mapy można obliczyć U-Matrix . Istnieje kilka narzędzi do ręcznej wizualizacji i identyfikacji klastrów, ale zastanawiam się, czy istnieje jakiś algorytm do wykonania tego procesu w sposób automatyczny (tj. Bez patrzenia na postać w celu zidentyfikowania klastrów). Czy jest na to sposób? Piszę swój kod w …

3
Jakich metod statystycznych mogę użyć do znalezienia popularnych lub powszechnych kombinacji zmiennych kategorialnych?
Robię badania nad używaniem wielu narkotyków. Mam zestawy danych o 400 narkomanach, którzy stwierdzili, że używają narkotyków. Istnieje ponad 10 leków, a więc istnieją duże możliwe kombinacje. Przekodowałem większość spożywanych przez siebie narkotyków na zmienne binarne (tj. Heroina wynosi 1, jeśli narkoman nadużywał heroiny w innym przypadku 0). Chciałbym znaleźć …

1
Zrozumienie zastosowania logarytmów w logarytmie TF-IDF
Czytałem: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Ale nie potrafię zrozumieć, dlaczego formuła została zbudowana w taki sposób. Co robię Rozumiem: iDF powinien na pewnym poziomie zmierzyć, jak często termin S pojawia się w każdym z dokumentów, zmniejszając jego wartość, ponieważ termin pojawia się częściej. Z tej perspektywy iDF(S)=# of Documents# of Documents containing SiDF(S)=# …

3
Podejście i przykład grupowania wykresów w „R”
Szukam do grupowania / scalania węzłów na wykresie za pomocą klastrowania wykresów w 'r'. Oto oszałamiająco zabawkowa odmiana mojego problemu. Istnieją dwa „klastry” Istnieje „most” łączący klastry Oto sieć kandydacka: Kiedy patrzę na odległość połączenia, „hopcount”, jeśli wolisz, mogę uzyskać następującą macierz: mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), c(1,1,1,2,2,2,1,1,1,1), c(2,1,1,1,1,1,1,1,2,2), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,3,3), …

1
Jak mam interpretować statystyki GAP?
Użyłem statystyki GAP do oszacowania k klastrów w R. Jednak nie jestem pewien, czy dobrze ją interpretuję. Z powyższego wątku zakładam, że powinienem użyć 3 klastrów. Z drugiego wątku powinienem wybrać 6 klastrów. Czy to poprawna interpretacja statystyki GAP? Byłbym wdzięczny za wszelkie wyjaśnienia.
10 clustering 


2
PyMC dla grupowania nieparametrycznego: proces Dirichleta do oszacowania parametrów mieszanki Gaussa nie ulega zgrupowaniu
Konfiguracja problemu Jednym z pierwszych problemów z zabawkami, do których chciałem zastosować PyMC, jest grupowanie nieparametryczne: biorąc pod uwagę pewne dane, zamodeluj je jako mieszaninę Gaussa i poznaj liczbę skupień oraz średnią i kowariancję każdego skupienia. Większość tego, co wiem o tej metodzie, pochodzi z wykładów wideo Michaela Jordana i …

3
Jak uzyskać przedział ufności dla zmiany r-kwadratowej populacji
Dla prostego przykładu załóżmy, że istnieją dwa modele regresji liniowej 1 Model posiada trzy czynniki prognostyczne, x1a, x2b, ix2c Model 2 ma trzy predyktory z modelu 1 i dwa dodatkowe predyktory x2aorazx2b Istnieje równanie regresji populacji, w którym wyjaśniona wariancja populacji wynosi ρ2(1)ρ(1)2\rho^2_{(1)} dla Modelu 1 i ρ2(2)ρ(2)2\rho^2_{(2)} dla Modelu …

2
Znalezienie znanej liczby środków okręgu, które maksymalizują liczbę punktów w ustalonej odległości
Mam zestaw danych 2D, w których chcę znaleźć środki o określonej liczbie środków kół ( ), które maksymalizują całkowitą liczbę punktów w określonej odległości ( ).RN.NNRRR np. mam 10 000 punktów danych ( Xja, Yja)(Xi,Yi)(X_i, Y_i) i chcę znaleźć środki N.= 5N=5N=5 okręgów, które przechwytują jak najwięcej punktów w promieniu …
10 r  clustering  distance 

1
Czy niskie szerokości sylwetki oznaczają, że dane mają niewielką strukturę?
Jestem nowy w analizie sekwencji i zastanawiałem się, jak zareagujesz, jeśli średnie szerokości sylwetki (ASW) z analiz klastrowych macierzy niepodobności opartych na dopasowaniu optymalnym są niskie (około 25). Czy właściwe byłoby stwierdzenie, że istnieje niewielka podstawowa struktura, która pozwalałaby na grupowanie sekwencji? Czy możesz zignorować niskie ASW w oparciu o …

1
Dlaczego Anova () i drop1 () podają różne odpowiedzi dla GLMM?
Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


1
O korelacji kopenetycznej dla grupowania dendrogramu
Rozważ kontekst klastrowania dendrogramu. Nazwijmy pierwotne odmienności odległościami między jednostkami. Po skonstruowaniu dendrogramu definiujemy khenetyczną odmienność między dwoma osobami jako odległość między skupieniami, do których te osoby należą. Niektóre osoby uważają, że korelacja między pierwotnymi odmiennościami a kopenetycznymi odmiennościami (zwana korelacją kopenetyczną ) jest „wskaźnikiem przydatności” klasyfikacji. Brzmi dla mnie …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.