Pytania otagowane jako clustering

Analiza skupień polega na dzieleniu danych na podzbiory obiektów zgodnie z ich wzajemnym „podobieństwem” bez korzystania z istniejącej wiedzy, takiej jak etykiety klas. [Błędy klastra-standardowe i / lub próbki klastra powinny być oznaczone jako takie; NIE używaj dla nich znacznika „grupowania”.]

2
Wykrywanie klastrów „podobnych” kodów źródłowych
Załóżmy, że mam 400 studentów (na dużym uniwersytecie), którzy muszą wykonać projekt informatyczny i że muszą pracować samodzielnie (bez grupy studentów). Przykładem projektu może być „wdrożenie algorytmu szybkiej transformacji Fouriera w fortranie” (wiem, że to nie brzmi seksownie, ale to upraszcza moje pytanie). Jestem korektorem i chcę wysyłać procedury, aby …

3
Rozkłady klastrowe
Mam kilka rozkładów (10 rozkładów na poniższym rysunku). W rzeczywistości są to histogramy: na osi x znajduje się 70 wartości, które są wielkościami niektórych cząstek w roztworze, a dla każdej wartości x odpowiadająca wartość y jest proporcją cząstek, których wielkość jest zbliżona do wartości x. Chciałbym zgrupować te dystrybucje. Obecnie …
10 clustering 

3
Jak grupować zmienne podłużne?
Mam kilka zmiennych, które zawierają dane podłużne od dnia 0 do dnia 7. Poszukuję odpowiedniego podejścia grupującego, które może grupować te zmienne podłużne (nie przypadki) w różne grupy. Próbowałem analizować ten zestaw danych osobno według czasu, ale wynik był dość trudny do racjonalnego wyjaśnienia. Zbadałem dostępność procedury SAS, PROC SIMILARITYponieważ …
10 clustering 

2
Wykryj wzory kołowe w danych chmury punktów
W przypadku niektórych algorytmów rekonstrukcji objętości, nad którymi pracuję, muszę wykryć dowolną liczbę wzorów kołowych w danych punktów 3d (pochodzących z urządzenia LIDAR). Wzory mogą być dowolnie zorientowane w przestrzeni i można założyć, że leżą (choć nie idealnie) w cienkich płaszczyznach 2D. Oto przykład z dwoma okręgami na tej samej …

1
Korzystanie z pakietu statystyk w R do grupowania kmeansów
Mam problem ze zrozumieniem jednego lub dwóch aspektów pakietu klastra. Dokładnie podążam za przykładem z Quick-R , ale nie rozumiem jednego lub dwóch aspektów analizy. Dołączyłem kod, którego używam w tym konkretnym przykładzie. ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925, 1549.524107, 936.42856, 0, 0, 0, 0, …
10 r  clustering 

1
Analiza skupień, a następnie Analiza dyskryminacyjna
Jakie jest uzasadnienie, jeśli w ogóle, zastosowania analizy dyskryminacyjnej (DA) w odniesieniu do wyników algorytmu grupowania, takiego jak k-średnie, co widzę od czasu do czasu w literaturze (zasadniczo na temat klinicznego podtypu zaburzeń psychicznych)? Zasadniczo nie zaleca się testowania różnic grupowych w zmiennych, które zostały użyte podczas budowy klastra, ponieważ …

1
K-oznacza: ile iteracji w sytuacjach praktycznych?
Nie mam doświadczenia w branży eksploracji danych ani dużych zbiorów danych, więc chciałbym usłyszeć, jak dzielisz się doświadczeniami. Czy ludzie faktycznie używają k-średnich, PAM, CLARA itp. Na naprawdę dużym zbiorze danych? Czy po prostu losowo wybierają z niego próbkę? Jeśli po prostu pobiorą próbkę zestawu danych, czy wynik byłby wiarygodny, …

2
Skorygowany wskaźnik Rand a skorygowane informacje wzajemne
Usiłuję ocenić wydajność klastrowania. Czytałem dokumentację skiscit-learn dotyczącą metryk . Nie rozumiem różnicy między ARI a AMI. Wydaje mi się, że robią to samo na dwa różne sposoby. Cytowanie z dokumentacji: Biorąc pod uwagę znajomość podstawowych przypisań do klasy prawdy label_true i nasz algorytm grupowania tych samych próbek label_pred, skorygowany …

2
Różnica między PCA a grupowaniem widmowym dla małego zestawu próbek cech logicznych
Mam zestaw danych 50 próbek. Każda próbka składa się z 11 (prawdopodobnie skorelowanych) cech logicznych. Chciałbym przedstawić, w jaki sposób wizualizować te próbki na wykresie 2D i sprawdzić, czy wśród 50 próbek znajdują się klastry / grupy. Wypróbowałem następujące dwa podejścia: (a) Uruchom PCA na matrycy 50x11 i wybierz pierwsze …

1
R regresja liniowa zmienna kategorialna „ukryta” wartość
To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R: a.lm = lm(Y ~ x1 + x2) x1jest zmienną ciągłą. x2jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
Który model głębokiego uczenia może klasyfikować kategorie, które nie wykluczają się wzajemnie
Przykłady: w opisie stanowiska mam zdanie: „Starszy inżynier Java w Wielkiej Brytanii”. Chcę użyć modelu głębokiego uczenia się, aby przewidzieć go jako 2 kategorie: English i IT jobs. Jeśli użyję tradycyjnego modelu klasyfikacji, może on przewidzieć tylko 1 etykietę z softmaxfunkcją na ostatniej warstwie. Dlatego mogę użyć 2 modelowych sieci …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
Zastosowanie stochastycznego wnioskowania wariacyjnego do Bayesian Mixture of Gaussian
Próbuję zaimplementować model mieszanki Gaussa z stochastycznym wnioskiem wariacyjnym, zgodnie z tym artykułem . To jest pgm mieszanki Gaussa. Według artykułu, pełny algorytm stochastycznego wnioskowania wariacyjnego to: I nadal jestem bardzo zdezorientowany co do metody skalowania go do GMM. Po pierwsze, myślałem, że lokalny parametr wariacyjny jest po prostu qzqzq_za …

2
Wybór funkcji dla problemów związanych z klastrowaniem
Usiłuję grupować różne zestawy danych przy użyciu nienadzorowanych algorytmów (klastrowanie). Problem polega na tym, że mam wiele funkcji (~ 500) i niewielką liczbę skrzynek (200-300). Do tej pory robiłem tylko problemy z klasyfikacją, dla których zawsze oznaczyłem dane jako zestawy szkoleniowe. Tam zastosowałem jakieś kryterium (tj. Losowy.lasy.importance lub information.gain) do …


2
Jak powstaje wykres „United States of Reddit”?
Poniżej znajduje się wykres z p. 202 Christiana Ruddera Dataclysm , choć został stworzony przez Jamesa Dowdella. To ilustruje relacje między różnymi 200 najpopularniejszymi subredditami, które są obszarami zainteresowania na reddit.com, gdzie użytkownicy mogą przesyłać linki, komentarze i głosy. Są one podobne do tagów na tej stronie. Rozmiar regionów subredditów …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.