Pytania otagowane jako clustering

Analiza skupień polega na dzieleniu danych na podzbiory obiektów zgodnie z ich wzajemnym „podobieństwem” bez korzystania z istniejącej wiedzy, takiej jak etykiety klas. [Błędy klastra-standardowe i / lub próbki klastra powinny być oznaczone jako takie; NIE używaj dla nich znacznika „grupowania”.]

2
Wykrywanie wzorców oszukiwania podczas egzaminu na wiele pytań
PYTANIE: Mam dane binarne dotyczące pytań egzaminacyjnych (poprawne / niepoprawne). Niektóre osoby mogły mieć wcześniejszy dostęp do podzbioru pytań i prawidłowych odpowiedzi. Nie wiem kto, ilu lub który. Gdyby nie było oszukiwania, załóżmy, że modelowałbym prawdopodobieństwo poprawnej odpowiedzi dla elementu jako , gdzie reprezentuje trudność pytania, a to ukryta zdolność …

5
Procedura grupowania, w której każdy klaster ma taką samą liczbę punktów?
Że pewne punkty w , i chcę skupić punkty, aby:X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p Każda grupa zawiera taką samą liczbę elementów . (Załóżmy, że liczba klastrów dzieli .)XXXnnn Każda klaster jest w pewnym sensie „przestrzennie spójny”, podobnie jak klastry z średnich.kkk Łatwo jest wymyślić wiele procedur klastrowania, które spełniają jedną lub drugą z nich, …

3
Określ różne klastry danych 1d z bazy danych
Mam tabelę bazy danych przesyłania danych między różnymi węzłami. To ogromna baza danych (z prawie 40 milionami transferów). Jednym z atrybutów jest liczba transferów bajtów (nbajtów) w zakresie od 0 bajtów do 2 tera bajtów. Chciałbym zgrupować nbytes w taki sposób, aby dane k klastrów zawierały niektóre transfery x1 należące …

3
Czy redukcję wymiarów podczas wizualizacji należy uznać za „zamknięty” problem rozwiązany przez t-SNE?
Dużo czytałem o algorytmie sne do redukcji wymiarów. Jestem pod wielkim wrażeniem wydajności „klasycznych” zestawów danych, takich jak MNIST, w których osiąga wyraźne rozdzielenie cyfr ( patrz oryginalny artykuł ):ttt Użyłem go również do wizualizacji funkcji poznanych przez sieć neuronową, którą trenuję i byłem bardzo zadowolony z wyników. Tak więc, …


1
Używanie korelacji jako miary odległości (dla hierarchicznego grupowania)
Chciałbym zhierarchizować moje dane, ale zamiast korzystać z odległości euklidesowej, chciałbym zastosować korelację. Ponadto, ponieważ współczynnik korelacji wynosi od -1 do 1, przy czym zarówno -1, jak i 1 oznaczają „współregulację” w moim badaniu, traktuję zarówno -1, jak i 1 jako d = 0. Więc moje obliczenia wynoszą re= 1 …

3
Nadzorowane grupowanie lub klasyfikacja?
Drugie pytanie dotyczy tego, że w dyskusji gdzieś w Internecie mówiłem o „nadzorowanym klastrowaniu”, o ile wiem, klastrowanie nie jest nadzorowane, więc jakie jest dokładnie znaczenie „nadzorowanego klastrowania”? Jaka jest różnica w odniesieniu do „klasyfikacji”? Mówi o tym wiele linków: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf itp ...

2
Grupowanie macierzy binarnej
Mam pół-małą macierz funkcji binarnych o wymiarze 250k x 100. Każdy wiersz to użytkownik, a kolumny to binarne „tagi” niektórych zachowań użytkownika, np. „Like_cats”. user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 …

8
Wykonywanie grupowania K-średnich (lub jego bliskich krewnych) za pomocą macierzy odległości, a nie danych punkt po cechach
Chcę wykonać K-oznacza grupowanie obiektów, które mam, ale obiekty te nie są opisywane jako punkty w przestrzeni, tj. Przez objects x featureszestaw danych. Jestem jednak w stanie obliczyć odległość między dowolnymi dwoma obiektami (jest ona oparta na funkcji podobieństwa). Pozbywam się macierzy odległości objects x objects. Wcześniej zaimplementowałem K-średnich, ale …

2
Jak grupować szeregi czasowe?
Mam pytanie dotyczące analizy skupień. Istnieje 3000 firm, które muszą być grupowane w zależności od zużycia energii przez 5 lat. Każda firma ma wartości dla każdej godziny przez 5 lat. Chciałbym dowiedzieć się, czy niektóre firmy mają taki sam wzorzec mocy użytkowej w danym okresie. Wyniki należy wykorzystać do codziennego …

2
Porównywanie klastrów: Indeks Rand a zmienność informacji
Zastanawiałem się, czy ktokolwiek miałby wgląd lub intuicję za różnicą między zmiennością informacji a indeksem Rand do porównywania klastrów. Przeczytałem artykuł „ Porównywanie klastrów - odległość oparta na informacjach ” autorstwa Marii Melii (Journal of Multivariate Analysis, 2007), ale poza zauważeniem różnicy w definicjach, nie rozumiem, co to za odmiana …

4
Dlaczego mieszane dane stanowią problem dla algorytmów klastrowych opartych na euklidesie?
Większość klasycznych algorytmów grupowania i zmniejszania wymiarów (grupowanie hierarchiczne, analiza głównych składników, średnie k, samoorganizujące się mapy ...) są zaprojektowane specjalnie dla danych liczbowych, a ich dane wejściowe są postrzegane jako punkty w przestrzeni euklidesowej. Jest to oczywiście problem, ponieważ wiele rzeczywistych pytań obejmuje mieszane dane: na przykład, jeśli studiujemy …

2
Jeśli grupowanie k-średnich jest formą modelowania mieszanki Gaussa, czy można go zastosować, gdy dane nie są normalne?
Czytam Bishopa o algorytmie EM dla GMM i związku między GMM a k-średnich. W tej książce jest napisane, że k-średnich jest trudną wersją GMM. Zastanawiam się, czy to implikuje, że jeśli dane, które próbuję skupić, nie są gaussowskie, nie mogę użyć k-średnich (a przynajmniej nie nadaje się do użycia)? Na …

4
Jak rzutować nowy wektor na przestrzeń PCA?
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.