Pytania otagowane jako unsupervised-learning

Znajdowanie ukrytej (statystycznej) struktury w danych bez etykiety, w tym grupowanie i wyodrębnianie cech w celu redukcji wymiarowości.

1
Odległy nadzór: nadzorowany, częściowo nadzorowany, czy oba?
„Daleki nadzór” to schemat uczenia się, w którym klasyfikator uczy się, biorąc pod uwagę słabo oznakowany zestaw treningowy (dane treningowe są automatycznie oznaczane na podstawie heurystyki / zasad). Uważam, że zarówno nauczanie nadzorowane, jak i nauczanie częściowo nadzorowane może obejmować taki „zdalny nadzór”, jeśli ich oznaczone dane są heurystycznie / …



3
Jak wybrać optymalną liczbę ukrytych czynników w nieujemnym rozkładzie macierzy?
Biorąc pod uwagę macierz , Faktoryzacja macierzy nieujemnej (NMF) znajduje dwie nieujemne macierze i ( tzn. ze wszystkimi elementami ) do reprezentowania rozłożonej macierzy jako:Vm×nVm×n\mathbf V^{m \times n}H k × n ≥0Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, na przykład wymagając, aby nieujemne …

4
Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji
Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 



4
Czym * jest * sztuczna sieć neuronowa?
Zagłębiając się w literaturę o sieciach neuronowych , identyfikujemy inne metody z topologiami neuromorficznymi (architektury podobne do „sieci neuronowej”). I nie mówię o uniwersalnym twierdzeniu o aproksymacji . Przykłady podano poniżej. Zastanawiam się: jaka jest definicja sztucznej sieci neuronowej? Wygląda na to, że jego topologia obejmuje wszystko. Przykłady: Jedną z …

4
Jak zmierzyć kształt klastra?
Wiem, że to pytanie nie jest dobrze zdefiniowane, ale niektóre gromady mają tendencję do bycia eliptycznymi lub leżą w przestrzeni o mniejszych wymiarach, podczas gdy inne mają kształty nieliniowe (w przykładach 2D lub 3D). Czy istnieje jakakolwiek miara nieliniowości (lub „kształtu”) klastrów? Zauważ, że w przestrzeni 2D i 3D nie …

3
Wybór hiperparametrów za pomocą T-SNE do klasyfikacji
W specyficznym problemie, z którym pracuję (konkurs) mam następujące ustawienie: 21 funkcji (numerycznie na [0,1]) i wyjście binarne. Mam około 100 K. wierszy. Ustawienie wydaje się być bardzo głośne. Ja i inni uczestnicy stosujemy generowanie funkcji przez jakiś czas, a osadzanie t-rozproszonego stochastycznego sąsiada okazało się w tym otoczeniu dość …

4
Inicjalizowanie centrów K-średnich za pomocą losowych podpróbek zestawu danych?
Jeśli mam określony zestaw danych, jak mądre byłoby inicjowanie centrów klastrowych przy użyciu losowych próbek tego zestawu danych? Załóżmy na przykład, że chcę 5 clusters. Przyjmuję, 5 random samplespowiedzmy, size=20%oryginalny zestaw danych. Czy mogę wziąć średnią z każdej z 5 losowych próbek i użyć tych środków jako moich 5 początkowych …


4
Czy można porównać różne metody klastrowania w zbiorze danych bez prawdziwej prawdy poprzez wzajemną weryfikację?
Obecnie próbuję przeanalizować zestaw danych dokumentu tekstowego, który nie ma podstawowej prawdy. Powiedziano mi, że możesz użyć k-krotnego sprawdzania poprawności, aby porównać różne metody klastrowania. Jednak przykłady, które widziałem w przeszłości, wykorzystują podstawową prawdę. Czy istnieje sposób na użycie zestawu K-fold w tym zestawie danych do zweryfikowania moich wyników?

2
Zastosowanie uczenia maszynowego do filtrowania DDoS
Na kursie uczenia maszynowego Stanforda Andrew Ng wspomniał o stosowaniu ML w IT. Jakiś czas później, kiedy dostałem DDoS o średniej wielkości (około 20 tys. Botów) na naszej stronie, postanowiłem z nim walczyć za pomocą prostego klasyfikatora sieci neuronowej. Napisałem ten skrypt Pythona w około 30 minut: https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos Wykorzystuje pyBrain …

5
Grupowanie SOM dla zmiennych nominalnych / kołowych
Zastanawiam się tylko, czy ktoś jest zaznajomiony z grupowaniem nominalnych danych wejściowych. Patrzyłem na SOM jako rozwiązanie, ale najwyraźniej działa tylko z funkcjami numerycznymi. Czy są jakieś rozszerzenia dla funkcji jakościowych? W szczególności zastanawiałem się nad „Dniami tygodnia” jako możliwymi funkcjami. Oczywiście możliwe jest przekonwertowanie go na funkcję numeryczną (tj. …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.