Pytania otagowane jako classification

Klasyfikacja statystyczna to problem identyfikacji subpopulacji, do której należą nowe obserwacje, w przypadku których tożsamość subpopulacji nie jest znana, na podstawie zestawu danych szkoleniowych zawierających obserwacje, których subpopulacja jest znana. Dlatego te klasyfikacje wykażą zmienne zachowanie, które można zbadać za pomocą statystyk.

1
Pakiet GBM vs. Caret korzystający z GBM
Stroiłem model przy użyciu caret, ale potem ponownie uruchomiłem model przy użyciu gbmpakietu. Rozumiem, że caretpakiet używa gbmi wynik powinien być taki sam. Jednak tylko szybki test przy użyciu data(iris)wykazuje rozbieżność w modelu około 5% przy użyciu RMSE i R ^ 2 jako metryki oceny. Chcę znaleźć optymalną wydajność modelu …


2
Kiedy regresja logistyczna jest odpowiednia?
Obecnie uczę się, jak dokonywać klasyfikacji, a konkretnie przyglądam się trzem metodom: obsłudze maszyn wektorowych, sieci neuronowych i regresji logistycznej. Próbuję zrozumieć, dlaczego regresja logistyczna miałaby kiedykolwiek lepszą wydajność niż pozostałe dwa. Z mojego zrozumienia regresji logistycznej, pomysł polega na dopasowaniu funkcji logistycznej do całych danych. Więc jeśli moje dane …

2
Dlaczego n-gram jest używany do identyfikacji języka tekstowego zamiast słów?
W dwóch popularnych bibliotekach identyfikacji języka, Compact Language Detector 2 dla C ++ i wykrywaczu języka dla java, oba wykorzystały (oparte na znakach) n-gramach do wyodrębnienia funkcji tekstowych. Dlaczego nie używa się worka słów (pojedyncze słowo / słownik) i jakie są zalety i wady worka słów i n-gramów? Jakie są …

2
Jak obliczyć wagi kryterium Fishera?
Studiuję rozpoznawanie wzorców i uczenie maszynowe i natrafiłem na następujące pytanie. Rozważ problem z klasyfikacją dwóch klas z jednakowym prawdopodobieństwem wcześniejszej klasyP(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} oraz rozkład instancji w każdej klasie podany przez p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right), …

5
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Jak szkolić HMM do klasyfikacji?
Rozumiem więc, że kiedy trenujesz HMM do klasyfikacji, standardowe podejście to: Rozdziel swoje zestawy danych na zestawy danych dla każdej klasy Wytrenuj jeden HMM na klasę Na zestawie testowym porównaj prawdopodobieństwo każdego modelu w celu sklasyfikowania każdego okna Ale jak mam trenować HMM w każdej klasie? Czy po prostu łączę …

3
Naiwne cechy Bayesa mają prawdopodobieństwo: czy powinienem podwójnie liczyć słowa?
Prototypuję własny model słów Naive Bayes i miałem pytanie dotyczące obliczania prawdopodobieństw cech. Powiedzmy, że mam dwie klasy, po prostu używam spamu i nie-spamu, ponieważ wszyscy tego używają. Weźmy jako przykład słowo „viagra”. W moim zestawie szkoleniowym jest 10 e-maili, 5 spamu i 5 spamu. „viagra” pojawia się we wszystkich …

2
Dlaczego zwiększenie liczby funkcji zmniejsza wydajność?
Próbuję uzyskać intuicję, dlaczego zwiększenie liczby funkcji może obniżyć wydajność. Obecnie używam klasyfikatora LDA, który sprawdza się lepiej w przypadku niektórych funkcji, ale gorzej, gdy patrzy się na więcej funkcji. Moja dokładność klasyfikacji jest przeprowadzana przy użyciu stratyfikowanego 10-krotnego xval. Czy istnieje prosty przypadek, w którym klasyfikator działałby lepiej w …


2
PCA i losowe lasy
W ostatnim konkursie Kaggle (ręcznie) zdefiniowałem 10 dodatkowych funkcji dla mojego zestawu treningowego, które następnie zostaną wykorzystane do wyszkolenia losowego klasyfikatora lasów. Postanowiłem uruchomić PCA w zestawie danych z nowymi funkcjami, aby zobaczyć, jak się ze sobą porównują. Odkryłem, że ~ 98% wariancji było przenoszone przez pierwszy składnik (pierwszy wektor …


1
Czy rzadki zestaw treningowy niekorzystnie wpływa na SVM?
Próbuję klasyfikować wiadomości do różnych kategorii za pomocą SVM. Przygotowałem listę pożądanych słów / symboli z zestawu szkoleniowego. Dla każdego wektora, który reprezentuje komunikat, ustawiam odpowiedni wiersz, 1jeśli słowo jest obecne: „ciało” to: [mary, mała, jagnięca, gwiazda, migotanie] pierwsza wiadomość: „Mary miała małą owieczkę” -> [1 1 1 0 0] …

2
Zastosowanie uczenia maszynowego do filtrowania DDoS
Na kursie uczenia maszynowego Stanforda Andrew Ng wspomniał o stosowaniu ML w IT. Jakiś czas później, kiedy dostałem DDoS o średniej wielkości (około 20 tys. Botów) na naszej stronie, postanowiłem z nim walczyć za pomocą prostego klasyfikatora sieci neuronowej. Napisałem ten skrypt Pythona w około 30 minut: https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos Wykorzystuje pyBrain …

2
Przewidywanie wielu celów lub klas?
Załóżmy, że buduję model predykcyjny, w którym próbuję przewidzieć wiele zdarzeń (na przykład zarówno rzut kości, jak i rzut monetą). Większość znanych mi algorytmów działa tylko z jednym celem, więc zastanawiam się, czy istnieje standardowe podejście do tego rodzaju rzeczy. Widzę dwie możliwe opcje. Być może najbardziej naiwnym podejściem byłoby …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.