Pytania otagowane jako classification

Klasyfikacja statystyczna to problem identyfikacji subpopulacji, do której należą nowe obserwacje, w przypadku których tożsamość subpopulacji nie jest znana, na podstawie zestawu danych szkoleniowych zawierających obserwacje, których subpopulacja jest znana. Dlatego te klasyfikacje wykażą zmienne zachowanie, które można zbadać za pomocą statystyk.


3
Jak Naive Bayes jest klasyfikatorem liniowym?
Widziałem tutaj inny wątek , ale nie sądzę, by odpowiedź zaspokoiła faktyczne pytanie. Ciągle czytam, że Naive Bayes jest klasyfikatorem liniowym (np. Tutaj ) (takim, że wyznacza liniową granicę decyzyjną) za pomocą demonstracji logarytmicznych szans. Symulowałem jednak dwie chmury Gaussa i dopasowałem granicę decyzyjną i otrzymałem wyniki jako takie (biblioteka …

2
Względne znaczenie zestawu predyktorów w losowej klasyfikacji lasów w R.
Chciałbym określić względną ważność zbiorów zmiennych w stosunku do randomForestmodelu klasyfikacji w R. importanceFunkcja zapewnia MeanDecreaseGinimetrykę dla każdego predyktora - czy jest to tak proste, jak sumowanie tego dla każdego predyktora w zestawie? Na przykład: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ …

3
Jaka jest podstawowa przyczyna problemu braku równowagi klas?
Ostatnio dużo myślałem o „problemie nierównowagi klas” w uczeniu maszynowym / statystycznym i coraz głębiej odczuwam, że po prostu nie rozumiem, co się dzieje. Najpierw pozwól mi zdefiniować (lub spróbować) zdefiniować moje warunki: Problemem klasa nierównowaga w maszyny / uczenia statystycznego jest obserwacja, że niektóre klasyfikacji binarnej (*) algorytmy nie …


7
Jakie są gałęzie statystyki?
W matematyce istnieją takie gałęzie, jak algebra, analiza, topologia itp. W uczeniu maszynowym uczenie się pod nadzorem, bez nadzoru i wzmacniające. W każdej z tych gałęzi są drobniejsze gałęzie, które dodatkowo dzielą metody. Mam problem ze zrównaniem się ze statystykami. Jakie byłyby główne gałęzie statystyki (i gałęzie podrzędne)? Idealna partycja …

4
Kiedy powinienem bilansować klasy w zbiorze danych treningowych?
Miałem kurs online, w którym dowiedziałem się, że niezrównoważone klasy w danych treningowych mogą prowadzić do problemów, ponieważ algorytmy klasyfikacji są zgodne z regułą większości, ponieważ dają dobre wyniki, jeśli niezrównoważenie jest zbyt duże. W zadaniu należało zrównoważyć dane poprzez niepełne próbkowanie klasy większościowej. Jednak na tym blogu ktoś twierdzi, …

4
Obszar pod krzywą ROC a ogólna dokładność
Trochę się mylę co do pola pod krzywą (AUC) ROC i ogólnej dokładności. Czy AUC będzie proporcjonalne do ogólnej dokładności? Innymi słowy, kiedy będziemy mieli większą ogólną dokładność, czy na pewno uzyskamy większy AUC? Czy są z definicji dodatnio skorelowane? Jeśli są pozytywnie skorelowane, dlaczego zawracamy sobie głowę zgłaszaniem ich …

2
Różnica między naiwnymi Bayesami a wielomianowymi naiwnymi Bayesami
Wcześniej miałem do czynienia z klasyfikatorem Naive Bayes . Czytałem ostatnio o Multinomial Naive Bayes . Również prawdopodobieństwo późniejsze = (wcześniejsze * prawdopodobieństwo) / (dowód) . Jedyną podstawową różnicą (podczas programowania tych klasyfikatorów), którą znalazłem między Naive Bayes i Multinomial Naive Bayes, jest to, że Wielomian Naive Bayes oblicza prawdopodobieństwo, …

6
Zmienna procedura selekcji do klasyfikacji binarnej
Jakiego wyboru zmiennych / cech preferujesz do klasyfikacji binarnej, gdy w zestawie do nauki jest o wiele więcej zmiennych / cech niż obserwacji? Celem jest omówienie procedury wyboru funkcji, która najlepiej redukuje błąd klasyfikacji. Możemy poprawić notacje dla spójności: dla , niech będą zestawem uczącym się obserwacji z grupy . …

2
Jak statystycznie porównać wydajność klasyfikatorów uczenia maszynowego?
W oparciu o szacunkową dokładność klasyfikacji chcę przetestować, czy jeden klasyfikator jest statystycznie lepszy na zestawie podstawowym niż inny klasyfikator. Dla każdego klasyfikatora wybieram próbkę szkoleniową i testową losowo z zestawu podstawowego, trenuję model i testuję model. Robię to dziesięć razy dla każdego klasyfikatora. Dlatego mam dziesięć dokładnych pomiarów dokładności …


1
Obliczanie powtarzalności efektów z modelu Lmer
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Czy stopnie swobody mogą być liczbą niecałkowitą?
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
Jakie są skutki wyboru różnych funkcji strat w klasyfikacji do przybliżonej straty 0-1
Wiemy, że niektóre funkcje celu są łatwiejsze do optymalizacji, a niektóre są trudne. I jest wiele funkcji utraty, których chcemy używać, ale trudnych w użyciu, na przykład utrata 0-1. Dlatego znajdziemy kilka funkcji utraty proxy do wykonania pracy. Na przykład używamy utraty zawiasu lub straty logistycznej do „przybliżenia” utraty 0-1. …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.