Pytania otagowane jako feature-selection

Metody i zasady wyboru podzbioru atrybutów do wykorzystania w dalszym modelowaniu


7
Wybór zmiennych do uwzględnienia w modelu wielokrotnej regresji liniowej
Obecnie pracuję nad zbudowaniem modelu przy użyciu wielokrotnej regresji liniowej. Po manipulowaniu moim modelem nie jestem pewien, jak najlepiej określić, które zmienne zachować, a które usunąć. Mój model zaczął się od 10 predyktorów dla DV. Przy zastosowaniu wszystkich 10 predyktorów cztery zostały uznane za znaczące. Jeśli usunę tylko niektóre z …


5
Wykrywanie znaczących predyktorów spośród wielu zmiennych niezależnych
W zbiorze danych dwóch nie pokrywających się populacji (pacjenci i osoby zdrowe, ogółem n=60n=60n=60 ) chciałbym znaleźć (spośród zmiennych niezależnych) znaczące predyktory dla zmiennej zależnej ciągłej. Występuje korelacja między predyktorami. Chcę dowiedzieć się, czy któryś z predyktorów jest powiązany ze zmienną zależną „w rzeczywistości” (zamiast przewidywać zmienną zależną tak dokładnie, …

3
Dlaczego konieczny jest wybór zmiennych?
Typowe procedury wyboru zmiennych oparte na danych (na przykład do przodu, do tyłu, krokowo, wszystkie podzbiory) mają tendencję do uzyskiwania modeli o niepożądanych właściwościach, w tym: Współczynniki odchylone od zera. Błędy standardowe, które są zbyt małe, a przedziały ufności, które są zbyt wąskie. Testuj statystyki i wartości p, które nie …

6
Zmienna procedura selekcji do klasyfikacji binarnej
Jakiego wyboru zmiennych / cech preferujesz do klasyfikacji binarnej, gdy w zestawie do nauki jest o wiele więcej zmiennych / cech niż obserwacji? Celem jest omówienie procedury wyboru funkcji, która najlepiej redukuje błąd klasyfikacji. Możemy poprawić notacje dla spójności: dla , niech będą zestawem uczącym się obserwacji z grupy . …

3
Jak radzić sobie z wielokoliniowością podczas wyboru zmiennych?
Mam zestaw danych z 9 ciągłymi zmiennymi niezależnymi. Staram się wybierać między tymi zmiennymi, aby dopasować model do jednego procentu (zależnej) zmiennej Score. Niestety wiem, że między kilkoma zmiennymi wystąpi poważna kolinearność. Próbowałem użyć stepAIC()funkcji w R do wyboru zmiennych, ale ta metoda, co dziwne, wydaje się wrażliwa na kolejność, …

1
Czy stopnie swobody mogą być liczbą niecałkowitą?
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

5
Co może spowodować pogorszenie wyników klasyfikatora przez PCA?
Mam klasyfikator, na którym przeprowadzam walidację krzyżową, wraz z około setką funkcji, które wybieram do przodu, aby znaleźć optymalne kombinacje funkcji. Porównuję to również z przeprowadzaniem tych samych eksperymentów z PCA, w których biorę potencjalne cechy, stosuję SVD, przekształcam oryginalne sygnały w nową przestrzeń współrzędnych i używam najlepszych funkcji w …


6
Dokładność testu wyższa niż trening. Jak interpretować?
Mam zestaw danych zawierający maksymalnie 150 przykładów (z podziałem na szkolenia i testy), z wieloma funkcjami (ponad 1000). Muszę porównać klasyfikatory i metody wyboru cech, które dobrze sprawdzają się w danych. Tak więc używam trzech metod klasyfikacji (J48, NB, SVM) i 2 metod wyboru funkcji (CFS, WrapperSubset) z różnymi metodami …

3
Stabilność modelu w przypadku dużego problemu , małego
Wprowadzenie: Mam zestaw danych z klasycznym „dużym problemem p, małym n”. Liczba dostępnych próbek n = 150, a liczba możliwych predyktorów p = 400. Wynik jest zmienną ciągłą. Chcę znaleźć najważniejsze „deskryptory”, tj. Te, które są najlepszymi kandydatami do wyjaśnienia wyniku i pomocy w zbudowaniu teorii. Po badaniach na ten …

2
Najlepsze podejście do wyboru modelu Bayesian czy walidacja krzyżowa?
Próbując wybrać spośród różnych modeli lub liczby funkcji do uwzględnienia, powiedzmy przewidywanie, że mogę wymyślić dwa podejścia. Podziel dane na zestawy szkoleniowe i testowe. Jeszcze lepiej, użyj ładowania początkowego lub krzyżowej weryfikacji K-fold. Trenuj na zestawie treningowym za każdym razem i oblicz błąd w stosunku do zestawu testowego. Błąd testu …



Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.