Pytania otagowane jako feature-selection

Metody i zasady wyboru podzbioru atrybutów do wykorzystania w dalszym modelowaniu

2
Czy źle jest wybierać funkcje oparte na wartości p?
Istnieje kilka postów na temat wybierania funkcji. Jedna z metod opisuje ważność funkcji na podstawie statystyki t. W R varImp(model)zastosowanym na modelu liniowym ze znormalizowanymi cechami stosuje się wartość bezwzględną statystyki t dla każdego parametru modelu. Zasadniczo wybieramy funkcję na podstawie jej statystyki t, co oznacza, jak precyzyjny jest współczynnik. …

1
Wybór zmiennych a wybór modelu
Rozumiem więc, że wybór zmiennych jest częścią wyboru modelu. Ale na czym dokładnie polega wybór modelu? Czy to coś więcej niż następujące: 1) wybierz rozkład dla swojego modelu 2) wybrać zmienne objaśniające,? Pytam o to, ponieważ czytam artykuł Burnham i Anderson: AIC kontra BIC, w którym mówią o AIC i …



2
Dlaczego zwiększenie liczby funkcji zmniejsza wydajność?
Próbuję uzyskać intuicję, dlaczego zwiększenie liczby funkcji może obniżyć wydajność. Obecnie używam klasyfikatora LDA, który sprawdza się lepiej w przypadku niektórych funkcji, ale gorzej, gdy patrzy się na więcej funkcji. Moja dokładność klasyfikacji jest przeprowadzana przy użyciu stratyfikowanego 10-krotnego xval. Czy istnieje prosty przypadek, w którym klasyfikator działałby lepiej w …


1
Różnice między PROC Mixed i lme / lmer w R - stopnie swobody
Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
Jak wybierać zmienne w modelu regresji?
Tradycyjne podejście do wyboru zmiennych polega na znalezieniu zmiennych, które najbardziej przyczyniają się do przewidywania nowej odpowiedzi. Ostatnio dowiedziałem się o alternatywie. W modelowaniu zmiennych, które określają efekt leczenia - jak na przykład w badaniu klinicznym farmaceutyka - mówi się, że zmienna oddziałuje jakościowoz leczeniem, jeśli pozostawiając inne rzeczy naprawione, …

2
Inżynieria cech niezależna od domeny, która zachowuje znaczenie semantyczne?
Inżynieria cech jest często ważnym elementem uczenia maszynowego (została wykorzystana bardzo często, aby wygrać Puchar KDD w 2010 r .). Uważam jednak, że większość technik inżynierii cech również zniszczyć jakiekolwiek intuicyjne znaczenie podstawowych funkcji lub są bardzo specyficzne dla konkretnej domeny lub nawet określonego rodzaju funkcji. Klasycznym przykładem tego pierwszego …

5
Czy mogę użyć PCA do dokonania wyboru zmiennych do analizy skupień?
Muszę zmniejszyć liczbę zmiennych, aby przeprowadzić analizę skupień. Moje zmienne są silnie skorelowane, więc pomyślałem o wykonaniu analizy czynnikowej PCA (analiza głównego składnika). Jeśli jednak użyję uzyskanych wyników, moje klastry nie będą całkiem poprawne (w porównaniu z poprzednimi klasyfikacjami w literaturze). Pytanie: Czy mogę użyć macierzy rotacji, aby wybrać zmienne …

4
Jak zastosować do modelu LASSO metodę Iterative Reweighted Least Squares (IRLS)?
Zaprogramowałem regresję logistyczną przy użyciu algorytmu IRLS . Chciałbym zastosować karę LASSO , aby automatycznie wybrać odpowiednie funkcje. Przy każdej iteracji rozwiązuje się następujące kwestie: (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} Niech będzie nieujemną liczbą rzeczywistą. Nie penalizuję przechwytywania, jak sugerowano w The Elements of. Nauka statystyczna . To samo dotyczy już zerowych współczynników. …

4
Co powoduje, że lasso jest niestabilne przy wyborze funkcji?
argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc Czy istnieje podobne twierdzenie dotyczące lasso? Jeśli istnieje takie twierdzenie, nie tylko zagwarantuje ono stabilność lasso, ale także zapewni lasso bardziej sensowną interpretację: lasso może odkryć wektor współczynnika regresji rzadkiej ccc który jest używany do …

2
Dlaczego regresja kalenicy nie może zapewnić lepszej interpretacji niż LASSO?
Mam już pojęcie o zaletach i wadach regresji grzbietu i LASSO. W przypadku LASSO kara karna L1 da rzadki wektor współczynnika, który można postrzegać jako metodę wyboru cech. Istnieją jednak pewne ograniczenia dotyczące LASSO. Jeśli funkcje mają wysoką korelację, LASSO wybierze tylko jedną z nich. Ponadto w przypadku problemów, w …

2
Wybór funkcji i dostrajanie parametrów z karetką losowego lasu
Mam dane z kilkoma tysiącami funkcji i chcę dokonać rekurencyjnego wyboru funkcji (RFE), aby usunąć te nieinformacyjne. Robię to z karetką i RFE. Jednak zacząłem myśleć, jeśli chcę uzyskać najlepsze dopasowanie regresji (na przykład losowy las), kiedy powinienem przeprowadzić strojenie parametrów ( mtrydla RF)? Tak więc, jak rozumiem, Caret trenuje …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.