Statystyki i duże zbiory danych feature-selection

8

Chciałbym zaimplementować algorytm automatycznego wyboru modelu. Zastanawiam się nad regresją stopniową, ale wszystko się uda (musi to być jednak regresja liniowa). Mój problem polega na tym, że nie jestem w stanie znaleźć metodologii ani implementacji typu open source (budzę się w java). Metodologia, którą mam na myśli, mogłaby wyglądać następująco: …

193 references feature-selection model-selection aic stepwise-regression

3

Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego

Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

Wybór funkcji i walidacja krzyżowa

Ostatnio dużo czytałem na tej stronie (@Aniko, @Dikran Marsupial, @Erik) i gdzie indziej na temat problemu nadmiaru występującego przy krzyżowej walidacji - (Smialowski i in. 2010 Bioinformatics, Hastie, Elementy uczenia statystycznego). Sugeruje się, że każdy nadzorowany wybór funkcji (przy użyciu korelacji z etykietami klas) wykonywany poza oszacowaniem wydajności modelu za …

76 cross-validation feature-selection

6

Wybór funkcji dla „ostatecznego” modelu podczas weryfikacji krzyżowej w uczeniu maszynowym

Trochę się mylę co do wyboru funkcji i uczenia maszynowego i zastanawiałem się, czy możesz mi pomóc. Mam zestaw danych mikromacierzy, który jest podzielony na dwie grupy i ma tysiące funkcji. Moim celem jest uzyskanie niewielkiej liczby genów (moich cech) (10–20) w sygnaturze, którą teoretycznie będę mógł zastosować do innych …

76 machine-learning classification cross-validation feature-selection genetics

3

Dlaczego Lasso zapewnia wybór zmiennych?

Czytałem Elementy uczenia statystycznego i chciałbym wiedzieć, dlaczego Lasso zapewnia wybór zmiennych, a regresja grzbietu nie. Obie metody minimalizują resztkową sumę kwadratów i ograniczają możliwe wartości parametrów . W przypadku Lasso ograniczenie wynosi , podczas gdy dla kalenicy jest to , dla niektórych .ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt Widziałem w …

76 regression feature-selection lasso regularization

6

Zmienny wybór do modelowania predykcyjnego naprawdę potrzebny w 2016 roku?

To pytanie zostało zadane w CV kilka lat temu, wydaje się, że warto je przesłać w świetle 1) lepszej technologii obliczeniowej rzędu wielkości (np. Obliczenia równoległe, HPC itp.) I 2) nowszych technik, np. [3]. Po pierwsze, jakiś kontekst. Załóżmy, że celem nie jest testowanie hipotez, nie szacowanie efektów, ale przewidywanie …

67 machine-learning modeling feature-selection model-selection prediction

9

Jakie są wady używania lassa do wyboru zmiennych do regresji?

Z tego, co wiem, użycie lasso do wyboru zmiennych rozwiązuje problem skorelowanych danych wejściowych. Ponadto, ponieważ jest równoważny regresji metodą najmniejszego kąta, nie jest powolny obliczeniowo. Jednak wiele osób (na przykład osoby, które znam, które wykonują biot statystykę) nadal wydaje się faworyzować stopniowy lub stopniowy wybór zmiennych. Czy są jakieś …

60 regression feature-selection lasso

3

Zmienne są często korygowane (np. Standaryzowane) przed wykonaniem modelu - kiedy jest to dobry pomysł, a kiedy zły?

W jakich okolicznościach chciałbyś skalować lub standaryzować zmienną przed dopasowaniem modelu? A jakie są zalety / wady skalowania zmiennej?

56 modeling predictive-models feature-selection theory standardization

2

Bardziej ostateczne omówienie wyboru zmiennych

tło Prowadzę badania kliniczne w medycynie i odbyłem kilka kursów statystycznych. Nigdy nie publikowałem pracy z wykorzystaniem regresji liniowej / logistycznej i chciałbym prawidłowo dokonywać wyboru zmiennych. Interpretowalność jest ważna, więc nie ma wymyślnych technik uczenia maszynowego. Podsumowałem moje rozumienie wyboru zmiennych - czy ktoś mógłby rzucić światło na jakieś …

55 regression feature-selection model-selection

3

Korzystanie z analizy głównych składników (PCA) do wyboru funkcji

Jestem nowy w wyborze funkcji i zastanawiałem się, w jaki sposób użyjesz PCA do przeprowadzenia wyboru funkcji. Czy PCA oblicza względny wynik dla każdej zmiennej wejściowej, której można użyć do odfiltrowania nieinformacyjnych zmiennych wejściowych? Zasadniczo chcę móc zamówić oryginalne funkcje w danych według wariancji lub ilości zawartych informacji.

54 r pca feature-selection

3

Czy losowy las można wykorzystać do wyboru funkcji w wielokrotnej regresji liniowej?

Ponieważ RF może poradzić sobie z nieliniowością, ale nie może zapewnić współczynników, czy mądrze byłoby użyć losowego lasu do zebrania najważniejszych cech, a następnie podłączyć je do modelu wielokrotnej regresji liniowej w celu uzyskania ich współczynników?

50 regression machine-learning feature-selection random-forest regression-strategies

6

Funkcje klasyfikacji szeregów czasowych

Rozważam problem klasyfikacji (wieloklasowej) na podstawie szeregów czasowych o zmiennej długości , to znaczy znaleźć funkcję poprzez globalną reprezentację serii czasowej przez zestaw wybranych cech o stałym rozmiarze niezależnym od , a następnie użyj standardowych metod klasyfikacji w tym zestawie funkcji. Ja nie interesuje się prognozowania, czyli przewidywanief ( X …

43 time-series classification feature-selection signal-processing

5

Jak interpretować wagi funkcji SVM?

Próbuję zinterpretować zmienne wagi podane przez dopasowanie liniowego SVM. (Używam scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Nie mogę znaleźć w dokumentacji niczego, co wyraźnie określa sposób obliczania lub interpretowania tych wag. Czy znak wagi ma coś wspólnego z klasą?

42 svm feature-selection python scikit-learn

5

Używanie LASSO z pakietu lars (lub glmnet) w R do wyboru zmiennych

Przepraszam, jeśli to pytanie jest trochę podstawowe. Chciałbym użyć selekcji zmiennych LASSO dla modelu wielokrotnej regresji liniowej w R. Mam 15 predyktorów, z których jeden jest kategoryczny (czy to spowoduje problem?). Po ustawieniu mojego i Y używam następujące polecenia:xxxyyy model = lars(x, y) coef(model) Mój problem polega na tym, kiedy …

39 feature-selection lasso glmnet lars

8

Kiedy należy uwzględnić zmienną w regresji, mimo że nie jest ona statystycznie istotna?

Jestem studentem ekonomii z pewnym doświadczeniem w ekonometrii i R. Chciałbym wiedzieć, czy kiedykolwiek zdarzy się sytuacja, w której powinniśmy uwzględnić zmienną w regresji, mimo że nie jest ona statystycznie istotna?

37 statistical-significance feature-selection

Pytania otagowane jako feature-selection