Statystyki i duże zbiory danych feature-selection

2

Mam zestaw danych zawierający głównie zmienne finansowe (120 funkcji, 4k przykładów), które są w większości wysoce skorelowane i bardzo głośne (na przykład wskaźniki techniczne), dlatego chciałbym wybrać około 20-30 do późniejszego użycia ze szkoleniem modelu (klasyfikacja binarna) - zwiększyć zmniejszyć). Myślałem o użyciu losowych lasów do rankingu funkcji. Czy warto …

17 feature-selection random-forest python

4

Niska dokładność klasyfikacji, co dalej?

Jestem więc nowicjuszem w dziedzinie ML i staram się dokonać klasyfikacji. Moim celem jest przewidzieć wynik wydarzenia sportowego. Zebrałem trochę danych historycznych i teraz próbuję wyszkolić klasyfikatora. Dostałem około 1200 próbek, z czego 0,2 oddzieliłem do celów testowych, inne poddałem wyszukiwaniu sieci (w tym walidacji krzyżowej) z różnymi klasyfikatorami. Do …

16 classification svm feature-selection random-forest

1

Jakiej metody wielokrotnego porównania użyć w modelu Lmer: lsmeans czy glht?

Analizuję zestaw danych przy użyciu modelu efektów mieszanych z jednym ustalonym efektem (warunkiem) i dwoma efektami losowymi (uczestnik ze względu na projekt i parę wewnątrz przedmiotu). Model ten został wygenerowany z lme4pakietu: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Następnie wykonałem test współczynnika wiarygodności tego modelu względem modelu bez ustalonego efektu (warunku) i mam znaczącą różnicę. …

16 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

2

Różnica pomiędzy wybór funkcji oparty na „F” i regresji na podstawie

Czy porównywanie cech przy użyciu F-regressiontego samego, co korelowanie elementów z etykietą indywidualnie i obserwowanie wartości ?R2)R2R^2 Często widziałem, jak moi koledzy używają F regressiondo wyboru funkcji w procesie uczenia maszynowego z sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Proszę, proszę, powiedz mi - dlaczego daje takie same wyniki, jak skorelowanie go ze zmienną etykieta …

16 feature-selection python scikit-learn r-squared f-test

4

Text Mining: jak grupować teksty (np. Artykuły prasowe) za pomocą sztucznej inteligencji?

Zbudowałem kilka sieci neuronowych (MLP (w pełni połączony), Elman (cykliczny)) do różnych zadań, takich jak gra w Pong, klasyfikowanie odręcznych cyfr i tym podobne ... Dodatkowo próbowałem zbudować pierwsze sieci neuronowe splotowe, np. Do klasyfikowania wielocyfrowych notatek odręcznych, ale jestem całkowicie nowy w analizowaniu i grupowaniu tekstów, np. W zadaniach …

15 clustering neural-networks feature-selection text-mining self-organizing-maps

1

Zmniejszenie Gini i zanieczyszczenie Gini węzłów dziecięcych

Pracuję nad miarą ważności funkcji Gini dla losowego lasu. Dlatego muszę obliczyć spadek zanieczyszczenia węzła Gini. Oto sposób, w jaki to robię, co prowadzi do konfliktu z definicją, co sugeruje, że gdzieś się mylę ... :) W przypadku drzewa binarnego i biorąc pod uwagę prawdopodobieństwa lewych i prawych dzieci, mogę …

15 feature-selection random-forest cart

2

LASSO / LARS a metoda ogólna do konkretnej (GETS)

Zastanawiam się, dlaczego metody wyboru modeli LASSO i LARS są tak popularne, mimo że są to po prostu warianty stopniowego wybierania do przodu (a zatem cierpią na zależność od ścieżki)? Podobnie, dlaczego metody Ogólnego do Specyficznego (GETS) wyboru modelu są w większości ignorowane, nawet jeśli działają lepiej niż LARS / …

15 feature-selection model-selection lasso stepwise-regression lars

5

Zastosowanie technik uczenia maszynowego w małych próbach klinicznych

Co sądzisz o zastosowaniu technik uczenia maszynowego, takich jak losowe lasy lub regresja karna (z karą L1 lub L2 lub ich kombinacją) w małych próbach klinicznych, gdy celem jest wyodrębnienie interesujących predyktorów w kontekście klasyfikacji? To nie jest pytanie o wybór modelu, ani nie pytam, jak znaleźć optymalne oszacowania zmiennego …

15 machine-learning feature-selection

3

Czy w przypadku klasyfikatorów liniowych większe współczynniki implikują ważniejsze cechy?

Jestem inżynierem oprogramowania zajmującym się uczeniem maszynowym. Z mojego zrozumienia, regresja liniowa (taka jak OLS) i klasyfikacja liniowa (taka jak regresja logistyczna i SVM) przewidują na podstawie iloczynu wewnętrznego między wyuczonymi współczynnikami a zmiennymi funkcji :w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) …

15 regression machine-learning classification feature-selection linear-model

2

Mieszanie danych ciągłych i binarnych z liniowym SVM?

Więc bawiłem się SVM i zastanawiam się, czy to dobra rzecz: Mam zestaw funkcji ciągłych (od 0 do 1) i zestaw cech kategorycznych, które przekonwertowałem na zmienne obojętne. W tym konkretnym przypadku koduję datę pomiaru w zmiennej zastępczej: Są 3 okresy, z których mam dane i zarezerwowałem dla nich 3 …

15 categorical-data svm feature-selection linear-model feature-construction

1

Jak dokładnie działa wybór funkcji Chi-kwadrat?

Wiem, że dla każdej pary klas obiektów wartość statystyki chi-kwadrat jest obliczana i porównywana z wartością progową. Jestem trochę zmieszany. Jeśli istnieje cech i klas , jak buduje się tabelę awaryjną? Jak decydować, które funkcje zachować, a które usunąć?mmmkkk Wszelkie wyjaśnienia będą mile widziane. Z góry dziękuję

15 chi-squared feature-selection

5

Czy lepiej jest przeprowadzać eksploracyjną analizę danych tylko w zestawie danych szkoleniowych?

Wykonuję eksploracyjną analizę danych (EDA) na zbiorze danych. Następnie wybiorę niektóre funkcje, aby przewidzieć zmienną zależną. Pytanie brzmi: czy powinienem wykonywać EDA tylko na moim zestawie danych szkoleniowych? A może powinienem dołączyć do zestawu danych szkoleniowych i testowych, a następnie wykonać na nich EDA i wybrać funkcje oparte na tej …

15 dataset feature-selection feature-construction eda

4

Jak należy zamówić dobór funkcji i optymalizację hiperparametrów w potoku uczenia maszynowego?

Moim celem jest klasyfikacja sygnałów z czujników. Dotychczasowe pojęcie mojego rozwiązania to: i) Funkcje inżynieryjne z surowego sygnału ii) Wybieranie odpowiednich funkcji za pomocą ReliefF i podejścia klastrowego iii) Zastosuj NN, Losowy Las i SVM Jestem jednak uwięziony w dylemacie. W ii) i iii) istnieją hiperparametry, takie jak k-Najbliższe Neigbours …

15 feature-selection hyperparameter optimization

3

Wybór zmiennych bayesowskich - czy to naprawdę działa?

Pomyślałem, że mógłbym się zabawić wyborem zmiennych bayesowskich, po ładnym poście na blogu i powiązanych linkach. Napisałem program w rjags (gdzie jestem dość debiutantem) i pobrałem dane o cenie dla Exxon Mobil, a także niektóre rzeczy, które raczej nie wyjaśnią jego zwrotów (np. Ceny palladu) i inne rzeczy, które powinny …

14 regression bayesian multiple-regression feature-selection jags

1

Jaki jest algorytm regresji regresji naprzód?

Może po prostu jestem zmęczony, ale mam problem ze zrozumieniem algorytmu Forward Stagewise Regression. Ze strony „Elementy uczenia statystycznego” na stronie 60: Regresja do przodu i do tyłu jest jeszcze bardziej ograniczona niż regresja do przodu i do przodu. Zaczyna się jak regresja krokowa do przodu, z przecięciem równym [średnia] …

14 regression algorithms feature-selection

Pytania otagowane jako feature-selection