Statystyki i duże zbiory danych feature-selection

1

Kontekst : Chcę, aby narysować linię na wykresie rozrzutu, że nie pojawia się parametryczne, dlatego używam geom_smooth()w ggplotw R. Automatycznie zwraca geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method., …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

1

Dlaczego w Random Forest losowy podzbiór funkcji jest wybierany na poziomie węzła, a nie na poziomie drzewa?

Moje pytanie: Dlaczego losowy las rozważa losowe podzbiory funkcji do podziału na poziomie węzłów w obrębie każdego drzewa, a nie na poziomie drzewa ? Tło: To jest pytanie historyczne. Tin Kam Ho opublikował ten artykuł na temat budowy „lasów decyzyjnych”, losowo wybierając podzbiór cech do uprawy każdego drzewa w 1998 …

14 machine-learning feature-selection random-forest importance history

1

Analiza wrażliwości w głębokich sieciach neuronowych

Po udzieleniu odpowiedzi na pytanie ( Wyodrębnianie znaczenia wagi z jednowarstwowej sieci feed-forward ) szukam wnioskowania na temat znaczenia danych wejściowych w sieciach neuronowych. Biorąc pod uwagę głęboką sieć, w której rekonstrukcja znaczenia wejściowego poprzez przejście wstecz przez warstwy z interesującego węzła wyjściowego może być trudna lub czasochłonna, zastanawiałem się, …

14 neural-networks python feature-selection sensitivity-analysis

1

Bayesian lasso kontra kolec i płyta

Pytanie: Jakie są zalety / wady korzystania z jednego wcześniejszego do drugiego przy selekcji zmiennych? Załóżmy, że ma prawdopodobieństwo: , w którym można umieścić albo jedną priors: lub: y∼N(Xw,σ2I)y∼N(Xw,σ2I)y\sim\mathcal{N}(Xw,\sigma^2I)wi∼πδ0+(1−π)N(0,100)π=0.9,wi∼πδ0+(1−π)N(0,100)π=0.9, w_i\sim \pi\delta_0+(1-\pi)\mathcal{N}(0,100)\\ \pi=0.9\,, wi∼exp(−λ|wi|)λ∼Γ(1,1).wi∼exp⁡(−λ|wi|)λ∼Γ(1,1). w_i\sim \exp(-\lambda|w_i|)\\ \lambda \sim \Gamma(1,1)\,. Podaję π=0.9π=0.9\pi=0.9 aby podkreślić, że większość wag wynosi zero, a przed gamma …

14 bayesian feature-selection

3

Dlaczego sieci neuronowe wymagają wyboru / inżynierii funkcji?

Zwłaszcza w kontekście zawodów kaggle zauważyłem, że wydajność modelu polega na wyborze / inżynierii funkcji. Chociaż w pełni rozumiem, dlaczego tak jest w przypadku bardziej konwencjonalnych / oldskulowych algorytmów ML, nie rozumiem, dlaczego tak jest w przypadku korzystania z głębokich sieci neuronowych. Powołując się na książkę Deep Learning: Głębokie uczenie …

14 neural-networks deep-learning feature-selection feature-engineering

2

Dlaczego najlepszy wybór podzbiorów nie jest preferowany w porównaniu z lasso?

Czytam o najlepszym wyborze podzbiorów w książce Elementy statystycznego uczenia się. Jeśli mam 3 predyktory , tworzę podzbiorów:2 3 = 8x1, x2), x3)x1,x2,x3x_1,x_2,x_32)3)= 823=82^3=8 Podzbiór bez predyktorów podzbiór z predyktoremx1x1x_1 podzbiór z predyktoremx2)x2x_2 podzbiór z predyktoremx3)x3x_3 podzbiór z predyktoramix1, x2)x1,x2x_1,x_2 podzbiór z predyktoramix1, x3)x1,x3x_1,x_3 podzbiór z predyktoramix2), x3)x2,x3x_2,x_3 podzbiór z …

13 regression feature-selection lasso bias-variance-tradeoff

2

Sprzeczne podejścia do wyboru zmiennych: AIC, wartości p czy oba?

Z tego, co rozumiem, wybór zmiennych oparty na wartościach p (przynajmniej w kontekście regresji) jest wysoce wadliwy. Wygląda na to, że wybór zmiennych oparty na AIC (lub podobny) jest przez niektórych uważany za wadliwy, chociaż wydaje się to nieco niejasne (np. Patrz moje pytanie i kilka linków na ten temat …

13 hypothesis-testing multiple-regression feature-selection model-selection aic

2

Jaka jest różnica między wyborem funkcji a redukcją wymiarowości?

Wiem, że zarówno wybór funkcji, jak i redukcja wymiarów mają na celu zmniejszenie liczby cech w oryginalnym zestawie cech. Jaka jest dokładnie różnica między nimi, jeśli robimy to samo w obu z nich?

13 machine-learning pca feature-selection dimensionality-reduction

2

Jeśli p> n, lasso wybiera co najwyżej n zmiennych

Jedną z motywów elastycznej siatki było następujące ograniczenie LASSO: W przypadku lasso wybiera co najwyżej n zmiennych przed nasyceniem, ze względu na naturę problemu optymalizacji wypukłej. Wydaje się, że jest to cecha ograniczająca metodę wyboru zmiennych. Co więcej, lasso nie jest dobrze zdefiniowane, chyba że granica normy L1 współczynników jest …

13 regression optimization feature-selection lasso

2

Czy istnieją okoliczności, w których należy zastosować regresję stopniową?

W przeszłości stosowano regresję krokową w wielu pracach biomedycznych, ale wydaje się, że poprawia się to wraz z lepszą edukacją wielu zagadnień. Jednak wielu starszych recenzentów wciąż o to prosi. Jakie są okoliczności, w których regresja krokowa odgrywa rolę i powinna być stosowana, jeśli w ogóle?

13 regression multiple-regression feature-selection model-selection stepwise-regression

2

Dlaczego warto używać grupowego lasso zamiast lasso?

Przeczytałem, że grupa lasso służy do wyboru zmiennych i rzadkości w grupie zmiennych. Chcę poznać intuicję tego twierdzenia. Dlaczego lasso grupowe jest lepsze od lasso? Dlaczego ścieżka rozwiązania lasso grupowe nie jest fragmentarycznie liniowa?

13 regression feature-selection lasso regularization

1

Wyjaśnić kroki algorytmu LLE (lokalne osadzanie liniowe)?

Rozumiem, że podstawowa zasada algorytmu dla LLE składa się z trzech kroków. Znajdowanie sąsiedztwa każdego punktu danych za pomocą niektórych miar, takich jak k-nn. Znajdź wagi dla każdego sąsiada, które oznaczają wpływ sąsiada na punkt danych. Skonstruuj osadzanie danych w małych wymiarach na podstawie obliczonych wag. Ale matematyczne wyjaśnienie kroków …

13 machine-learning model-selection feature-selection dimensionality-reduction nonlinear

2

Kiedy LASSO wybiera skorelowane predyktory?

Korzystam z pakietu „lars” w języku R z następującym kodem: > library(lars) > set.seed(3) > n <- 1000 > x1 <- rnorm(n) > x2 <- x1+rnorm(n)*0.5 > x3 <- rnorm(n) > x4 <- rnorm(n) > x5 <- rexp(n) > y <- 5*x1 + 4*x2 + 2*x3 + 7*x4 + rnorm(n) …

13 correlation feature-selection lasso regularization ridge-regression

2

Znajdowanie najlepszych funkcji w modelach interakcji

Mam listę białek z ich wartościami funkcji. Przykładowa tabela wygląda następująco: ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 Rzędy to białka, a kolumny to cechy. Mam również listę białek, które również wchodzą w interakcje; na przykład Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 Problem : W celu wstępnej analizy chcę wiedzieć, które cechy …

13 machine-learning statistical-significance feature-selection networks

3

Rozkład prawdopodobieństwa grupowania - metody i mierniki?

Mam pewne punkty danych, każdy zawierający 5 wektorów aglomerowanych wyników dyskretnych, wyniki każdego wektora generowane przez inny rozkład (konkretny rodzaj, którego nie jestem pewien, najlepiej zgaduję, że Weibull, z parametrem kształtu zmieniającym się gdzieś w pobliżu wykładniczej mocy prawo (od 1 do 0, z grubsza).) Chcę użyć algorytmu klastrowania, takiego …

13 distributions clustering feature-selection kolmogorov-smirnov k-means

Pytania otagowane jako feature-selection