Statystyki i duże zbiory danych ridge-regression

3

Kiedy powinienem używać lasso kontra grzbiet?

Powiedzmy, że chcę oszacować dużą liczbę parametrów i chcę ukarać niektóre z nich, ponieważ uważam, że powinny one mieć niewielki wpływ w porównaniu z innymi. Jak zdecydować, jakiego schematu kary użyć? Kiedy regresja kalenicy jest bardziej odpowiednia? Kiedy powinienem używać lasso?

167 regression lasso ridge-regression

6

Dlaczego norma L1 dla rzadkich modeli

Czytam książki o regresji liniowej. Istnieje kilka zdań na temat norm L1 i L2. Znam je, po prostu nie rozumiem, dlaczego norma L1 dla rzadkich modeli. Czy ktoś może użyć prostego wyjaśnienia?

97 regression lasso regularization ridge-regression

2

Kiedy stosować metody regularyzacji do regresji?

W jakich okolicznościach należy rozważyć zastosowanie metod regularyzacji (regresja kalenicy, lasso lub najmniejszych kątów) zamiast OLS? W przypadku gdy pomaga to w prowadzeniu dyskusji, moim głównym zainteresowaniem jest poprawienie dokładności predykcyjnej.

83 regression least-squares lasso ridge-regression fused-lasso

2

Dlaczego regresja kalenicy nazywa się „kalenicą”, dlaczego jest potrzebna i co dzieje się, gdy przechodzi w nieskończoność?

Szacunkowy współczynnik regresji grzbietu to wartości, które minimalizująβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Moje pytania to: Jeśli , to widzimy, że powyższe wyrażenie redukuje się do zwykłego RSS. Co jeśli ? Nie rozumiem wyjaśnienia podręcznika dotyczącego zachowania współczynników.λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty Dlaczego, aby pomóc w zrozumieniu koncepcji danego terminu, …

71 ridge-regression statistical-learning history

5

Ujednolicony pogląd na kurczenie się: jaka jest relacja (jeśli występuje) między paradoksem Steina, regresją grzbietu i efektami losowymi w modelach mieszanych?

Rozważ następujące trzy zjawiska. Paradoks Steina: biorąc pod uwagę niektóre dane z wielowymiarowego rozkładu normalnego w Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 , średnia próbki nie jest bardzo dobrym estymatorem prawdziwej średniej. Można uzyskać oszacowanie z niższym średnim błędem do kwadratu, jeśli zmniejsza się wszystkie współrzędne średniej próbki w kierunku zera …

64 regression mixed-model ridge-regression shrinkage steins-phenomenon

5

Jaki problem rozwiązują metody skurczu?

Sezon wakacyjny dał mi możliwość zwinięcia się przy kominku dzięki elementom statystycznego uczenia się . Z perspektywy (częstej) ekonometrii mam problem z uchwyceniem zastosowania metod skurczu, takich jak regresja grzbietu, lasso i regresja najmniejszego kąta (LAR). Zazwyczaj interesują mnie same oszacowania parametrów i osiągnięcie bezstronności lub przynajmniej spójności. Metody skurczowe …

61 lasso ridge-regression shrinkage lars

3

Dlaczego ocena grzbietu staje się lepsza niż OLS poprzez dodanie stałej do przekątnej?

Rozumiem, że oszacowanie regresji grzbietu to która minimalizuje resztkową sumę kwadratu i kara za rozmiarββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Jednak nie do końca rozumiem znaczenie faktu, że βridgeβridge\beta_\text{ridge} różni się od βOLSβOLS\beta_\text{OLS} , dodając jedynie małą stałą do przekątnej X′XX′XX'X . W …

59 regression least-squares ridge-regression shrinkage

2

Dlaczego skurcz działa?

W celu rozwiązania problemów związanych z wyborem modelu, szereg metod (LASSO, regresja kalenicy itp.) Zmniejszy współczynniki zmiennych predykcyjnych w kierunku zera. Szukam intuicyjnego wyjaśnienia, dlaczego poprawia to zdolność przewidywania. Jeśli prawdziwy efekt zmiennej był w rzeczywistości bardzo duży, dlaczego skurczenie parametru nie spowoduje gorszej prognozy?

55 lasso regularization ridge-regression intuition shrinkage

6

Czy regresja kalenicy jest bezużyteczna w dużych wymiarach ( )? W jaki sposób OLS może się nie dopasowywać?

Rozważ dobry stary problem regresji z predyktorami i wielkością próby . Zazwyczaj mądrość jest taka, że estymator OLS będzie nadrzędny i generalnie będzie lepszy niż estymator regresji grzbietu:Standardowe jest stosowanie weryfikacji krzyżowej w celu znalezienia optymalnego parametru regularyzacji . Tutaj używam 10-krotnego CV. Aktualizacja wyjaśnienia: gdy , przez „estymator OLS” …

50 cross-validation regularization overfitting ridge-regression shrinkage

5

Jak uzyskać rozwiązanie regresji kalenicy?

Mam pewne problemy z wyprowadzeniem rozwiązania regresji kalenicowej. Znam rozwiązanie regresji bez terminu regularyzacji: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Ale po dodaniu terminu L2 do funkcji kosztu, w jaki sposób rozwiązanie staje sięλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

40 regression least-squares regularization ridge-regression

2

Jeśli interesująca jest tylko prognoza, po co używać lasso nad grzbietem?

Na stronie 223 we wstępie do nauki statystycznej autorzy podsumowują różnice między regresją grzbietu a lasso. Podają przykład (ryc. 6.9), kiedy „lasso ma tendencję do przewyższania regresji grzbietu pod względem stronniczości, wariancji i MSE”. Rozumiem, dlaczego lasso może być pożądane: skutkuje rzadkimi rozwiązaniami, ponieważ zmniejsza wiele współczynników do 0, co …

37 machine-learning prediction lasso regularization ridge-regression

3

Dlaczego widzimy tylko regularyzację

Jestem tylko ciekawy, dlaczego zwykle norm i . Czy istnieją dowody, dlaczego są one lepsze?L1L1L_1L2L2L_2

36 lasso regularization ridge-regression

1

Kiedy zagnieżdżona weryfikacja krzyżowa jest naprawdę potrzebna i może mieć praktyczny wpływ?

Korzystając z walidacji krzyżowej w celu dokonania wyboru modelu (np. Strojenia hiperparametrów) i oceny wydajności najlepszego modelu, należy zastosować zagnieżdżoną walidację krzyżową . Pętla zewnętrzna służy do oceny wydajności modelu, a pętla wewnętrzna służy do wyboru najlepszego modelu; model jest wybierany na każdym zewnętrznym zestawie treningowym (przy użyciu wewnętrznej pętli …

36 cross-validation model-selection ridge-regression

3

Jak oszacować parametr skurczu w regresji Lasso lub regresji kalenicowej przy zmiennych> 50K?

Chcę użyć regresji Lasso lub regresji grzbietu dla modelu z ponad 50 000 zmiennych. Chcę to zrobić za pomocą pakietu oprogramowania w R. Jak mogę oszacować parametr skurczu ( λλ\lambda )? Edycje: Oto punkt, do którego doszedłem: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = …

36 r lasso ridge-regression high-dimensional

2

Co to jest regularyzacja elastyczna i jak rozwiązuje wady Ridge ( ) i Lasso ( )?

Czy elastyczna regularyzacja sieci jest zawsze lepsza niż Lasso i Ridge, ponieważ wydaje się, że rozwiązuje ona wady tych metod? Czym jest intuicja i jaka matematyka kryje się za elastyczną siatką?

35 regression lasso regularization ridge-regression elastic-net

Pytania otagowane jako ridge-regression