Uwzględnienie dodatkowych ograniczeń (zwykle kara za złożoność) w procesie dopasowania modelu. Służy do zapobiegania przeuczeniu / zwiększenia dokładności predykcyjnej.
Chciałbym uzyskać współczynniki dla problemu LASSO | | Y- Xβ| | +λ | | β| |1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. Problem polega na tym, że funkcje glmnet i lars dają różne odpowiedzi. Dla funkcji glmnet proszę o współczynniki λ / | | Y| |λ/||Y||\lambda/||Y||zamiast po prostu λλ\lambda , ale wciąż otrzymuję różne odpowiedzi. …
Jakie są zalety i wady korzystania z LARS [1] w porównaniu ze stosowaniem opadania współrzędnych w celu dopasowania regresji liniowej regulowanej przez L1? Interesują mnie głównie aspekty wydajności (moje problemy występują zwykle Nw setkach tysięcy i p<20). Jednak wszelkie inne spostrzeżenia byłyby również mile widziane. edytuj: Od kiedy opublikowałem pytanie, …
Przeczytałem, że grupa lasso służy do wyboru zmiennych i rzadkości w grupie zmiennych. Chcę poznać intuicję tego twierdzenia. Dlaczego lasso grupowe jest lepsze od lasso? Dlaczego ścieżka rozwiązania lasso grupowe nie jest fragmentarycznie liniowa?
Chciałbym porównać modele wybrane z kalenicą, lasso i elastyczną siatką. Ryc. Poniżej pokazuje ścieżki współczynników przy użyciu wszystkich 3 metod: grzbietu (ryc. A, alfa = 0), lasso (ryc. B; alfa = 1) i elastycznej siatki (ryc. C; alfa = 0,5). Optymalne rozwiązanie zależy od wybranej wartości lambda, która jest wybierana …
Oto przykładowy kod keras, który go używa: from keras.constraints import max_norm model.add(Convolution2D(32, 3, 3, input_shape=(3, 32, 32), border_mode='same', activation='relu', kernel_constraint=max_norm(3)))
Coraz częściej słyszę te słowa, ucząc się uczenia maszynowego. W rzeczywistości niektórzy ludzie zdobyli medal Fieldsa, pracując nad prawidłowością równań. Sądzę więc, że jest to termin, który przenosi się z fizyki statystycznej / matematyki na uczenie maszynowe. Oczywiście wiele osób, o które pytałem, nie mogło tego intuicyjnie wyjaśnić. Wiem, że …
Czy ktoś może skierować mnie w stronę internetowego (rekurencyjnego) algorytmu regularyzacji Tichonowa (uregulowane najmniejsze kwadraty)? W trybie offline obliczyłem β^=(XTX+λI)−1XTYβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TY przy użyciu mojego oryginalnego zestawu danych, w którym znaleziono λλλ przy użyciu n-krotnej weryfikacji krzyżowej. Nową wartość yyy można przewidzieć dla danego xxx używając y=xTβ^y=xTβ^y=x^T\hat\beta . W trybie online ciągle …
Chciałbym zadać to pytanie w dwóch częściach. Oba dotyczą uogólnionego modelu liniowego, ale pierwszy dotyczy wyboru modelu, a drugi dotyczy regularyzacji. Tło: Używam modeli GLM (liniowych, logistycznych, regresji gamma) zarówno do prognozowania, jak i do opisu. Kiedy odnoszę się do „ normalnych rzeczy, które robi się z regresją ”, mam …
Czy są jakieś dobre artykuły lub książki dotyczące wykorzystania opadania współrzędnych dla L1 (lasso) i / lub regularyzacji elastycznej siatki dla problemów z regresją liniową?
argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc Czy istnieje podobne twierdzenie dotyczące lasso? Jeśli istnieje takie twierdzenie, nie tylko zagwarantuje ono stabilność lasso, ale także zapewni lasso bardziej sensowną interpretację: lasso może odkryć wektor współczynnika regresji rzadkiej ccc który jest używany do …
Szukam literatury na temat negatywnej regresji kalenicy . W skrócie, jest to uogólnienie regresji liniowej grzbiet wykluczających λλ\lambda we wzorze β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.Przypadek pozytywny ma ładną teorię: jako funkcję straty, jako ograniczenie, jako wcześniejsze Bayesa ... ale czuję się zagubiony w wersji negatywnej …
Mam już pojęcie o zaletach i wadach regresji grzbietu i LASSO. W przypadku LASSO kara karna L1 da rzadki wektor współczynnika, który można postrzegać jako metodę wyboru cech. Istnieją jednak pewne ograniczenia dotyczące LASSO. Jeśli funkcje mają wysoką korelację, LASSO wybierze tylko jedną z nich. Ponadto w przypadku problemów, w …
Tymczasem studiuję LASSO ( operator najmniejszego bezwzględnego skurczu i operatora selekcji). Widzę, że optymalną wartość parametru regularyzacji można wybrać poprzez weryfikację krzyżową. Widzę również w regresji grzbietu i wielu metodach, które stosują regularyzację, możemy użyć CV, aby znaleźć optymalny parametr regularyzacji (mówiąc karę). Teraz moje pytanie dotyczy początkowych wartości górnej …
Aby zapobiec nadmiernemu dopasowywaniu się ludzi, dodaj funkcję regularyzacji (proporcjonalną do kwadratowej sumy parametrów modelu) z parametrem regularyzacji do funkcji kosztu regresji liniowej. Czy ten parametr taki sam jak mnożnik lagrange'a? Czy zatem regularyzacja jest taka sama jak metoda mnożnika lagrange'a? Lub w jaki sposób te metody są połączone? λλλ\lambdaλλ\lambda
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.