Metoda regularyzacji modeli regresji, która zmniejsza współczynniki do zera, dzięki czemu niektóre z nich są równe zeru. W ten sposób lasso dokonuje wyboru funkcji.
Jakie są zalety i wady korzystania z LARS [1] w porównaniu ze stosowaniem opadania współrzędnych w celu dopasowania regresji liniowej regulowanej przez L1? Interesują mnie głównie aspekty wydajności (moje problemy występują zwykle Nw setkach tysięcy i p<20). Jednak wszelkie inne spostrzeżenia byłyby również mile widziane. edytuj: Od kiedy opublikowałem pytanie, …
Przeczytałem, że grupa lasso służy do wyboru zmiennych i rzadkości w grupie zmiennych. Chcę poznać intuicję tego twierdzenia. Dlaczego lasso grupowe jest lepsze od lasso? Dlaczego ścieżka rozwiązania lasso grupowe nie jest fragmentarycznie liniowa?
Szukam jakiegoś open source lub istniejącej biblioteki, której mogę użyć. O ile mówię, pakiet glmnet nie jest łatwo rozszerzalny, aby objąć przypadek nieujemny. Mogę się mylić, każdy z wszelkimi pomysłami bardzo cenionymi. Przez nieujemne rozumiem, że wszystkie współczynniki są ograniczone do dodatnich (> 0).
Zou i in. „O„ stopniach swobody lasso ” (2007) pokazują, że liczba niezerowych współczynników jest obiektywnym i spójnym oszacowaniem dla stopni swobody lasso. Wydaje mi się to trochę sprzeczne z intuicją. Załóżmy, że mamy model regresji (gdzie zmienne mają średnią zerową) y= βx + ε .y=βx+ε.y=\beta x + \varepsilon. Załóżmy, …
Próbuję zrozumieć, w jaki sposób można zmodyfikować algorytm Larsa w celu wygenerowania Lasso. Chociaż rozumiem LARS, nie jestem w stanie zobaczyć modyfikacji Lasso z pracy Tibshirani i in. W szczególności nie rozumiem, dlaczego warunek znaku w tym, że znak niezerowej współrzędnej musi zgadzać się ze znakiem bieżącej korelacji. Czy ktoś …
Czy są jakieś dobre artykuły lub książki dotyczące wykorzystania opadania współrzędnych dla L1 (lasso) i / lub regularyzacji elastycznej siatki dla problemów z regresją liniową?
Dopasowuję regresję liniową regulowaną przez L1 do bardzo dużego zestawu danych (z n >> p.) Zmienne są znane z góry, ale obserwacje pojawiają się w małych porcjach. Chciałbym utrzymać dopasowanie lasso po każdym kawałku. Mogę oczywiście dopasować cały model po obejrzeniu każdego nowego zestawu obserwacji. Byłoby to jednak dość nieefektywne, …
Zaprogramowałem regresję logistyczną przy użyciu algorytmu IRLS . Chciałbym zastosować karę LASSO , aby automatycznie wybrać odpowiednie funkcje. Przy każdej iteracji rozwiązuje się następujące kwestie: (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} Niech będzie nieujemną liczbą rzeczywistą. Nie penalizuję przechwytywania, jak sugerowano w The Elements of. Nauka statystyczna . To samo dotyczy już zerowych współczynników. …
Według odniesień Księga 1 , Księga 2 i papier . Wspomniano, że istnieje równoważność między regresją regulowaną (Ridge, LASSO i Elastic Net) a ich formułami ograniczeń. Patrzyłem również na Cross Validated 1 i Cross Validated 2 , ale nie widzę wyraźnej odpowiedzi pokazującej, że równoważność lub logika. Moje pytanie brzmi …
Czytałem w kilku miejscach, że R Squared nie jest idealną miarą, gdy model jest dopasowany przy użyciu LASSO. Jednak nie jestem do końca pewien , dlaczego tak jest. Ponadto, czy możesz polecić najlepszą alternatywę?
argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc Czy istnieje podobne twierdzenie dotyczące lasso? Jeśli istnieje takie twierdzenie, nie tylko zagwarantuje ono stabilność lasso, ale także zapewni lasso bardziej sensowną interpretację: lasso może odkryć wektor współczynnika regresji rzadkiej ccc który jest używany do …
Obecnie pracuję nad budowaniem modelu predykcyjnego dla wyniku binarnego na zbiorze danych z ~ 300 zmiennymi i 800 obserwacjami. Dużo przeczytałem na tej stronie o problemach związanych z regresją krokową i dlaczego jej nie używać. Czytałem o regresji LASSO i jej możliwościach wyboru funkcji i udało mi się ją wdrożyć …
Mam już pojęcie o zaletach i wadach regresji grzbietu i LASSO. W przypadku LASSO kara karna L1 da rzadki wektor współczynnika, który można postrzegać jako metodę wyboru cech. Istnieją jednak pewne ograniczenia dotyczące LASSO. Jeśli funkcje mają wysoką korelację, LASSO wybierze tylko jedną z nich. Ponadto w przypadku problemów, w …
Tymczasem studiuję LASSO ( operator najmniejszego bezwzględnego skurczu i operatora selekcji). Widzę, że optymalną wartość parametru regularyzacji można wybrać poprzez weryfikację krzyżową. Widzę również w regresji grzbietu i wielu metodach, które stosują regularyzację, możemy użyć CV, aby znaleźć optymalny parametr regularyzacji (mówiąc karę). Teraz moje pytanie dotyczy początkowych wartości górnej …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.