Metoda regularyzacji modeli regresji, która zmniejsza współczynniki do zera, dzięki czemu niektóre z nich są równe zeru. W ten sposób lasso dokonuje wyboru funkcji.
Chcę użyć regresji Lasso lub regresji grzbietu dla modelu z ponad 50 000 zmiennych. Chcę to zrobić za pomocą pakietu oprogramowania w R. Jak mogę oszacować parametr skurczu ( λλ\lambda )? Edycje: Oto punkt, do którego doszedłem: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = …
Czy elastyczna regularyzacja sieci jest zawsze lepsza niż Lasso i Ridge, ponieważ wydaje się, że rozwiązuje ona wady tych metod? Czym jest intuicja i jaka matematyka kryje się za elastyczną siatką?
Jestem inżynierem oprogramowania uczącym się uczenia maszynowego, szczególnie poprzez kursy uczenia maszynowego Andrew Ng . Badając regresję liniową z regularyzacją , znalazłem terminy, które są mylące: Regresja z regularyzacją L1 lub regularyzacją L2 LASSO Regresja kalenicy Więc moje pytania: Czy regresja z regularyzacją L1 jest dokładnie taka sama jak LASSO? …
Jak porównują metody regulowania grzbietów, LASSO i elasticnetu? Jakie są ich zalety i wady? Doceniony zostanie również każdy dobry artykuł techniczny lub notatki z wykładu.
Czy można obliczyć wartości AIC lub BIC dla modeli regresji lasso i innych modeli znormalizowanych, w których parametry tylko częściowo wchodzą do równania. Jak określa się stopnie swobody? Używam R, aby dopasować modele regresji lasso z glmnet()funkcją z glmnetpakietu i chciałbym wiedzieć, jak obliczyć wartości AIC i BIC dla modelu. …
Uwaga: Wiem, że L1 ma właściwość wyboru funkcji. Próbuję zrozumieć, który wybrać, gdy wybór funkcji jest całkowicie nieistotny. Jak zdecydować, której regularyzacji (L1 lub L2) użyć? Jakie są zalety i wady każdej z regulacji L1 / L2? Czy zaleca się najpierw dokonać wyboru funkcji za pomocą L1, a następnie zastosować …
W przypadku LASSO (i innych procedur wyboru modelu) kluczowe jest przeskalowanie predyktorów. Ogólna rekomendacja śledzę to po prostu użyć 0, 1 średni normalizację standardowego odchylenia dla zmiennych ciągłych. Ale co to ma wspólnego z manekinami? Np. Niektóre zastosowane przykłady z tej samej (doskonałej) szkoły letniej powiązałem z przeskalowaniem zmiennych ciągłych, …
Korzystam z funkcji auto.arima () w pakiecie prognozy , aby dopasować modele ARMAX do różnych zmiennych towarzyszących. Jednak często mam dużą liczbę zmiennych do wyboru i zwykle kończę na ostatecznym modelu, który działa z ich podzbiorem. Nie lubię technik ad hoc do wybierania zmiennych, ponieważ jestem człowiekiem i podlegam tendencyjności, …
Problem lasso ma rozwiązanie w formie zamkniętej: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + jeśli X ma kolumny ortonormalne. Pokazano to w tym wątku: Wyprowadzenie …
Przeczytałem trzy główne powody standaryzacji zmiennych przed czymś takim jak Lassoregresja: 1) Interpretowalność współczynników. 2) Możliwość uszeregowania znaczenia współczynnika według względnej wielkości oszacowań współczynnika skurczu. 3) Nie ma potrzeby przechwytywania. Ale zastanawiam się nad najważniejszą kwestią. Czy mamy powody sądzić, że standaryzacja poprawiłaby generalizację modelu poza próbą? Nie obchodzi mnie …
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
Czytałem w wielu odnośnikach, że oszacowanie Lasso dla wektora parametru regresji jest równoważne trybowi tylnemu w którym poprzedni rozkład dla każdego jest podwójnym wykładniczym (znanym również jako rozkład Laplace'a).BBBBBBBiBiB_i Próbowałem to udowodnić, czy ktoś może dopracować szczegóły?
Kiedyś słyszałem metodę podwójnego użycia lassa (jak podwójne lasso), w której wykonuje się lasso na oryginalnym zestawie zmiennych, powiedzmy S1, uzyskuje rzadki zbiór o nazwie S2, a następnie ponownie wykonuje lasso na zestawie S2, aby uzyskać zestaw S3 . Czy istnieje na to termin metodologiczny? Jakie są zalety podwójnego robienia …
Dla regresji Lasso załóżmy że najlepsze rozwiązanie (na przykład minimalny błąd testowania) wybiera k funkcji, więc \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.