[Podobne pytanie zostało zadane tutaj bez odpowiedzi]
Dopasowałem model regresji logistycznej z regularyzacją L1 (regresja logistyczna Lasso) i chciałbym przetestować dopasowane współczynniki pod kątem istotności i uzyskać ich wartości p. Wiem, że testy Walda (na przykład) są opcją testowania znaczenia poszczególnych współczynników w pełnej regresji bez regularyzacji, ale w przypadku Lasso myślę, że pojawiają się dalsze problemy, które nie pozwalają na zastosowanie zwykłych formuł Walda. Na przykład szacunki wariancji potrzebne do testu nie są zgodne ze zwykłymi wyrażeniami. Oryginalny papier Lasso
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
sugeruje procedurę opartą na bootstrapie, aby oszacować wariancję współczynników, która (jak sądzę) może być potrzebna do testów (sekcja 2.5, ostatni akapit strony 272 i początek 273):
Jedno podejście polega na bootstrapie: albo można naprawić, albo możemy zoptymalizować ponad dla każdej próbki bootstrap. Naprawianie jest analogiczne do wybierania najlepszego podzbioru ( funkcji ), a następnie używania błędu standardowego najmniejszych kwadratów dla tego podzbiorut t
Rozumiem: dopasuj regresję Lasso wielokrotnie do całego zestawu danych, aż znajdziemy optymalną wartość parametru regularyzacji (nie jest to część bootstrap), a następnie użyj tylko funkcji wybranych przez Lasso, aby dopasować regresje OLS do podpróbek danych i zastosuj zwykłe formuły, aby obliczyć wariancje dla każdej z tych regresji. (I co powinienem zrobić z tymi wszystkimi wariancjami każdego współczynnika, aby uzyskać ostateczną ocenę wariancji dla każdego współczynnika?)
Ponadto, czy właściwe jest stosowanie zwykłych testów istotności (na przykład testu Walda, który wykorzystuje oszacowane bety i wariancje) z oszacowaniami Lasso współczynników i wariancji szacowanych na początku ładowania? Jestem całkiem pewien, że tak nie jest, ale jakakolwiek pomoc (skorzystaj z innego testu, zastosuj prostsze podejście, niezależnie od tego ...) jest mile widziana.
Według odpowiedzi tutaj podejrzewam, że wnioskowania i wartości p po prostu nie można uzyskać. W moim przypadku wartości p są wymogiem zewnętrznym (chociaż wybór regularyzacji L1 był moim wyborem).
Wielkie dzięki
EDYCJA Co się stanie, jeśli dopasuję regresję logistyczną OLS, używając tylko zmiennych wybranych w poprzednim przebiegu regresji logistycznej Lasso? Najwyraźniej (patrz tutaj ),
Nie ma potrzeby ponownego uruchamiania modelu po przeprowadzeniu walidacji krzyżowej (otrzymujesz współczynniki z danych wyjściowych cv.glmnet), a w rzeczywistości, jeśli dopasujesz nowy model regresji logistycznej bez kary, to nie udaje Ci się użyć lasso
Ale co jeśli zrobię to wyłącznie w celu obliczenia wartości p przy jednoczesnym utrzymaniu niskiej liczby zmiennych? Czy to bardzo brudne podejście? :-)