Regresja LASSO zmniejsza współczynniki do zera, zapewniając w ten sposób efektywny wybór modelu. Uważam, że w moich danych występują znaczące interakcje między zmiennymi nominalnymi i ciągłymi zmiennymi towarzyszącymi. Jednak niekoniecznie „główne efekty” prawdziwego modelu są znaczące (niezerowe). Oczywiście tego nie wiem, ponieważ prawdziwy model jest nieznany. Moim celem jest znalezienie prawdziwego modelu i jak najdokładniejsze przewidzenie wyniku.
Dowiedziałem się, że klasyczne podejście do budowy modelu zawsze zawierałoby główny efekt przed uwzględnieniem interakcji. Zatem nie może istnieć model bez głównego efektu dwóch zmiennych towarzyszących i Z, jeżeli występuje interakcja zmiennych towarzyszących X ∗ Z w tym samym modelu. Funkcja w konsekwencji starannie dobiera warunkach modelowych (np na podstawie tyłu lub do przodu AIC) przestrzeganie tej zasady.step
R
LASSO wydaje się działać inaczej. Ponieważ wszystkie parametry są karane, bez wątpienia główny efekt może zostać zmniejszony do zera, podczas gdy interakcja najlepszego (np. Walidowanego krzyżowo) modelu jest niezerowa. Znajduję to w szczególności dla moich danych podczas korzystania R
z glmnet
pakietu.
Otrzymałem krytykę w oparciu o pierwszą cytowaną powyżej zasadę, tj. Mój ostateczny model Lasso z walidacją krzyżową nie zawiera odpowiednich warunków głównego efektu niektórych niezerowych interakcji. Jednak zasada ta wydaje się nieco dziwna w tym kontekście. Sprowadza się do pytania, czy parametr w prawdziwym modelu wynosi zero. Załóżmy, że tak, ale interakcja nie jest równa zero, wtedy LASSO może to zidentyfikować, znajdując w ten sposób właściwy model. W rzeczywistości wydaje się, że przewidywania z tego modelu będą bardziej precyzyjne, ponieważ model nie zawiera efektu głównego zero, który faktycznie jest zmienną szumu.
Czy mogę odrzucić krytykę opartą na tej podstawie, czy też powinienem w jakiś sposób uprzedzić, że LASSO zawiera główny efekt przed terminem interakcji?