Próbuję dokonać wyboru modelu na niektórych predyktorach kandydujących przy użyciu LASSO z ciągłym wynikiem. Celem jest wybór optymalnego modelu o najlepszej wydajności predykcji, co zwykle można wykonać przez K-krotnie walidację krzyżową po uzyskaniu ścieżki rozwiązania parametrów strojenia z LASSO. Problem polega na tym, że dane pochodzą ze złożonego, wieloetapowego projektu ankiety (NHANES), z próbkowaniem i stratyfikacją klastrów. Część szacunkowa nie jest trudna, ponieważ glmnet
w R może przyjmować wzorce masy. Ale część dotycząca walidacji krzyżowej jest dla mnie mniej jasna, ponieważ obserwacje już nie są już dostępne, i w jaki sposób procedura może uwzględniać próbkowanie wag reprezentujących skończoną populację?
Więc moje pytania to:
1) Jak przeprowadzić K-krotnie weryfikację krzyżową ze złożonymi danymi pomiarowymi, aby wybrać optymalny parametr strojenia? Mówiąc dokładniej, jak odpowiednio podzielić przykładowe dane na zestawy szkoleniowe i walidacyjne? A jak zdefiniować oszacowanie błędu prognozy?
2) Czy istnieje alternatywny sposób wyboru optymalnego parametru strojenia?