Wprowadzenie:
Mam zestaw danych z klasycznym „dużym problemem p, małym n”. Liczba dostępnych próbek n = 150, a liczba możliwych predyktorów p = 400. Wynik jest zmienną ciągłą.
Chcę znaleźć najważniejsze „deskryptory”, tj. Te, które są najlepszymi kandydatami do wyjaśnienia wyniku i pomocy w zbudowaniu teorii.
Po badaniach na ten temat odkryłem, że LASSO i elastyczna siatka są powszechnie stosowane w przypadku dużych p, małych n. Niektóre z moich predyktorów są wysoce skorelowane i chcę zachować ich zgrupowania w ocenie ważności, dlatego zdecydowałem się na elastyczną sieć . Przypuszczam, że mogę użyć bezwzględnych wartości współczynników regresji jako miary ważności (popraw mnie, jeśli się mylę; mój zestaw danych jest znormalizowany).
Problem:
Ponieważ moja liczba próbek jest niewielka, jak mogę uzyskać stabilny model?
Moje obecne podejście polega na znalezieniu najlepszych parametrów dostrajania (lambda i alfa) w wyszukiwaniu siatki w 90% zbioru danych z 10-krotnym uśrednianiem wyników MSE w ramach krzyżowej weryfikacji. Następnie trenuję model z najlepszymi parametrami dostrajania na całym 90% zbioru danych. Jestem w stanie ocenić mój model za pomocą R podniesionego do kwadratu na wstrzymaniu 10% zbioru danych (co stanowi tylko 15 próbek).
Powtarzając tę procedurę, znalazłem dużą wariancję ocen kwadratowych R. Również liczba niezerowanych predyktorów jest różna, a także ich współczynniki.
Jak mogę uzyskać bardziej stabilną ocenę znaczenia predyktorów i bardziej stabilną ocenę wydajności modelu końcowego?
Czy mogę wielokrotnie uruchamiać procedurę, aby utworzyć wiele modeli, a następnie średnie współczynniki regresji? Czy powinienem użyć liczby wystąpień predyktora w modelach jako jego oceny ważności?
Obecnie mam około 40-50 niezerowanych predyktorów. Czy powinienem mocniej karać liczbę predyktorów, aby uzyskać lepszą stabilność?