Przeprowadzam analizę, w której głównym celem jest zrozumienie danych. Zestaw danych jest wystarczająco duży do weryfikacji krzyżowej (10k), a predyktory obejmują zarówno zmienne ciągłe, jak i zmienne, a wynik jest ciągły. Głównym celem było sprawdzenie, czy sensowne jest wyrzucenie niektórych predyktorów, aby ułatwić interpretację modelu.
Pytania:
Moje pytanie brzmi: „które zmienne wyjaśniają wynik i są„ wystarczająco silną ”częścią tego wyjaśnienia”. Ale aby wybrać parametr lambda dla lasso, używasz walidacji krzyżowej, tzn. Kryterium prognostycznym. Czy podczas wnioskowania, trafność predykcyjna jest wystarczająco dobrym proxy dla ogólnego pytania, które zadaję?
Powiedzmy, że LASSO zachowało tylko 3 z 8 predyktorów. A teraz zadaję sobie pytanie: „jaki wpływ mają one na wynik”. Na przykład znalazłem różnicę płci. Po skurczeniu się lasso współczynnik sugeruje, że kobiety osiągają 1 punkt wyżej niż mężczyźni. Ale bez skurczu (tj. W rzeczywistym zbiorze danych) osiągają 2,5 punktu wyżej.
- Który wziąłbym za „prawdziwy” efekt płci? Opierając się wyłącznie na trafności predykcyjnej, byłby to współczynnik skurczony.
- Lub w kontekście powiedz, że piszę raport dla osób, które nie są dobrze zorientowane w statystyce. Jaki współczynnik chciałbym im zgłosić?