Mam zestaw danych z około 5000 często skorelowanych cech / zmiennych towarzyszących i odpowiedzią binarną. Dane zostały mi przekazane, nie zebrałem ich. Używam Lasso i funkcji zwiększania gradientu do budowy modeli. Używam iteracji, zagnieżdżonej weryfikacji krzyżowej. Podaję największe (bezwzględne) 40 współczynników Lasso i 40 najważniejszych cech drzew o podwyższonym gradiencie (w 40 nie było nic specjalnego; wydawało się, że to rozsądna ilość informacji). Zgłaszam również wariancję tych ilości w fałdach i iteracjach CV.
W pewnym sensie zastanawiam się nad „ważnymi” cechami, nie wypowiadając się na temat wartości p, przyczynowości itp., Ale zamiast tego uważam ten proces za pewnego rodzaju - choć niedoskonały i przypadkowy - wgląd w jakieś zjawisko.
Zakładając, że zrobiłem to wszystko poprawnie (np. Poprawnie wykonałem weryfikację krzyżową, skalowaną dla lasso), czy takie podejście jest rozsądne? Czy występują problemy z np. Testowaniem wielu hipotez, analizą post hoc, fałszywym odkryciem? Lub inne problemy?
Cel
Przewiduj prawdopodobieństwo wystąpienia zdarzenia niepożądanego
- Przede wszystkim dokładnie oszacuj prawdopodobieństwo
- Bardziej drobne - w ramach kontroli poczytalności, ale także w celu ujawnienia niektórych nowych predyktorów, które można by dalej zbadać, sprawdzić współczynniki i znaczenie, jak wspomniano powyżej.
Konsument
- Naukowcy zainteresowani przewidywaniem tego wydarzenia i osobami, które w końcu będą musiały naprawić wydarzenie, jeśli nastąpi
Co chcę, żeby się z tego wydostali
Daj im możliwość przewidywania zdarzenia, jeśli chcą powtórzyć proces modelowania, zgodnie z opisem, z własnymi danymi.
Rzuć nieco światła na nieoczekiwane predyktory. Na przykład może się okazać, że coś zupełnie nieoczekiwanego jest najlepszym predyktorem. Modelerze w innych krajach mogą zatem poważniej rozważyć wspomniany predyktor.