W zbiorze danych dwóch nie pokrywających się populacji (pacjenci i osoby zdrowe, ogółem ) chciałbym znaleźć (spośród zmiennych niezależnych) znaczące predyktory dla zmiennej zależnej ciągłej. Występuje korelacja między predyktorami. Chcę dowiedzieć się, czy któryś z predyktorów jest powiązany ze zmienną zależną „w rzeczywistości” (zamiast przewidywać zmienną zależną tak dokładnie, jak to możliwe). Ponieważ byłem przytłoczony wieloma możliwymi podejściami, chciałbym zapytać, które podejście jest najbardziej zalecane.
Z mojego rozumienia nie jest zalecane stopniowe włączanie lub wyłączanie predyktorów
Np. Uruchom regresję liniową osobno dla każdego predyktora i popraw wartości p dla wielokrotnego porównania przy użyciu FDR (prawdopodobnie bardzo zachowawczy?)
Regresja składowych głównych: trudna do interpretacji, ponieważ nie będę w stanie powiedzieć o mocy predykcyjnej poszczególnych predyktorów, ale tylko o składnikach.
jakieś inne sugestie?