Próbuję znaleźć korelację między zmienną dychotomiczną i zmienną ciągłą.
Na podstawie moich prac nad tym stwierdziłem, że muszę zastosować niezależny test t, a warunkiem tego jest, aby rozkład zmiennej był normalny.
Przeprowadziłem test Kołmogorowa-Smirnowa w celu przetestowania normalności i stwierdziłem, że zmienna ciągła jest nienormalna i jest wypaczona (dla około 4000 punktów danych).
Zrobiłem test Kołmogorowa-Smirnowa dla całego zakresu zmiennych. Czy powinienem podzielić je na grupy i wykonać test? Tj. Powiedzmy, jeśli mam risk level
( 0
= nie ryzykowne, 1
= ryzykowne) i poziomy cholesterolu, to powinienem:
Podziel je na dwie grupy
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Zebrać je razem i zastosować test? (Wykonałem to tylko dla całego zestawu danych).
Po czym, co powinienem zrobić, jeśli nadal jest nienormalny?
EDYCJA: Powyższy scenariusz był tylko opisem, który starałem się podać dla mojego problemu. Mam zestaw danych, który zawiera ponad 1000 zmiennych i około 4000 próbek. Mają charakter ciągły lub kategoryczny. Moim zadaniem jest przewidzieć zmienną dychotomiczną na podstawie tych zmiennych (być może wymyślić model regresji logistycznej). Pomyślałem więc, że wstępne badanie będzie polegało na znalezieniu korelacji między zmienną dychotomiczną a zmienną ciągłą.
Próbowałem zobaczyć, jak wygląda rozkład zmiennych, i dlatego próbowałem przejść do testu t. Tutaj znalazłem normalność jako problem. Test Kołmogorowa-Smirnowa dał wartość istotności 0,00 dla większości z tych zmiennych.
Czy powinienem tu zakładać normalność? Skośność i kurtoza tych zmiennych pokazują również, że dane są wypaczone (> 0) w prawie wszystkich przypadkach.
Zgodnie z uwagą podaną poniżej zbadam dalej korelację punktowo-biserialną. Ale co do rozkładu zmiennych wciąż nie jestem pewien.