Mam duże dane ankietowe, binarną zmienną wyniku i wiele zmiennych objaśniających, w tym binarną i ciągłą. Buduję zestawy modeli (eksperymentuję zarówno z GLM, jak i mieszanym GLM) i wykorzystuję podejścia teoretyczne do wyboru najlepszego modelu. Dokładnie przeanalizowałem wyjaśnienia (zarówno ciągłe, jak i kategoryczne) pod kątem korelacji i używam tylko tych w tym samym modelu, które mają współczynnik Pearsona lub Phicorra mniejszy niż 0,3. Chciałbym dać wszystkim moim ciągłym zmiennym uczciwą szansę w walce o najlepszy model. Z mojego doświadczenia wynika, że przekształcanie potrzebujących w oparciu o pochylenie poprawia model, w którym uczestniczą (niższy AIC).
Moje pierwsze pytanie brzmi: czy to ulepszenie, ponieważ transformacja poprawia liniowość logit? Czy też poprawianie pochylenia poprawia równowagę zmiennych objaśniających, czyniąc dane bardziej symetrycznymi? Chciałbym zrozumieć matematyczne powody tego, ale na razie, gdyby ktoś mógł to wyjaśnić w prosty sposób, byłoby świetnie. Jeśli masz jakieś referencje, których mógłbym użyć, byłbym bardzo wdzięczny.
Wiele stron internetowych twierdzi, że ponieważ normalność nie jest założeniem w binarnej regresji logistycznej, nie przekształcaj zmiennych. Ale czuję, że nie przekształcając moich zmiennych, pozostawiam niektóre w niekorzystnej sytuacji w porównaniu do innych i może to wpływać na to, jaki jest najwyższy model i zmienia wnioskowanie (cóż, zwykle nie, ale w niektórych zestawach danych tak jest). Niektóre z moich zmiennych działają lepiej po przekształceniu logów, niektóre po podniesieniu do kwadratu (inny kierunek pochylenia), a niektóre nietransformowane.
Czy ktoś mógłby dać mi wskazówkę, na co należy uważać, przekształcając zmienne objaśniające do regresji logistycznej, a jeśli nie, to dlaczego nie?