Zdaję sobie sprawę z tego, że zmienne kategorialne o poziomach k powinny być kodowane zmiennymi k-1 w kodowaniu fikcyjnym (podobnie w przypadku wielowartościowych zmiennych jakościowych). Zastanawiałem się, w jakim stopniu problem polega na kodowaniu jednorazowym (tj. Zamiast tego przy użyciu zmiennych k) zamiast kodowaniu fikcyjnym dla różnych metod regresji, głównie regresji liniowej, karanej regresji liniowej (Lasso, Ridge, ElasticNet), opartym na drzewach (losowe lasy , maszyny zwiększające gradient).
Wiem, że w regresji liniowej występują problemy z wieloma kolinearnością (chociaż w praktyce dopasowałem regresję liniową za pomocą OHE bez żadnych problemów).
Czy jednak należy zastosować kodowanie pozorowane we wszystkich i jak błędne byłyby wyniki, gdyby zastosowano kodowanie jednorazowe?
Skupiam się na prognozowaniu w modelach regresji z wieloma zmiennymi kategorialnymi (o wysokiej kardynalności), więc nie interesują mnie przedziały ufności.