Do tej pory usunąłem zmienne współliniowe w ramach procesu przygotowania danych, patrząc na tabele korelacji i eliminując zmienne, które przekraczają pewien próg. Czy istnieje bardziej akceptowany sposób na zrobienie tego? Ponadto jestem świadomy, że patrzenie tylko na korelację między 2 zmiennymi jednocześnie nie jest idealne, pomiary takie jak VIF uwzględniają potencjalną korelację między kilkoma zmiennymi. Jak można systematycznie wybierać kombinacje zmiennych, które nie wykazują wielokoliniowości?
Mam swoje dane w ramce danych pand i używam modeli sklearn.