Kiedy usunąć skorelowane zmienne


Odpowiedzi:


8

Nie chcesz usuwać wszystkich skorelowanych zmiennych. Tylko wtedy, gdy korelacja jest tak silna, że ​​nie przekazują dodatkowych informacji. Jest to zarówno funkcja siły korelacji, ilości danych, jak i tego, czy w ogóle jakaś niewielka różnica między skorelowanymi zmiennymi mówi coś o wyniku.

Pierwsze dwa, które możesz powiedzieć, zanim zrobisz jakiś model, ostatni nie. Dlatego może być bardzo rozsądne usunięcie zmiennych w oparciu o kombinację dwóch pierwszych czynników (tj. Nawet jeśli dodatkowe zmienne mogą w zasadzie zawierać przydatne informacje, nie byłbyś w stanie stwierdzić, biorąc pod uwagę siłę korelacji i ilość danych masz) przed wykonaniem jakiegokolwiek modelowania / inżynierii funkcji. Ostatnią kwestię można naprawdę ocenić dopiero po wykonaniu pewnego modelowania.


2

Dziwne, że nikt inny nie wspomniał o interpretacji .

Jeśli chodzi tylko o wydajność , nie ma sensu usuwanie dwóch skorelowanych zmiennych, chyba że korelacja = 1 lub -1, w którym to przypadku jedna ze zmiennych jest zbędna.

Jeśli jednak obawia się interpretowalności, sensowne może być usunięcie jednej ze zmiennych, nawet jeśli korelacja jest łagodna. Jest to szczególnie prawdziwe w przypadku modeli liniowych. Jednym z założeń regresji liniowej jest brak doskonałej wielokoliniowości w predyktorach.

Jeśli A jest skorelowane z B, to nie możesz interpretować współczynników ani A, ani B. Aby zrozumieć dlaczego, wyobraź sobie skrajny przypadek, gdy A = B (idealna korelacja). Następnie model y = 100 * A + 50 * B jest taki sam jak model y = 5 * A + 10 * B lub y = -2000 * A + 4000 * B. W możliwych rozwiązaniach problemu najmniejszej kwadratowej minimalizacji istnieje wiele równowagi, dlatego też nie można „zaufać”.

Podobne rzeczy mogą się zdarzyć w przypadku innych modeli. Na przykład, jeśli A jest bardzo skorelowane z B, to jeśli drzewo decyzyjne wybiera A dwukrotnie razy B, to nie możesz powiedzieć, że A jest ważniejsze niż B. Jeśli przekwalifikujesz model, mogłoby się zdarzyć odwrotnie.




Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.