Jaka jest najlepsza strategia w wielokrotnej regresji liniowej z wysoce skorelowanymi regresorami? Czy uzasadnione jest dodanie produktu wszystkich skorelowanych regresorów?
Jaka jest najlepsza strategia w wielokrotnej regresji liniowej z wysoce skorelowanymi regresorami? Czy uzasadnione jest dodanie produktu wszystkich skorelowanych regresorów?
Odpowiedzi:
Główne elementy mają wiele sensu ... matematycznie. Byłbym jednak ostrożny przy użyciu matematyki w tym przypadku i mam nadzieję, że nie będę musiał myśleć o swoim problemie.
Poleciłbym trochę zastanowić się, jaki rodzaj predyktorów mam, czym jest zmienna niezależna, dlaczego moje predyktory są skorelowane, czy niektóre z moich predyktorów faktycznie mierzą tę samą rzeczywistość (jeśli tak, to czy mogę po prostu pracować z pojedynczy pomiar i który z moich predyktorów byłby do tego najlepszy), po co robię analizę - jeśli nie jestem zainteresowany wnioskowaniem, tylko prognozowaniem, to mógłbym pozostawić rzeczy takimi, jakie są, tak długo, jak przyszłość wartości predykcyjne są podobne do poprzednich.
Do rozwiązania tego problemu można użyć głównych komponentów lub regresji grzbietu. Z drugiej strony, jeśli masz dwie zmienne, które są wystarczająco silnie skorelowane, aby powodować problemy z oszacowaniem parametrów, to prawie na pewno możesz upuścić jedną z tych dwóch, nie tracąc dużo pod względem prognozowania - ponieważ dwie zmienne niosą te same informacje . Oczywiście działa to tylko wtedy, gdy problem wynika z dwóch wysoce skorelowanych niezależnych elementów. Jeśli problem dotyczy więcej niż dwóch zmiennych, które razem są prawie współliniowe (dowolne dwie z nich mogą mieć tylko umiarkowane korelacje), prawdopodobnie będziesz potrzebować jednej z pozostałych metod.
Oto kolejna myśl zainspirowana myślą Stephana odpowiedź :
Jeśli niektóre z twoich skorelowanych regresorów są istotnie powiązane (np. Są to różne miary inteligencji, tj. Słowne, matematyczne itp.), Możesz utworzyć pojedynczą zmienną, która mierzy tę samą zmienną, stosując jedną z następujących technik:
Zsumuj regresory (odpowiednie, jeśli regresory są składnikami całości, np. Słowne IQ + matematyczne IQ = ogólne IQ)
Średnia regresorów (odpowiednia, jeśli regresory mierzą tę samą konstrukcję podstawową, np. Rozmiar lewego buta, rozmiar prawego buta do pomiaru długości stóp)
Analiza czynnikowa (w celu uwzględnienia błędów w pomiarach i wyodrębnienia czynnika ukrytego)
Następnie możesz usunąć wszystkie skorelowane regresory i zastąpić je jedną zmienną, która wynika z powyższej analizy.
Już miałem powiedzieć to samo, co Stephan Kolassa powyżej (więc poprawiłem jego odpowiedź). Dodam tylko, że czasami wielokoliniowość może wynikać z użycia rozległych zmiennych, które są wysoce skorelowane z pewną miarą wielkości, a rzeczy można poprawić, stosując zmienne intensywne, tj. Dzieląc wszystko przez pewną miarę wielkości. Np. Jeśli twoje jednostki to kraje, możesz podzielić według populacji, obszaru lub PNB, w zależności od kontekstu.
Och - i aby odpowiedzieć na drugą część pierwotnego pytania: nie mogę wymyślić żadnej sytuacji, gdy dodanie produktu wszystkich skorelowanych regresorów byłoby dobrym pomysłem. Jak by to pomogło? Co by to znaczyło
Nie jestem ekspertem w tej dziedzinie, ale najpierw pomyślałem o przeprowadzeniu analizy głównych składników zmiennych predyktorów, a następnie wykorzystaniu uzyskanych głównych składników do przewidzenia zmiennej zależnej.
To nie jest lekarstwo, ale zdecydowanie krok we właściwym kierunku.