Czy mogę po prostu usunąć jedną z dwóch zmiennych predykcyjnych, które są wysoce skorelowane liniowo?

18

Korzystając z współczynnika korelacji Pearsona, mam kilka zmiennych, które są wysoce skorelowane ( i dla 2 par zmiennych, które są w moim modelu). $\rho = 0.978$ $\rho = 0.989$

Powodem niektórych zmiennych są silnie skorelowane jest z powodu jedna zmienna jest używana w obliczeniach dla innej zmiennej.

Przykład:

$B = V / 3000$ i $E = V * D$

$B$ i mają $E$ $\rho = 0.989$

Czy mogę po prostu „wyrzucić” jedną ze zmiennych?

regression correlation modeling

— TheCloudlessSky
źródło

26

Zarówno B, jak i E pochodzą od V. B i E wyraźnie nie są tak naprawdę „niezależnymi” zmiennymi od siebie. Podstawową zmienną, która tak naprawdę ma znaczenie, jest V. Prawdopodobnie w tym przypadku należy odrzucić zarówno B, jak i E i zachować tylko V.

W bardziej ogólnej sytuacji, gdy masz dwie niezależne zmienne, które są bardzo silnie skorelowane, zdecydowanie powinieneś usunąć jedną z nich, ponieważ natrafisz na zagadkę wielokoliniowości, a współczynniki regresji twojego modelu regresji związane z dwiema silnie skorelowanymi zmiennymi będą zawodne. Również w prostym języku angielskim, jeśli dwie zmienne są tak wysoce skorelowane, to oczywiście przekażą prawie dokładnie taką samą informację do twojego modelu regresji. Ale włączając oba, osłabiasz model. Nie dodajesz informacji przyrostowych. Zamiast tego wprowadzasz swój model w hałas. To nie jest dobra rzecz.

Jednym ze sposobów zachowania wysoce skorelowanych zmiennych w modelu jest użycie zamiast regresji modelu analizy głównej składowej (PCA). Modele PCA zostały stworzone, aby pozbyć się wielokoliniowości. Kompromis polega na tym, że w twoim modelu pojawiają się dwa lub trzy główne elementy, które często są jedynie konstrukcjami matematycznymi i są logicznie niezrozumiałe. Dlatego PCA jest często porzucane jako metoda za każdym razem, gdy musisz przedstawić swoje wyniki zewnętrznym odbiorcom, takim jak kierownictwo, organy regulacyjne itp. ... Modele PCA tworzą tajemnicze czarne skrzynki, których wyjaśnienie jest bardzo trudne.

— Sympa
źródło

1

(+1) dla wyjaśnienia PCA.

— steffen

1

Dzięki, to było świetne wytłumaczenie. Słyszałem i czytałem o PCA, ale jest to końcowy projekt na studiach podyplomowych „regresja”, a profesor chce tylko, abyśmy użyli LR. Niezależnie od tego naprawdę doceniam wyjaśnienie PCA i prawdopodobnie wykorzystam je dla zabawy.

— TheCloudlessSky

3

W niektórych okolicznościach zalecenia zawarte w tej odpowiedzi nie zadziałałyby. Na przykład, co jeśli prawdziwa relacja to Y = B + E = V / 3000 + V * D? Wtedy zmienne mają wysoką korelację ze względu na zakresy V i D w zbiorze danych - co jest (lub może być) czystym przypadkiem - podczas wyrzucenia jednego z B lub E spowoduje niewłaściwy model. Krótko mówiąc, „zależność” nie jest ogólnie ważnym powodem do usunięcia niektórych zmiennych z modelu; uwzględnienie silnie zależnych zmiennych niekoniecznie „osłabia” model; PCA nie zawsze jest rozwiązaniem.

— whuber

@ Whuber, nie jestem pewien, czy zgadzam się z twoimi komentarzami. Sądzę, że „zależność” jest ogólnie dość słusznym powodem do usunięcia niektórych zmiennych z modelu regresji. W przeciwnym razie współczynniki regresji nie będą wiarygodne. W użytym przykładzie, który byłby problematyczny dla regresji, jednym prostym rozwiązaniem jest użycie całego wyrażenia (V / 3000 + V * D) jako pojedynczej zmiennej.

— Sympa

3

Mówiąc bardziej ogólnie, jeśli modelem jest beta1 * (V / 3000) + beta2 * (V D), nie możesz tego zrobić: innymi słowy, twoja sugestia zakłada, że znasz liniowe ograniczenie między współczynnikami. Prawdą jest, że współczynniki regresji mogą mieć * stosunkowo duże VIF lub błędy standardowe, ale przy wystarczającej ilości danych - lub przy dobrze dobranych obserwacjach - szacunki będą wystarczająco wiarygodne. Zgadzamy się więc, że jest problem i rzeczywiście zgadzam się z twoim rozwiązaniem jako jedną z kilku alternatyw do rozważenia . Nie zgadzam się, że jest to tak ogólne i konieczne, jak się wydaje.

— whuber

7

Oto odpowiedź z punktu widzenia uczącego się maszyny, chociaż obawiam się, że zostaną pobici przez prawdziwych statystyk.

Czy mogę po prostu „wyrzucić” jedną ze zmiennych?

Pytanie brzmi: jakiego modelu chcesz użyć do przewidywania. To zależy np. Od ...

czy model z korelującymi predyktorami? Np. Chociaż NaiveBayes teoretycznie ma problemy ze zmiennymi skorelowanymi, eksperymenty wykazały, że nadal może dobrze działać.
jak model przetwarza zmienne predykcyjne? Np. Różnica między B i V zostanie znormalizowana w estymacji gęstości prawdopodobieństwa, być może taka sama dla E i V w zależności od wariancji D (jak już mówiono o euforii)
która kombinacja użycia B i E (jeden, żaden, oba) zapewnia najlepszy wynik, oszacowany na podstawie uważnej weryfikacji krzyżowej + testu zestawu zatrzymań?

Czasami uczący się maszyn obrabiamy nawet optymalizację genetyczną, aby znaleźć najlepszą kombinację arytmetyczną zestawu predyktorów.

— steffen
źródło

7

B jest transformacją liniową V. E reprezentuje interakcję między V i D. Czy zastanawiałeś się nad określeniem modelu, który jest Y = Intercept + V + D + V: D? Jak sugeruje @ euphoria83, wydaje się prawdopodobne, że istnieje niewielka różnorodność D, więc może nie rozwiązać twojego problemu; powinno to jednak przynajmniej wyjaśnić niezależny wkład V i D. Pamiętaj, aby najpierw wyśrodkować zarówno V, jak i D.

— russellpierce
źródło

4

+1: Ta sugestia jest nie tylko dobrym podejściem do omawianego problemu, ale pokazuje, że wyrzucanie zmiennych nie zawsze jest właściwym (a nawet dobrym) podejściem do rozwiązywania problemów kolinearności.

— whuber

0

Jeśli D nie jest stałą, wówczas B i E są faktycznie dwiema różnymi zmiennymi z powodu zmian w D. Wysoka korelacja wskazuje, że D jest praktycznie stała w danych treningowych. W takim przypadku możesz odrzucić B lub E.

— euphoria83
źródło

1

D = \frac{n_{1}}{2} * \frac{N_{2}}{n_{2}}

$D = \frac{n_1}{2} * \frac{N_2}{n_2}$

Jeśli odrzucisz B lub E i potraktujesz je jako równoważne, domyślnie zapewnisz, że V jest wszystkim, co naprawdę się liczy. W takim przypadku lepiej byłoby zachować B w modelu, ponieważ jego interpretacja jest jasna. Ponadto, jeśli zachowasz E, ale D faktycznie ma ograniczoną wariancję, ważność interpretacji twoich wyników byłaby jeszcze bardziej podejrzana (niż zwykle) dla różnych wartości D.

— russellpierce