Dodanie predyktora regresji liniowej zmniejsza R do kwadratu


10

Mój zestaw danych (N.10,000) ma zmienną zależną (DV), pięć niezależnych zmiennych „podstawowych” (P1, P2, P3, P4, P5) i jedną niezależną zmienną będącą przedmiotem zainteresowania (Q).

Uruchomiłem regresje liniowe OLS dla następujących dwóch modeli:

DV ~ 1 + P1 + P2 + P3 + P4 + P5
                                  -> R-squared = 0.125

DV ~ 1 + P1 + P2 + P3 + P4 + P5 + Q
                                  -> R-squared = 0.124

Tj. Dodanie predyktora Q zmniejszyło wariancję wyjaśnioną w modelu liniowym. O ile rozumiem, to nie powinno się zdarzyć .

Żeby było jasne, to są wartości R-kwadrat i nie skorygowane wartości R-kwadrat.

I zostały zweryfikowane wartości R-kwadrat używając Jasp i Pythona statsmodels .

Czy jest jakiś powód, dla którego mógłbym zobaczyć to zjawisko? Być może coś związanego z metodą OLS?


1
problemy numeryczne? Liczby są dość blisko siebie ...

@ user2137591 Tak właśnie myślę, ale nie mam pojęcia, jak to sprawdzić. Bezwzględna różnica w wartościach R-kwadrat wynosi 0,000513569, co jest małe, ale nie takie małe.
Cai,

1
Mam nadzieję, że znasz algebrę liniową: jeśli X jest macierzą projektową powyższego, czy mógłbyś obliczyć detXT.X, gdzie jest transpozycją macierzy, a jest wyznacznikiem macierzy? T.det
Klarnecista

8
Brakujące wartości są automatycznie usuwane?
generic_user

1
0,000513569 to bardzo mała liczba: zmiana wynosi 0,41 procent. Prawdopodobnie jest to kwestia liczbowa. Klarnecista próbuje powiedzieć, że być może twoja macierz projektowa ma zły numer warunku, a podczas odwracania jest niestabilna numerycznie ...

Odpowiedzi:


25

Czy to możliwe, że brakuje Ci wartości, Qktóre są automatycznie usuwane? Miałoby to wpływ na próbę, przez co dwie regresje nie byłyby porównywalne.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.