Dodanie predyktora regresji liniowej zmniejsza R do kwadratu

Mój zestaw danych ( $N \approx 10,000$ ) ma zmienną zależną (DV), pięć niezależnych zmiennych „podstawowych” (P1, P2, P3, P4, P5) i jedną niezależną zmienną będącą przedmiotem zainteresowania (Q).

Uruchomiłem regresje liniowe OLS dla następujących dwóch modeli:

DV ~ 1 + P1 + P2 + P3 + P4 + P5
                                  -> R-squared = 0.125

DV ~ 1 + P1 + P2 + P3 + P4 + P5 + Q
                                  -> R-squared = 0.124

Tj. Dodanie predyktora Q zmniejszyło wariancję wyjaśnioną w modelu liniowym. O ile rozumiem, to nie powinno się zdarzyć .

Żeby było jasne, to są wartości R-kwadrat i nie skorygowane wartości R-kwadrat.

I zostały zweryfikowane wartości R-kwadrat używając Jasp i Pythona statsmodels .

Czy jest jakiś powód, dla którego mógłbym zobaczyć to zjawisko? Być może coś związanego z metodą OLS?

regression linear r-squared

— Cai
źródło

problemy numeryczne? Liczby są dość blisko siebie ...

@ user2137591 Tak właśnie myślę, ale nie mam pojęcia, jak to sprawdzić. Bezwzględna różnica w wartościach R-kwadrat wynosi 0,000513569, co jest małe, ale nie takie małe.

— Cai,

Mam nadzieję, że znasz algebrę liniową: jeśli

X

$\mathbf{X}$ jest macierzą projektową powyższego, czy mógłbyś obliczyć

det X^{T} X

$\det\mathbf{X}^{T}\mathbf{X}$ , gdzie jest transpozycją macierzy, a jest wyznacznikiem macierzy?

T

$T$

det

$\det$

— Klarnecista

Brakujące wartości są automatycznie usuwane?

— generic_user

0,000513569 to bardzo mała liczba: zmiana wynosi 0,41 procent. Prawdopodobnie jest to kwestia liczbowa. Klarnecista próbuje powiedzieć, że być może twoja macierz projektowa ma zły numer warunku, a podczas odwracania jest niestabilna numerycznie ...

Czy to możliwe, że brakuje Ci wartości, Qktóre są automatycznie usuwane? Miałoby to wpływ na próbę, przez co dwie regresje nie byłyby porównywalne.

— użytkownik_ogólny
źródło