Dlaczego suma kwadratów reszt nie rośnie podczas dodawania zmiennej objaśniającej?


9

W moim podręczniku ekonometrycznym (wprowadzającym ekonometrii) dotyczącym OLS autor pisze: „SSR musi upaść, gdy zostanie dodana inna zmienna objaśniająca”. Dlaczego tak jest


1
W istocie, ponieważ jeśli nie ma liniowego związku z następną zmienną, cokolwiek (częściowa korelacja próbki 0), SSR pozostanie taki sam. Jeśli w ogóle istnieje jakikolwiek związek, następnej zmiennej można użyć do zmniejszenia SSR.
Glen_b

3
Oświadczenie jest poprawne w duchu, ale nie do końca prawdziwe: SSR pozostanie taki sam (i nie spadnie) po dodaniu dowolnej zmiennej, która jest liniową kombinacją istniejących zmiennych. W końcu, ignorując nową zmienną, możesz osiągnąć taką samą minimalną wartość SSR, jak w przypadku starej zmiennej, więc dodanie nowej zmiennej nigdy nie pogorszy sytuacji.
whuber

Odpowiedziałem na podobne pytanie tutaj: stats.stackexchange.com/questions/306267/… . Może ci się przydać.
Josh

Odpowiedzi:


18

Zakładając, że masz model regresji liniowej, dla łatwej notacji rozważ najpierw jedną, a następnie dwie zmienne zmienne. Uogólnia to na dwa zestawy zmiennych zmiennych. Pierwszy model to

ja:yja=β0+β1x1ja+ϵja
drugi model to
jaja:yja=β0+β1x1ja+β2)x2)ja+ϵja
Rozwiązuje się to poprzez minimalizację sumy kwadratów reszt, dla modelu pierwszego, który chcemy zminimalizować SSR1=ja(yja-β0-β1x1ja)2) a dla modelu drugiego chcesz zminimalizować SSR2)=ja(yja-β0-β1x1ja-β2)x2)ja)2). Powiedzmy, że znalazłeś poprawne estymatory dla modelu 1, a następnie możesz uzyskać dokładnie takie same kwadraty sumy resztkowej w modelu 2, wybierając te same wartości dlaβ0,β1 i wynajem β2)=0. Teraz możesz znaleźć resztkową niższą sumę kwadratów, szukając lepszej wartości dlaβ2).

Podsumowując, modele są zagnieżdżone w tym sensie, że wszystko, co możemy modelować za pomocą modelu 1, można dopasować do modelu drugiego, model drugi jest bardziej ogólny niż model 1. Tak więc, w optymalizacji, mamy większą swobodę z modelem drugim, więc możemy zawsze znajdź lepsze rozwiązanie.

To naprawdę nie ma nic wspólnego ze statystykami, ale jest ogólnym faktem na temat optymalizacji.


1
Nie myślałem w ten sposób, naprawdę pomocny!
Eric Xu,

1

SSR jest miarą rozbieżności między danymi a modelem szacunkowym.

Jeśli masz możliwość wzięcia pod uwagę innej zmiennej, to jeśli ta zmienna zawiera więcej informacji, dopasowanie byłoby naturalnie ściślejsze, co oznacza niższy wskaźnik SSR.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.