Dlaczego regresja wielomianowa jest uważana za szczególny przypadek wielokrotnej regresji liniowej?


38

Jeśli regresja wielomianowa modeluje relacje nieliniowe, to jak można to uznać za szczególny przypadek wielokrotnej regresji liniowej?

Wikipedia zauważa, że ​​„Chociaż regresja wielomianowa pasuje do danych do modelu nieliniowego, jako problem estymacji statystycznej jest ona liniowa, w tym sensie, że funkcja regresji jest liniowa dla nieznanych parametrów, które są szacowane z danych ”.E(y|x)

W jaki sposób regresja wielomianowa jest liniowa dla nieznanych parametrów, jeśli parametry są współczynnikami dla terminów z porządkiem 2?


4
Te parametry są szacowane są (wielo) liniowe. Jeśli szacujesz wartości wykładników, problem estymacji nie byłby liniowy; ale podniesienie kwadratu predyktora naprawia wykładnik dokładnie na 2.
Przywróć Monikę

Rozumiem, że komentarz @ user777, jak również poniższe odpowiedzi, dotyczą nie tylko regresji wielomianowej, ale także każdej regresji, która wykorzystuje bijection zmiennych predykcyjnych. np. dowolna funkcja odwracalna, jak , itp. (plus niektóre inne funkcje, oczywiście, ponieważ 2nth moce nie są bijectywne). log(x)ex
naught101

Dziękuję wszystkim; wszystkie odpowiedzi i komentarze były pomocne.
gavinmh

Odpowiedzi:


53

Po dopasowaniu modelu regresji, takiego jak , model i estymator OLS nie „wiedzą”, że jest po prostu kwadratem , po prostu „myśli”, że to inna zmienna. Oczywiście istnieje pewna kolinearność, która włącza się w dopasowanie (np. Standardowe błędy są większe, niż mogłyby być), ale wiele par zmiennych może być nieco kolinearnych, przy czym jedna z nich nie jest funkcją drugiej. y^i=β^0+β^1xi+β^2xi2xi2xi

Nie uznajemy, że istnieją naprawdę dwa oddzielne zmienne w modelu, bo my wiemy, że jest ostatecznie taka sama zmienna jak że przekształcone i zawarte w celu uchwycenia krzywoliniowy związek między i . Ta wiedza o prawdziwej naturze w połączeniu z naszym przekonaniem o istnieniu krzywoliniowej zależności między i jest tym, co utrudnia nam zrozumienie, że jest ona nadal liniowa z perspektywy modelu. Ponadto wizualizujemy ixi2xixiyixi2xiyixixi2razem, patrząc na marginalną projekcję funkcji 3D na płaszczyznę 2D . x,y

Jeśli masz tylko i , możesz spróbować wizualizować je w pełnej przestrzeni 3D (chociaż nadal trudno jest naprawdę zobaczyć, co się dzieje). Jeśli spojrzysz na dopasowaną funkcję w pełnej przestrzeni 3D, zobaczysz, że dopasowana funkcja jest płaszczyzną 2D, a ponadto jest płaską płaszczyzną. Jak mówię, trudno jest dobrze widzieć, ponieważ dane istnieją tylko wzdłuż zakrzywionej linii przechodzącej przez tę przestrzeń 3D (fakt ten jest wizualną manifestacją ich kolinearności). Możemy spróbować to zrobić tutaj. Wyobraź sobie, że to dopasowany model: xixi2xi,xi2

x     = seq(from=0, to=10, by=.5)
x2    = x**2
y     = 3 + x - .05*x2
d.mat = data.frame(X1=x, X2=x2, Y=y)

# 2D plot
plot(x, y, pch=1, ylim=c(0,11), col="red", 
     main="Marginal projection onto the 2D X,Y plane")
lines(x, y, col="lightblue")

wprowadź opis zdjęcia tutaj

# 3D plot
library(scatterplot3d)
s = scatterplot3d(x=d.mat$X1, y=d.mat$X2, z=d.mat$Y, color="gray", pch=1, 
              xlab="X1", ylab="X2", zlab="Y", xlim=c(0, 11), ylim=c(0,101), 
              zlim=c(0, 11), type="h", main="In pseudo-3D space")
s$points(x=d.mat$X1, y=d.mat$X2, z=d.mat$Y, col="red", pch=1)
s$plane3d(Intercept=3, x.coef=1, y.coef=-.05, col="lightblue")

wprowadź opis zdjęcia tutaj

Łatwiej jest zobaczyć te obrazy, które są zrzutami ekranu obróconej figury 3D wykonanej z tych samych danych przy użyciu rglpakietu.

wprowadź opis zdjęcia tutaj

Kiedy mówimy, że model „liniowy w parametrach” jest naprawdę liniowy, to nie jest to tylko matematyka. Za pomocą zmiennych dopasowuje się wymiarową hiperpłaszczyznę w hiperprzestrzeni wymiarowej (w naszym przykładzie płaszczyzna 2D w przestrzeni 3D). Ta hiperpłaszczyzna naprawdę jest „płaska” / „liniowa”; to nie jest tylko metafora. ppp+1


17

Zatem ogólny model liniowy jest funkcją liniową dla nieznanych parametrów . Regresja wielomianowa, na przykład jest kwadratowa w funkcji ale liniowa we współczynnikach , i . Mówiąc bardziej ogólnie, ogólny model liniowy można wyrazić jako , gdzie są dowolnymi funkcjami wektorowych danych wejściowych - zobacz, że może zawierać dowolne warunki interakcji (między składniki ) i tym podobne.y=a+bx+cx2xabcy=i=0Naihi(x)hixhix


14

Rozważ model

yi=b0+b1xin1++bpxinp+ϵi.

Można to przepisać

y=Xb+ϵ;X=(1x1n1x1np1x2n1x2np1xnn1xnnp).
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.