Po dopasowaniu modelu regresji, takiego jak , model i estymator OLS nie „wiedzą”, że jest po prostu kwadratem , po prostu „myśli”, że to inna zmienna. Oczywiście istnieje pewna kolinearność, która włącza się w dopasowanie (np. Standardowe błędy są większe, niż mogłyby być), ale wiele par zmiennych może być nieco kolinearnych, przy czym jedna z nich nie jest funkcją drugiej. y^i=β^0+β^1xi+β^2x2ix2ixi
Nie uznajemy, że istnieją naprawdę dwa oddzielne zmienne w modelu, bo my wiemy, że jest ostatecznie taka sama zmienna jak że przekształcone i zawarte w celu uchwycenia krzywoliniowy związek między i . Ta wiedza o prawdziwej naturze w połączeniu z naszym przekonaniem o istnieniu krzywoliniowej zależności między i jest tym, co utrudnia nam zrozumienie, że jest ona nadal liniowa z perspektywy modelu. Ponadto wizualizujemy ix2ixixiyix2ixiyixix2irazem, patrząc na marginalną projekcję funkcji 3D na płaszczyznę 2D . x,y
Jeśli masz tylko i , możesz spróbować wizualizować je w pełnej przestrzeni 3D (chociaż nadal trudno jest naprawdę zobaczyć, co się dzieje). Jeśli spojrzysz na dopasowaną funkcję w pełnej przestrzeni 3D, zobaczysz, że dopasowana funkcja jest płaszczyzną 2D, a ponadto jest płaską płaszczyzną. Jak mówię, trudno jest dobrze widzieć, ponieważ dane istnieją tylko wzdłuż zakrzywionej linii przechodzącej przez tę przestrzeń 3D (fakt ten jest wizualną manifestacją ich kolinearności). Możemy spróbować to zrobić tutaj. Wyobraź sobie, że to dopasowany model: xix2ixi,x2i
x = seq(from=0, to=10, by=.5)
x2 = x**2
y = 3 + x - .05*x2
d.mat = data.frame(X1=x, X2=x2, Y=y)
# 2D plot
plot(x, y, pch=1, ylim=c(0,11), col="red",
main="Marginal projection onto the 2D X,Y plane")
lines(x, y, col="lightblue")
# 3D plot
library(scatterplot3d)
s = scatterplot3d(x=d.mat$X1, y=d.mat$X2, z=d.mat$Y, color="gray", pch=1,
xlab="X1", ylab="X2", zlab="Y", xlim=c(0, 11), ylim=c(0,101),
zlim=c(0, 11), type="h", main="In pseudo-3D space")
s$points(x=d.mat$X1, y=d.mat$X2, z=d.mat$Y, col="red", pch=1)
s$plane3d(Intercept=3, x.coef=1, y.coef=-.05, col="lightblue")
Łatwiej jest zobaczyć te obrazy, które są zrzutami ekranu obróconej figury 3D wykonanej z tych samych danych przy użyciu rgl
pakietu.
Kiedy mówimy, że model „liniowy w parametrach” jest naprawdę liniowy, to nie jest to tylko matematyka. Za pomocą zmiennych dopasowuje się wymiarową hiperpłaszczyznę w hiperprzestrzeni wymiarowej (w naszym przykładzie płaszczyzna 2D w przestrzeni 3D). Ta hiperpłaszczyzna naprawdę jest „płaska” / „liniowa”; to nie jest tylko metafora. ppp+1