Niech będzie liczbą obserwacji, a K liczbą zmiennych objaśniających.NK
to w rzeczywistości NXMacierz K. Tylko gdy patrzymy na pojedynczą obserwację, każdą obserwację oznaczamy zwykle jako x T i - wektor rzędowy zmiennych objaśniających jednego konkretnego skalaru obserwacji pomnożony przez KN×KxTi wektor kolumnowy β . Ponadto Y oznacza NK×1βY wektor kolumnowy, zawierający wszystkie obserwacje Y n .N×1Yn
Teraz, dwuwymiarowa hiperpłaszczyzna by rozstaw wektora i jeden (!) Kolumny wektora X . Pamiętaj, że X to N.YXX osnowę, tak więc każda zmienna zamieszczony jest reprezentowany przez dokładnie jeden wektor kolumny macierzy X . Jeśli mamy tylko jedną zmienną objaśniającą, bez przecięcia i Y , wszystkie punkty danych są położone wzdłuż płaszczyzny rozpiętej przez 2 wymiarowej Y i X .N×KXYYX
W przypadku regresji wielokrotnej, ile wymiarów łącznie ma hiperpłaszczyzna między a macierzą X ? Odpowiedź: Ponieważ mamy wektory K kolumn zmiennych objaśniających w X , musimy mieć KYXKX płaszczyzna wymiaru.K+1
Zwykle w ustawieniu macierzowym regresja wymaga stałego przechwytywania, aby być obiektywnym dla rozsądnej analizy współczynnika nachylenia. Aby uwzględnić tę sztuczkę, wymuszamy, aby jedna kolumna macierzy składała się tylko z „ 1 s”. W tym przypadku estymator β 1 jest osobno pomnożony przez stałą dla każdej obserwacji zamiast losowej zmiennej objaśniającej. Współczynnik β 1 reprezentuje zatem oczekiwaną wartość Y, biorąc pod uwagę, że x 1 i jest utrzymywane na stałym poziomie z wartością 1, a wszystkie inne zmienne są zerowe. Dlatego KX1β1β1Yx1i wymiarowa hiperpłaszczyzna jest zredukowana o jeden wymiar dopodprzestrzeni K- wymiarowej, a β 1 odpowiada „punktowi przechwytywania” tejpłaszczyzny K- wymiarowej.K+1Kβ1K
W ustawieniach matrycy zawsze warto przyjrzeć się prostemu przypadkowi dwóch wymiarów, aby sprawdzić, czy możemy znaleźć intuicję dla naszych wyników. Tutaj najprościej jest pomyśleć o prostej regresji z dwiema zmiennymi objaśniającymi:
lub alternatywnie wyrażone w algebrze macierzy: Y = X β + u, gdzie X jest a N.
yi=β1x1i+β2x2i+ui
Y=Xβ+uX matryce.
N×2
obejmuje trójwymiarową hiperpłaszczyznę.<Y,X>
Teraz, jeśli wymusimy, aby wszystkie były wszystkie 1 , otrzymujemy:
y i = β 1 i + β 2 x 2 i + u i,
co jest naszą zwykłą prostą regresją, którą można przedstawić w dwuwymiarowym wykresie X , Y. Zauważ, że < Y , X > jest teraz zredukowane do dwuwymiarowej linii - podzbioru pierwotnie 3-wymiarowej hiperpłaszczyzny. Współczynnik β 1 odpowiada punktowi przecięcia linii przy x 2 i =x11
yi=β1i+β2x2i+ui
X, Y<Y,X>β1 .
x2i=0
Można ponadto wykazać, że przechodzi on również przez gdy uwzględniona jest stała . Jeśli pominiemy stałą, hiperpłaszczyzna regresji zawsze przechodzi trywialnie przez < 0 , 0 > - bez wątpienia. Uogólnia się to na wiele wymiarów, co będzie później widoczne przy wyprowadzaniu β :
( X ′ X ) β = X ′ y<0,β1><0,0>β
Ponieważ X ma pełną rangę według definicji, y - X β = 0 , a zatem regresja przechodzi przez początek, jeśli pominiemy przecięcie.
(X′X)β=X′y⟹(X′X)β−X′y=0⟹X′(y−Xβ)=0.
Xy−Xβ=0
( Edycja: Właśnie zdałem sobie sprawę, że w drugim pytaniu jest dokładnie odwrotnie niż w przypadku zapisywania regresji włączenia lub wyłączenia stałej. Jednak już opracowałem tutaj rozwiązanie i poprawiam się, jeśli się mylę ).
Wiem, że macierzowa reprezentacja regresji może być dość myląca na początku, ale ostatecznie bardzo upraszcza to, kiedy uzyskuje się bardziej złożoną algebrę. Mam nadzieję, że to trochę pomoże.