Interpretacja geometryczna wielokrotnego współczynnika korelacji

Interesuje mnie geometryczne znaczenie wielokrotnej korelacji $R$ i współczynnik determinacji w regresji lub w notacji wektorowej, $R^2$ $y_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i$

y = X β + ϵ

$\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon}$

Tutaj macierz projektowa ma wierszy $\mathbf{X}$ $n$ $k$ kolumn, z których pierwszą jest , wektor 1s, który odpowiada przecięciu . $\mathbf{x}_1 = \mathbf{1}_n$ $\beta_1$

Geometria jest bardziej interesująca w $n$ wymiarowej przestrzeni przedmiotowej niż w wymiarowej przestrzeni zmiennej. Zdefiniuj macierz kapelusza: $k$

H = {X (X^{⊤} X)}^{- 1} X^{⊤}

$\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top$

Jest to rzut ortogonalny na przestrzeń kolumny , tj. Mieszkanie przez początek rozpięte przez wektorów reprezentujących każdą zmienną , z których pierwszy to . Następnie rzutuje wektor zaobserwowanych odpowiedzi na swój „cień” na mieszkanie, wektor dopasowanych wartości , a jeśli patrząc wzdłuż ścieżki projekcji widzimy wektor reszt tworzy trzecią stronę trójkąta. To powinno zapewnić nam dwie drogi do geometrycznej interpretacji $\mathbf{X}$ $k$ $\mathbf{x}_i$ $\mathbf{1}_n$ $\mathbf{H}$ $\mathbf{y}$ $\mathbf{\hat{y}} = \mathbf{Hy}$ $\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}$ $R^2$ :

Kwadrat wielokrotnego współczynnika korelacji, $R$ , który jest zdefiniowany jako korelacja między $\mathbf{y}$ i $\mathbf{\hat{y}}$ . Będzie to wyglądało geometrycznie jako cosinus kąta.
Pod względem długości wektorów: na przykład $SS_\text{residual} = \sum_{i=1}^{n}e_i^2 = \|\mathbf{e}\|^2$ .

Z przyjemnością zobaczyłem krótkie sprawozdanie, które wyjaśnia:

Drobne szczegóły dla (1) i (2),
Dlaczego (1) i (2) są równoważne,
W skrócie, w jaki sposób wgląd geometryczny pozwala nam wizualizować podstawowe właściwości $R^2$ , na przykład dlaczego zmienia się na 1, gdy wariancja szumu spada do 0. (W końcu, jeśli nie możemy intuicyjnie z naszej wizualizacji, to jest to tylko ładne zdjęcie.)

Rozumiem, że jest to prostsze, jeśli zmienne są najpierw wyśrodkowane, co usuwa punkt przecięcia z pytania. Jednak w większości kont podręczników, które wprowadzają regresję wielokrotną, macierz projektowa jest taka, jak to ułożyłem. Oczywiście dobrze jest, jeśli ekspozycja zagłębia się w przestrzeń rozpiętą przez wyśrodkowane zmienne, ale dla wglądu w podręcznikową algebrę liniową bardzo pomocne byłoby odniesienie tego do tego, co dzieje się geometrycznie w nieośrodkowej sytuacji. Naprawdę wnikliwe odpowiedź może wyjaśnić , co dokładnie się uszkodzi geometrycznie gdy termin osią jest odrzucany $\mathbf{X}$ - czyli gdy wektor $\mathbf{1}_n$ jest usuwany z zestawu rozpinającego. Nie sądzę, aby ten ostatni punkt można rozwiązać, biorąc pod uwagę tylko wyśrodkowane zmienne.

— Silverfish
źródło

Jeśli w modelu występuje stały termin, znajduje się w przestrzeni kolumn (podobnie jak , który przyda się później). Dopasowany jest ortogonalnym rzutem obserwowanego na mieszkanie utworzone przez tę przestrzeń kolumny. Oznacza to, że wektor reszt jest prostopadły do płaskiego, a zatem do . Biorąc pod uwagę iloczyn skalarny, możemy zobaczyć , więc składniki muszą sumować się do zera. Ponieważ dochodzimy do tego $\mathbf{1_n}$ $\mathbf{X}$ $\bar{Y}\mathbf{1_n}$ $\mathbf{\hat{Y}}$ $\mathbf{Y}$ $\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}$ $\mathbf{1_n}$ $\sum_{i=1}^n e_i = 0$ $\mathbf{e}$ $Y_i = \hat{Y_i} + e_i$ $\sum_{i=1}^n Y_i = \sum_{i=1}^n \hat{Y_i}$ , aby zarówno dopasowane, jak i zaobserwowane odpowiedzi miały średnią . $\bar{Y}$

Wektory w przestrzeni przedmiotowej regresji wielokrotnej

Linie przerywane na schemacie reprezentują i , które są wektorami centrowanymi dla zaobserwowanych i dopasowanych odpowiedzi. Cosinusem kąta pomiędzy tymi wektorami będzie zatem korelacja i , która z definicji jest wielokrotnością Współczynnik korelacji . Trójkąt, który te wektory tworzą z wektorem reszt, jest ustawiony pod kątem prostym, ponieważ leży płasko, ale jest do niego ortogonalny. Stąd: $\mathbf{Y} - \bar{Y}\mathbf{1_n}$ $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ $\theta$ $Y$ $\hat{Y}$ $R$ $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ $\mathbf{e}$

R = \cos (θ) = \frac{adj}{hyp} = \frac{‖ \hat{Y} - \bar{Y} 1_{n} ‖}{‖ Y - \bar{Y} 1_{n} ‖}

$R = \cos(\theta) = \frac{\text{adj}}{\text{hyp}} = \frac{\|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|}{\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|}$

Możemy również zastosować Pitagorasa do trójkąta:

‖ Y - \bar{Y} 1_{n} ‖^{2} = ‖ Y - \hat{Y} ‖^{2} + ‖ \hat{Y} - \bar{Y} 1_{n} ‖^{2}

$\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2 = \|\mathbf{Y} - \mathbf{\hat{Y}}\|^2 + \|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|^2$

Co może być bardziej znane jako:

\sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2} = \sum_{i = 1}^{n} (Y_{i} - {\hat{Y}}_{i})^{2} + \sum_{i = 1}^{n} ({\hat{Y}}_{i} - \bar{Y})^{2}

$\sum_{i=1}^{n} (Y_i - \bar{Y})^2 = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 + \sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2$

Jest to rozkład sum kwadratów, $SS_{\text{total}} = SS_{\text{residual}} + SS_{\text{regression}}$ .

Standardowa definicja współczynnika determinacji to:

R^{2} = 1 - \frac{S S_{residual}}{S S_{total}} = 1 - \frac{\sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2}}{\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}} = 1 - \frac{‖ Y - \hat{Y} ‖^{2}}{‖ Y - \bar{Y} 1_{n} ‖^{2}}

$R^2 = 1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}} = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2} = 1 - \frac{\|\mathbf{Y} - \mathbf{\hat{Y}}\|^2}{\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2}$

Kiedy sumy kwadratów można podzielić, potrzeba pewnej prostej algebry, aby pokazać, że jest to równoważne sformułowaniu „wyjaśniona proporcja wariancji”,

R^{2} = \frac{S S_{regression}}{S S_{total}} = \frac{\sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2}}{\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}} = \frac{‖ \hat{Y} - \bar{Y} 1_{n} ‖^{2}}{‖ Y - \bar{Y} 1_{n} ‖^{2}}

$R^2 = \frac{SS_{\text{regression}}}{SS_{\text{total}}} = \frac{\sum_{i=1}^n (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^n (y_i - \bar{y})^2} = \frac{\|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|^2}{\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2}$

Jest geometryczny sposób patrzenia na to z trójkąta, z minimalną algebrą. Definicja formuły daje a dzięki podstawowej trygonometrii możemy uprościć to do . To jest związek między i $R^2 = 1 - \sin^2(\theta)$ $\cos^2(\theta)$ $R^2$ $R$ .

Zwróć uwagę, jak istotne było, aby w tej analizie dopasowano termin przechwytywania, tak aby znajdował się w przestrzeni kolumny. Bez tego, reszty nie byłyby sumowane do zera, a średnia wartości zabudowanymi nie zbiegła się ze średnią . W takim przypadku nie moglibyśmy narysować trójkąta; sumy kwadratów nie rozłożyłyby się w sposób pitagorejski; nie miały często cytowanego postać ani nie musi być kwadratowy . W tej sytuacji, część oprogramowania (włącznie ) stosuje się inny wzór łącznie . $\mathbf{1_n}$ $Y$ $R^2$ $SS_{\text{reg}}/SS_{\text{total}}$ $R$ R $R^2$

— Silverfish
źródło

+1 Bardzo fajny opis i figura. Dziwię się, że ma tylko moją samotną opinię.

— ameba mówi Przywróć Monikę

+1. Zauważ, że liczba twojej odpowiedzi, z „przestrzenią kolumn X”, Y, Ypredem jako wektorami itp. Jest znana w statystyce wielowymiarowej jako „(zredukowana) reprezentacja przestrzeni tematycznej” ( patrz , z dalszymi linkami tam, gdzie jej użyłem) ).

— ttnphns