Równoważność korelacji próbki i statystyki R dla prostej regresji liniowej

10

Często uważa się, że kwadrat próbki korelacji $r^2$ jest równoważne $R^2$ współczynnik korelacji dla prostej regresji liniowej. Nie byłem w stanie sam tego wykazać i doceniłbym pełny dowód tego faktu.

regression correlation

— edwardsm88
źródło

1

Jeśli jest to pytanie do samodzielnej nauki, dodaj odpowiedni tag.

— Andy

Pytanie to dotyczy również pytania, dlaczego

R^{2} = r^{2}

$R^2=r^2$ .

— Silverfish,

8

Wydaje się, że pewne zmiany w notacji: w prostych regresji liniowej, jakie zazwyczaj postrzegane wyrażenie „próbka” o współczynnik korelacji symbolu jako odniesienie do korelacji między obserwowaną i wartości. To jest zapis, który przyjąłem dla tej odpowiedzi. Stwierdziliśmy też, że ten sam zwrot i symbol odnosi się do zależności między obserwowaną i dopasowano ; w mojej odpowiedzi mam, o których mowa to jako „stwardnienie współczynnika korelacji” i użył symbolu . Ta odpowiedź dotyczy tego, dlaczego współczynnik determinacji jest zarówno kwadratem i kwadratem $r$ $x$ $y$ $y$ $\hat y$ $R$ $r$ $R$ , więc nie powinno mieć znaczenia, które użycie było zamierzone.

Wynik następuje w jednej linii algebry, gdy kilka prostych faktów na temat korelacji i znaczenia $r^2$ $R$ ustaleniu , więc możesz chcieć przejść do równania w ramce. Zakładam, że nie musimy udowadniać podstawowych właściwości kowariancji i wariancji, w szczególności:

Cov (a X + b, Y) = a Cov (X, Y)

$\text{Cov}(aX+b, Y) = a\text{Cov}(X,Y)$

Var (a X + b) = a^{2} Var (X)

$\text{Var}(aX+b) = a^2\text{Var}(X)$

Zauważ, że to drugie można wyprowadzić z pierwszego, gdy wiemy, że kowariancja jest symetryczna i że . Stąd wywodzimy kolejny podstawowy fakt, dotyczący korelacji. Dla , i tak długo jak i $\text{Var}(X)= \text{Cov}(X,X)$ $a \neq 0$ $X$ $Y$ mają niezerowe wariancji,

\begin{aligned} Cor (a X + b, Y) & = \frac{Cov (a X + b, Y)}{\sqrt{Var (a X + b) Var (Y)}} \\ = \frac{a}{\sqrt{a^{2}}} \times \frac{Cov (X, Y)}{\sqrt{Var (X) Var (Y)}} \\ Cor (a X + b, Y) & = sgn (a) Cor (X, Y) \end{aligned}

$\begin{align} \text{Cor}(aX+b, Y) &= \frac{\text{Cov}(aX+b, Y)}{\sqrt{\text{Var}(aX+b) \text{Var} (Y)}} \\ &= \frac{a}{\sqrt{a^2}} \times \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \text{Var} (Y)}} \\ \text{Cor}(aX+b, Y) &= \text{sgn}(a) \, \text{Cor}(X,Y) \end{align}$

Tutaj jest znakiem lub funkcją znaku : jego wartość to jeśli i jeśli . Prawdą jest również, że jeśli , ale ten przypadek nas nie dotyczy: $\text{sgn}(a)$ $\text{sgn}(a) = +1$ $a>0$ $\text{sgn}(a) = -1$ $a<0$ $\text{sgn}(a) = 0$ $a=0$ $aX+b$ byłaby stała, więc w mianowniku i nie możemy obliczyć korelacji. Argumenty symetrii pozwalają uogólnić ten wynik $\text{Var}(aX+b) = 0$ $a, \, c \neq 0$ :

Cor (a X + b, c Y + d) = sgn (a) sgn (c) Cor (X, Y)

$\text{Cor}(aX+b, \, cY+d) = \text{sgn}(a) \, \text{sgn}(c) \, \text{Cor}(X,Y)$

Nie potrzebujemy tej bardziej ogólnej formuły, aby odpowiedzieć na bieżące pytanie, ale dołączam ją, aby podkreślić geometrię sytuacji: po prostu stwierdza, że korelacja pozostaje niezmieniona, gdy zmienna jest skalowana lub tłumaczona, ale odwraca znak, gdy zmienna jest odzwierciedlone.

Potrzebujemy jeszcze jednego faktu: w przypadku modelu liniowego zawierającego stały składnik współczynnik determinacji jest kwadratem wielokrotnego współczynnika korelacji , który jest korelacją między obserwowanymi odpowiedziami a dopasowanymi wartościami modelu $R^2$ $R$ $Y$ . Odnosi się to zarówno do wielokrotności i prostych regresji, ale niech nam ograniczyć naszą uwagę na prosty model liniowy. Wynik wynika z obserwacji, że jest skalowany, ewentualnie odbitym, a przetłumaczonej wersji: $\hat Y$ $\hat Y = \hat \beta_0 + \hat \beta_1 X$ $\hat Y$ $X$

R = Cor (\hat{Y}, Y) = Cor ({\hat{β}}_{0} + {\hat{β}}_{1} X, Y) = sgn ({\hat{β}}_{1}) Cor (X, Y) = sgn ({\hat{β}}_{1}) r

$\boxed{R = \text{Cor}(\hat Y, Y) = \text{Cor}(\hat \beta_0 + \hat \beta_1 X, \, Y) = \text{sgn}(\hat \beta_1) \, \text{Cor}(X, Y) = \text{sgn}(\hat \beta_1) \, r}$

Zatem gdzie znak pasuje do znaku szacowanego nachylenia, co gwarantuje, że nie będzie ujemny. Wyraźnie . $R = \pm r$ $R$ $R^2 = r^2$

Poprzedni argument został uproszczony, ponieważ nie uwzględniono sum kwadratów. Aby to osiągnąć, że pomijane szczegóły dotyczące relacji między , które zwykle myśleć pod względem sumy kwadratów, oraz , do którego myślenia o korelacji montowane i obserwowanych reakcji. Symbole sprawiają, że relacja wydaje się tautologiczna, ale tak nie jest, a relacja rozpada się, jeśli w modelu nie ma terminu przecięcia! Ja pokrótce szkic geometrycznej argumentu o związku między i $R^2$ $R$ $R^2 = (R)^2$ $R$ $R^2$ pobranej z innego pytanie: schemat jest narysowany w (dla stałego składnika) i wektor obserwacji zmiennej objaśniającej, więc przestrzeń kolumny jest dwuwymiarowa. $n$ -wymiarowa przestrzeń tematyczna , więc każda oś (nie pokazana) reprezentuje pojedynczą jednostkę obserwacji, a zmienne są pokazane jako wektory. Kolumny macierzy projektowej to wektor $\mathbf{X}$ $\mathbf{1_n}$

Wektory w przestrzeni przedmiotowej regresji wielokrotnej

Zainstalowane jest prostopadły występ obserwowanego na powierzchni kolumny . Oznacza to, że wektor reszt jest prostopadła do płaskich, a tym samym do . Iloczyn punktowy wynosi . Gdy reszty sumują się do zera, a , to $\mathbf{\hat{Y}}$ $\mathbf{Y}$ $\mathbf{X}$ $\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}$ $\mathbf{1_n}$ $0 = \mathbf{1_n} \cdot \mathbf{e} = \sum_{i=1}^n e_i$ $Y_i = \hat{Y_i} + e_i$ tak, że oba montowane i obserwowane reakcje mają średnią . Linie przerywane na schemacie, $\sum_{i=1}^n Y_i = \sum_{i=1}^n \hat{Y_i}$ $\bar{Y}$ i , są zatemwyśrodkowanewektory do obserwowanych i dopasowano reakcji, oraz cosinusa kąta między nimi jest ich zależność $\mathbf{Y} - \bar{Y}\mathbf{1_n}$ $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ $\theta$ $R$ .

Trójkąt wektory te tworzą wektorem reszt się pod kątem prostym od leży w płaskim, ale $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ $\mathbf{e}$ jest prostopadła do niej. Stosowanie Pitagorasa:

‖ Y - \bar{Y} 1_{n} ‖^{2} = ‖ Y - \hat{Y} ‖^{2} + ‖ \hat{Y} - \bar{Y} 1_{n} ‖^{2}

$\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2 = \|\mathbf{Y} - \mathbf{\hat{Y}}\|^2 + \|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|^2$

Jest to tylko rozkład sum kwadratów, . Konwencjonalny wzór na współczynnik determinacji wynosi $SS_{\text{total}} = SS_{\text{residual}} + SS_{\text{regression}}$ , która w tym trójkątatak jest rzeczywiście kwadrat. Możesz być bardziej zaznajomiony ze wzorem $1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}}$ $1 - \sin^2 \theta = \cos^2 \theta$ $R$ , co natychmiast daje, ale zauważ, że $R^2 = \frac{SS_{\text{regression}}}{SS_{\text{total}}}$ $\cos^2 \theta$ jest bardziej ogólny i (jak właśnie widzieliśmy) zmniejszy się do $1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}}$ jeśli model zawiera stały składnik. $\frac{SS_{\text{regression}}}{SS_{\text{total}}}$

— Silverfish
źródło

+1 dzięki za wysiłki w tworzeniu ładnej matematyki i wykresu !!

— Haitao Du

4

$R^2$

R^{2} = \frac{\hat{V} ({\hat{y}}_{i})}{\hat{V} (y_{i})} = \frac{1 / (N - 1) \sum_{i = 1}^{N} ({\hat{y}}_{i} - \bar{y})^{2}}{1 / (N - 1) \sum_{i = 1}^{N} (y_{i} - \bar{y})^{2}} = \frac{E S S}{T S S}

$R^2=\frac{\hat{V}(\hat{y}_i)}{\hat{V}(y_i)} =\frac{1/(N-1)\sum_{i=1}^N(\hat{y}_i-\bar{y})^2}{1/(N-1)\sum_{i=1}^N(y_i-\bar{y})^2}=\frac{ESS}{TSS}$ The squared sample correlation coefficient:

r^{2} (y_{i}, {\hat{y}}_{i}) = \frac{{(\sum_{i = 1}^{N} (y_{i} - \bar{y}) ({\hat{y}}_{i} - \bar{y}))}^{2}}{(\sum_{i = 1}^{N} (y_{i} - \bar{y})^{2}) (\sum_{i = 1}^{N} ({\hat{y}}_{i} - \bar{y})^{2})}

$r^2(y_i,\hat{y}_i)=\frac{\left(\sum_{i=1}^N(y_i-\bar{y})(\hat{y}_i-\bar{y})\right)^2}{\left(\sum_{i=1}^N(y_i-\bar{y})^2\right)\left(\sum_{i=1}^N(\hat y_i-\bar{y})^2\right)}$ is equivalent, as it is easily verified using:

\hat{V} (y_{i}) = \hat{V} ({\hat{y}}_{i}) + \hat{V} (e_{i})

$\hat V(y_i)=\hat V(\hat y_i)+\hat V(e_i)$ (see Verbeek, §2.4)

— Sergio
źródło

Could you add some more details. I've been trying to prove this but with no sucess...

— An old man in the sea.