Powiązania pomiędzy

39

Powiedzmy, że mam dwie tablice 1-wymiarowe, $a_1$ i $a_2$ . Każdy zawiera 100 punktów danych. jest rzeczywiste dane i jest przewidywania modelu. W tym przypadku, wartość będzie: $a_1$ $a_2$ $R^2$

R^{2} = 1 - \frac{S S_{r e s}}{S S_{t o t}} (1) .

$R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1).$ W międzyczasie byłoby to równe wartości kwadratowej współczynnika korelacji,

R^{2} = (Correlation Coefficient)^{2} (2) .

$R^2 = (\text{Correlation Coefficient})^2 \quad (2).$ Teraz, jeśli mogę zamienić dwa:

jest rzeczywiste dane, a

jest przewidywania modelu. Z równania

, ponieważ współczynnik korelacji nie zależy, który pochodzi pierwsze,

wartość będzie taka sama. Jednak z równania

,

, wartość

ulegnie zmianie, ponieważ

a_{2}

$a_2$

a_{1}

$a_1$

(2)

$(2)$

R^{2}

$R^2$

(1)

$(1)$

S S_{t o t} = \sum_{i} (y_{i} - \bar{y})^{2}

$SS_{tot}=\sum_i(y_i - \bar y )^2$

R^{2}

$R^2$

S S_{t o t}

$SS_{tot}$ zmieniła się, jeżeli przełącznik

y

$y$ z

do

; w międzyczasie

nie zmienia się.

a_{1}

$a_1$

a_{2}

$a_2$

S S_{r e s} = \sum_{i} (f_{i} - \bar{y})^{2}

$SS_{res}=\sum_i(f_i-\bar y)^2$

Moje pytanie brzmi: w jaki sposób mogą się one ze sobą sprzeczne?

Edytuj :

Zastanawiałem się, czy będzie relacja w równaniu. (2) nadal stoją, jeśli nie jest to prosta regresja liniowa, tj. Związek między IV i DV nie jest liniowy (może być wykładniczy / log)?
Czy ta relacja nadal będzie obowiązywać, jeśli suma błędów prognozowania nie będzie równa zero?

correlation r-squared

— Shawn Wang
źródło

Uważam, że ta prezentacja jest bardzo pomocna i nietechniczna: google.com/…

— ihadanny

19

To prawda, że zmieni się ... ale zapomniałeś, że zmieni się również regresja sumy kwadratów. Rozważmy więc prosty model regresji i oznaczmy współczynnik korelacji jako $SS_{tot}$ , gdzie użyłem subindeksuaby podkreślić fakt, żejest zmienną niezależną, ajest zmienną zależną. Oczywiście, pozostaje niezmienione, jeśli zamieniszpomocą. Możemy łatwo pokazać, że, gdziejest sumą regresji kwadratów i $r_{xy}^2=\dfrac{S_{xy}^2}{S_{xx}S_{yy}}$ $xy$ $x$ $y$ $r_{xy}^2$ $x$ $y$ $SSR_{xy}=S_{yy}(R_{xy}^2)$ $SSR_{xy}$ jest całkowitą sumą kwadratów, gdzie jest niezależny, a jest zmienną zależną. Dlatego: $S_{yy}$ $x$ $y$ gdziejest odpowiednią resztkową sumą kwadratów, gdziejest niezależny, ajest zmienną zależną. Zauważ, że w tym przypadku mamyz

R_{x y}^{2} = \frac{S S R_{x y}}{S_{y y}} = \frac{S_{y y} - S S E_{x y}}{S_{y y}},

$R_{xy}^2=\dfrac{SSR_{xy}}{S_{yy}}=\dfrac{S_{yy}-SSE_{xy}}{S_{yy}},$

S S E_{x y}

$SSE_{xy}$

x

$x$

y

$y$

S S E_{x y} = b_{x y}^{2} S_{x x}

$SSE_{xy}=b^2_{xy}S_{xx}$

(patrz np. Równanie (34) - (41)tutaj.) Dlatego:

b = \frac{S_{x y}}{S_{x x}}

$b=\dfrac{S_{xy}}{S_{xx}}$

Oczywiście powyższe równanie jest symetryczna względem

i

. Innymi słowy:

Podsumowując po zmianie

z

w prostym modelu regresji zarówno licznik, jak i mianownik

R_{x y}^{2} = \frac{S_{y y} - \frac{S_{x y}^{2}}{S_{x x}^{2}} . S_{x x}}{S_{y y}} = \frac{S_{y y} S_{x x} - S_{x y}^{2}}{S_{x x} . S_{y y}} .

$R_{xy}^2=\dfrac{S_{yy}-\dfrac{S^2_{xy}}{S^2_{xx}}.S_{xx}}{S_{yy}}=\dfrac{S_{yy}S_{xx}-S^2_{xy}}{S_{xx}.S_{yy}}.$

x

$x$

y

$y$

R_{x y}^{2} = R_{y x}^{2} .

$R_{xy}^2=R_{yx}^2.$

x

$x$

y

$y$

zmieni się w taki sposób, że

R_{x y}^{2} = \frac{S S R_{x y}}{S_{y y}}

$R_{xy}^2=\dfrac{SSR_{xy}}{S_{yy}}$

R_{x y}^{2} = R_{y x}^{2} .

$R_{xy}^2=R_{yx}^2.$

— Stat
źródło

R^{2} = r^{2}

$R^2 = r^2$

1

R^{2} = S S_{r e g} / S S_{t o t}

$R^2=SS_{reg}/SS_{tot}$

S S_{r e s} = \sum_{i} (f_{i} - \bar{y})^{2}

$SS_{res}=\sum_i(f_i-\bar y)^2$

S S_{t o t}

$SS_{tot}$

R^{2}

$R^2$ jest zmieniony.

— Shawn Wang

Czy zdarza ci się mieć odniesienie do tego, jak to rozwiązać w ogólnym przypadku zmienności p Gaussa?

— jmb

26

$R^{2}$ $y_{i}$ $\hat{y}_{i}$

Pełny dowód na to, jak uzyskać współczynnik determinacji R2 z kwadratowego współczynnika korelacji Pearsona między wartościami obserwowanymi yi a wartościami dopasowanymi y ^ i można znaleźć pod następującym linkiem:

http://economictheoryblog.wordpress.com/2014/11/05/proof/

Moim zdaniem powinno to być dość łatwe do zrozumienia, wystarczy wykonać pojedyncze kroki. Wydaje mi się, że patrząc na to, konieczne jest zrozumienie, w jaki sposób naprawdę działa relacja między dwiema kluczowymi postaciami.

— Andreas Dibiasi
źródło

6

$R^2 = r^2 = Corr(x,y)^2$

R^{2} = C o r r (y_{e s t i m a t e d}, y_{o b s e r v e d})^{2}

$R^2 = Corr(y_{estimated},y_{observed})^2$

Kwadrat korelacji między odpowiedzią a dopasowanym modelem liniowym.

— mężczyzna
źródło

5

$r$ $r^2$

$r$ $Y$ $X$ $X$ $Y$ $r$ $.30$

$r^2$ $r^2 = (\frac {cov}{\sigma_x \sigma_y})^2 = \frac {|cov|} {\sigma_x^2} \frac {|cov|} {\sigma_y^2}$ $r^2$ $\sqrt{prop*prop}$ $r$

$cov$ $\sigma_x^2$ $\sigma_y^2$ $cov$ $cov$ $\sigma_x^2$ $\sigma_y^2$ $\sigma_x \sigma_y$ $r^2$ $r$

$r$ $r^2$ $Y\text~X$ $X\text~Y$

— ttnphns
źródło

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

Współczynnik determinacji lub R-kwadrat jest szerszą koncepcją niż r ^ 2, która dotyczy jedynie prostej regresji liniowej. Proszę przeczytać wikipedia en.wikipedia.org/wiki/Coefficient_of_determination .

— ttnphns

Dzięki jeszcze raz! Rozumiem. Moje pytanie brzmi: czy w przypadku bardziej złożonych regresji, czy nadal mogę wyrównać wartość r, aby uzyskać współczynnik determinacji?

— Shawn Wang

1

W przypadku „złożonej regresji” dostajesz kwadrat R, ale nie dostajesz r.

— ttnphns

1

$R^2=r^2$ $R^2$

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

$R^2$ $R^2$

$R^2\ne r^2$ $R^2$ $r$ $\rho$

— Nick Stauner
źródło

1

R^{2} = - 0.1468

$R^2=–0.1468$

S S R > S S T

$SSR>SST$

- R^{2}

$-R^2$

R^{2}

$R^2$