Współczynnik korelacji zapisuje się zwykle dużą literą ale czasem nie. Zastanawiam się, czy naprawdę istnieje różnica między i ? Czy może oznaczać coś innego niż współczynnik korelacji?r 2 R 2 r
Współczynnik korelacji zapisuje się zwykle dużą literą ale czasem nie. Zastanawiam się, czy naprawdę istnieje różnica między i ? Czy może oznaczać coś innego niż współczynnik korelacji?r 2 R 2 r
Odpowiedzi:
Zapis w tej sprawie wydaje się nieco różnić.
jest stosowany w kontekście wielokrotnej korelacji i nazywa się go „współczynnikiem wielokrotnej korelacji”. Jest to korelacja pomiędzy obserwowanymi odpowiedzi i Y wyposażonych przez model. Y jest zwykle przewidywane na podstawie kilku czynników predykcyjnych X I , np Y = β 0 + β 1 X 1 + β 2 x 2 , gdzie współczynniki przecięcia i nachylenia p i oszacowano na podstawie danych. Zauważ, że 0 .
Symbol jest „współczynnikiem korelacji próbki” stosowanym w przypadku dwóch zmiennych - tzn. Istnieją dwie zmienne, X i Y - i zwykle oznacza korelację między X i Y w twojej próbce. Można to potraktować jako oszacowanie korelacji ρ między dwiema zmiennymi w szerszej populacji. Aby skorelować dwie zmienne, nie jest konieczne określenie, która z nich jest predyktorem, a która jest odpowiedzią. Rzeczywiście, jeśli znalazłeś korelację między Y i X , byłaby taka sama jak korelacja między X i Y , ponieważ korelacja jest symetryczna. Zauważ, że gdy symbol r jest używany w ten sposób, przy r < 0 (korelacja ujemna), jeśli dwie zmienne mają zależność liniowo malejącą (gdy jedna rośnie, druga zmniejsza się).
Zapis staje się niespójny, gdy występują dwie zmienne, i Y , i wykonywana jest prosta regresja liniowa . To oznacza, określających jedną zmienną, Y , w zależności od wielkości wyjściowych i drugiej, X , jako predyktor oraz dopasowania modelu Y = β 0 + β 1 X . Niektórzy ludzie również użyć symbolu R , aby wskazać zależność między Y i Y , podczas gdy inni (dla zgodności z regresji wielokrotnej) Napisz R. Należy zauważyć, że korelacja między obserwowanymi a dopasowanymi odpowiedziami jest z konieczności większa lub równa zero. Jest to jeden z powodów, że nie podoba mi się użycie symbolu w tym przypadku: korelacja między X i Y mogą być ujemne, natomiast korelacja pomiędzy Y i Y jest dodatnia (w rzeczywistości to po prostu być moduł z korelacja między X i Y ), ale oba mogą być zapisane symbolem r . Widziałem niektóre podręczniki i artykuły z Wikipedii, które prawie zamiennie przełączają się między dwoma znaczeniami ri uznałem, że jest to niepotrzebnie mylące. Wolę używać symbolu R.na korelacji pomiędzy i Y zarówno regresji pojedynczych i wielokrotnych.
W przypadku zarówno prostych jak i stwardnieniem regresion, a następnie, o ile jest to termin osią wyposażony w modelu pomiędzy Y i Y jest po prostu jako pierwiastek kwadratowy z współczynnik korelacji R 2 (często nazywane „odsetek wariancji wyjaśnione” lub podobny). W przypadku prostych regresji liniowej szczególności, wtedy , gdzie m pisania dla korelacji między X i Y , a R 2 może stanowić albo współczynnik korelacji regresji lub kwadrat korelacji pomiędzy i Y . Ponieważ - 1 ≤ r ≤ 1 i 0 ≤ R ≤ 1 , oznacza to, że R = | r | . Tak na przykład, jeśli pojawi się korelację między X i Y z R = - 0,7 , to korelacja pomiędzy Y i wyposażoną Y od prostych regresji liniowej Y = P 0 + β 1 Xbędzie wynosić a współczynnik determinacji wyniesie R 2 = 0,49, tj. prawie połowa zmienności odpowiedzi zostałaby wyjaśniona przez Twój model.
Jeśli nie termin przechwytujący włączono do modelu, a symbol jest niejednoznaczna. Zwykle jest to współczynnik determinacji, ale ogólnie będzie obliczany w inny sposób niż zwykle , więc należy zachować ostrożność podczas odczytywania danych wyjściowych z oprogramowania statystycznego. Wówczas nie jest już taki sam jak kwadrat wielokrotnej korelacji R , ani w przypadku dwuwymiarowym nie będzie równy r 2 !