Spodziewałbym się, że współczynnik korelacji będzie taki sam jak nachylenie regresji (beta), jednak po porównaniu obu tych wartości są one różne. Czym się różnią - jakie różne informacje podają?
Spodziewałbym się, że współczynnik korelacji będzie taki sam jak nachylenie regresji (beta), jednak po porównaniu obu tych wartości są one różne. Czym się różnią - jakie różne informacje podają?
Odpowiedzi:
Zakładając, że mówisz o prostym modelu regresji oszacowanym przez najmniejszych kwadratów, wiemy z wikipedii, że Dlatego te dwa są zbieżne, gdy . Oznacza to, że pokrywają się one tylko wtedy, gdy dwie zmienne są w tej samej skali, w pewnym sensie. Najczęstszym sposobem osiągnięcia tego jest standaryzacja, na co wskazuje @gung.
Oba, w pewnym sensie, dają ci te same informacje - każda z nich mówi o sile liniowej zależności między a . Ale każdy z nich podaje odrębne informacje (z wyjątkiem, oczywiście, gdy są dokładnie takie same):
Korelacja daje ograniczony pomiar, który można interpretować niezależnie od skali dwóch zmiennych. Im bliższa jest szacunkowa korelacja z , tym bliżej są idealnej relacji liniowej . Nachylenie regresji, w oderwaniu, nie mówi ci tej informacji.
Nachylenie regresji daje użyteczną wielkość interpretowaną jako szacowana zmiana oczekiwanej wartości dla danej wartości . W szczególności informuje o zmianie oczekiwanej wartości odpowiadającej 1-jednostkowemu wzrostowi . Tych informacji nie można wywnioskować z samego współczynnika korelacji.
Dzięki prostej regresji liniowej (czyli tylko jeden współzmienna), nachylenie jest taka sama jak Pearsona jeżeli obie zmienne zostały znormalizowane w pierwszej kolejności. (Aby uzyskać więcej informacji, moja odpowiedź tutaj może być pomocna.) W przypadku regresji wielokrotnej może to być bardziej skomplikowane z powodu wielokoliniowości itp.
Współczynnik korelacji mierzy „szczelność” liniowej zależności pomiędzy dwoma zmiennymi, a jest ograniczony od -1 do 1 włącznie. Korelacje bliskie zeru nie reprezentują liniowego związku między zmiennymi, natomiast korelacje bliskie -1 lub +1 wskazują na silną zależność liniową. Intuicyjnie, im łatwiej jest ci narysować linię najlepszego dopasowania przez wykres rozrzutu, tym bardziej są one skorelowane.
W nachylenie regresji mierzy „stromość” liniowej zależności pomiędzy dwoma zmiennymi i może przyjmować dowolną wartość od do . Nachylenia bliskie zeru oznaczają, że zmienna odpowiedzi (Y) zmienia się powoli wraz ze zmianą zmiennej predyktora (X). Nachylenia, które są dalej od zera (w kierunku ujemnym lub dodatnim) oznaczają, że odpowiedź zmienia się szybciej, gdy zmienia się predyktor. Intuicyjnie, jeśli chcesz narysować linię najlepszego dopasowania przez wykres rozrzutu, im bardziej stromy, tym bardziej nachylenie jest od zera.+ ∞
Zatem współczynnik korelacji i nachylenie regresji MUSZĄ mieć ten sam znak (+ lub -), ale prawie nigdy nie będą miały tej samej wartości.
Dla uproszczenia odpowiedź ta zakłada prostą regresję liniową.
Współczynnik korelacji Pearsona jest bezwymiarowy i skalowany między -1 a 1 niezależnie od wymiaru i skali zmiennych wejściowych.
Jeśli (na przykład) wprowadzisz masę w gramach lub kilogramach, nie będzie to miało znaczenia dla wartości , podczas gdy spowoduje to ogromną różnicę w stosunku do gradientu / nachylenia (który ma wymiary i jest odpowiednio skalowany ... podobnie, to nie miałoby znaczenia gdyby skala została w jakikolwiek sposób dostosowana, w tym zamiast funtów lub ton).
Prosta demonstracja (przepraszam za użycie Pythona!):
import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]
pokazuje, że mimo że nachylenie zostało zwiększone 10- .
Muszę wyznać, że to fajna sztuczka, która jest skalowana między -1 a 1 (jeden z tych przypadków, w których licznik nigdy nie może mieć wartości bezwzględnej większej niż mianownik).
Jako @Macro został opisany powyżej, nachylenie , dzięki czemu są poprawne intuiting że Pearsona odnosi się do nachylenia, ale tylko wtedy, gdy dostosowane do standardowych odchyleń (co skutecznie przywraca wymiary i skalę!).
Na początku wydawało mi się dziwne, że formuła wydaje się sugerować, że luźno dopasowana linia (niskie ) powoduje niższy gradient; następnie wykreśliłem przykład i zdałem sobie sprawę, że biorąc pod uwagę gradient, zmienianie „luźności” powoduje zmniejszenie ale jest to równoważone przez proporcjonalny wzrost .
Na poniższym wykresie przedstawiono cztery zestawy danych :
Można zauważyć, że wariancja wpływa na bez koniecznego wpływu na , a jednostki miary mogą wpływać na skalę, a zatem bez wpływu na