Korelacja jest standaryzowany kowariancji, czyli kowariancji x i y podzielona przez odchylenie standardowe x i y . Pozwól mi to zilustrować.
Mówiąc luźniej, statystyki można podsumować jako dopasowanie modeli do danych i ocenę, jak dobrze model opisuje te punkty danych ( Wynik = Model + Błąd ). Jednym ze sposobów jest obliczenie sum odchyleń lub reszt (res) z modelu:
r e s = ∑ ( xja- x¯)
Wiele obliczeń statystycznych opiera się na tym, w tym. współczynnik korelacji (patrz poniżej).
Oto przykładowy zestaw danych R
(reszty są oznaczone czerwonymi liniami, a ich wartości dodane obok nich):
X <- c(8,9,10,13,15)
Y <- c(5,4,4,6,8)
Patrząc na każdy punkt danych indywidualnie i odejmując jego wartość od modelu (np. Średnią; w tym przypadku X=11
i Y=5.4
), można ocenić dokładność modelu. Można powiedzieć, że model zawyżał / nie doceniał rzeczywistej wartości. Jednak sumując wszystkie odchylenia od modelu, całkowity błąd ma tendencję do zera , wartości się znoszą, ponieważ istnieją wartości dodatnie (model nie docenia konkretnego punktu danych) i wartości ujemne (model przecenia określone dane punkt). Aby rozwiązać ten problem, sumy odchyleń są podniesione do kwadratu i teraz nazywane są sumami kwadratów ( S.S. ):
S.S.= ∑ ( xja- x¯) ( xja- x¯) = ∑ ( xja- x¯)2)
n - 1s2)
s2)= SS.n - 1= ∑ ( xja- x¯) ( xja- x¯)n - 1= ∑ ( xja- x¯)2)n - 1
Dla wygody można przyjąć pierwiastek kwadratowy wariancji próbki, który jest znany jako standardowe odchylenie próbki:
s = s2)--√= SS.n - 1---√= ∑ ( xja- x¯)2)n - 1-------√
Teraz kowariancja ocenia, czy dwie zmienne są ze sobą powiązane. Wartość dodatnia wskazuje, że gdy jedna zmienna odbiega od średniej, druga zmienna odchyla się w tym samym kierunku.
c o vx , y= ∑ ( xja- x¯) ( yja- y¯)n - 1
Poprzez standaryzację wyrażamy kowariancję na jednostkę odchylenia standardowego, która jest współczynnikiem korelacji Pearsona r. This allows comparing variables with each other that were measured in different units. The correlation coefficient is a measure of the strength of a relationship ranging from -1 (a perfect negative correlation) to 0 (no correlation) and +1 (a perfect positive correlation).
r=covx,ysxsy=∑(x1−x¯)(yi−y¯)(n−1)sxsy
In this, case the Pearson correlation coefficient is r=0.87, which can be considered a strong correlation (although this is also relative depending on the field of study). To check this, here another plot with X
on the x-axis and Y
on the y axis:
Tak krótka historia, tak, masz rację, ale mam nadzieję, że moja odpowiedź da kontekst.