W wielokrotnej regresji liniowej rozumiem, że korelacje między resztą a predyktorami wynoszą zero, ale jaka jest oczekiwana korelacja między resztą a zmienną kryterium? Czy powinno być zerowe czy wysoce skorelowane? Jakie jest tego znaczenie?
W wielokrotnej regresji liniowej rozumiem, że korelacje między resztą a predyktorami wynoszą zero, ale jaka jest oczekiwana korelacja między resztą a zmienną kryterium? Czy powinno być zerowe czy wysoce skorelowane? Jakie jest tego znaczenie?
Odpowiedzi:
W modelu regresji:
y i = x ′ i β + u i
zwykle przyjmuje się, że , jest próbką id. Przy założeniu, że i ma pełną rangę, zwykły estymator najmniejszych kwadratów:( R i , x I , U i ) i = 1 , . . . , n E x i u i = 0 E ( x i x ′ i )
ˆβ=(n∑i=1xix′i)−1∑i=1xiyi
jest spójny i asymptotycznie normalny. Oczekiwana kowariancja między zmienną resztkową a zmienną odpowiedzi wynosi wtedy:
Eyiui=E(x′iβ+ui)ui=Eu2i
Jeśli ponadto założymy, że i , możemy obliczyć oczekiwaną kowariancję między i resztkową regresją:E(ui|x1,...,xn)=0
Eyiˆui=Eyi(yi−x′iˆβ)=E(x′iβ+ui)(ui−xi(ˆβ−β))=E(u2i)(1−Ex′i(n∑j=1xjx′j)−1xi)
Teraz, aby uzyskać korelację, musimy obliczyć i . Okazało się, żeVar(yi)
Var(ˆui)=E(yiˆui),
stąd
Corr(yi,ˆui)=√1−Ex′i(n∑j=1xjx′j)−1xi
Obecnie termin pochodzi od przekątnej macierzy kapelusza , gdzie . Macierz jest idempotentna, a zatem spełnia następującą właściwośćx′i(∑nj=1xjx′j)−1xi
trace(H)=∑ihii=rank(H),
gdzie jest przekątną termin . jest numerem zmiennych liniowo niezależne w , która jest zwykle ilość zmiennych. Nazwijmy to . Liczba ma wielkość próbki . Mamy więc nieujemnych warunków, które powinny sumować się do . Zwykle jest znacznie większe niż , stąd duża część byłaby bliska zeru, co oznacza, że korelacja między zmienną resztkową a zmienną odpowiedzi byłaby bliska 1 dla większej części obserwacji.hii
Termin jest również używany w różnych diagnostykach regresji do określania wpływowych obserwacji.hii
Korelacja zależy R 2 . Jeśli R 2 jest wysoki, oznacza to, że znaczna część zmienności zmiennej zależnej swojej można przypisać zmianom w swoich niezależnych zmiennych, a nie swoje pojęcie o błędzie.
Jednakże, jeśli R 2 jest niska, wówczas oznacza to, że znaczna część zmienności zmiennej zależnej jest związana swoim zmianom w swoich niezależnych zmiennych, a więc muszą być związane z określeniem błędu.
Rozważ następujący model:
Y = X β + ε , gdzie Y i X są nieskorelowane.
Zakładając, że warunki CLT wystarczają do utrzymania.
Β będą zbliżać się do0, odXiYsą nieskorelowane. Zatem Y =X β zawsze zero. Tak więc,ε:=Y - Y =Y-0=Y. εiYsą doskonale skorelowane !!!
Trzymając wszystko inne ustalone, zwiększenie R 2 zmniejszy korelację między błędem a zależnym. Silna korelacja niekoniecznie jest powodem do niepokoju. Może to po prostu oznaczać, że podstawowy proces jest głośny. Jednak mała R 2 (a tym samym wysoka korelacja pomiędzy błędem i utrzymaniu) może wynikać z modelu być błąd.
Uważam ten temat za dość interesujący, a obecne odpowiedzi są niestety niepełne lub częściowo mylące - pomimo znaczenia i wysokiej popularności tego pytania.
Definicji klasycznego OLS ramach nie powinno być żadnego związku między Y i U
Cov ( Y , U | X ) = Cov ( P Y , M r | X ) = Cov ( P R , ( I - P ) T | X ) = P cov ( R , R ) ( I - P ) ' = P σ 2 - P σ 2 = 0
Gdzie M i P są macierzami idempotentnych zdefiniowane jako: P = X ( X " X ), X ' i M = I - P .
Wynik ten opiera się na ścisłej egzogeniczności i homoskedastyczności i praktycznie mieści się w dużych próbkach. Intuicji ich uncorrelatedness jest następujący: dopasowanej wartości Y uwarunkowane X są wokół U , które jak się uważa, jako niezależny i jednakowo rozdzielone. Jednakże, wszelkie odchylenia od ścisłego egzogeniczność i homoskedasticity założeniu mogą powodować zmienne objaśniające się endogennego i pobudzić utajony korelację pomiędzy U i Y .
Teraz korelacja pomiędzy reszt kształcie U i „oryginalny” y to zupełnie inna historia:
Cov(y,û|X)=Cov(yMy|X)=Cov(y,(1−P)y)=Cov(y,y)(1−P)=σ2M
Some checking in the theory and we know that this covariance matrix is identical to the covariance matrix of the residual ˆu
Var(û)=σ2M=Cov(y,û|X)
If we would like to calculate the (scalar) covariance between y
⟹Covscalar(y,û|X)=Var(û|X)=(∑u2i)/N
(= by summing up of the diagonal entries of the covariance matrix and divide by N)
The above formula indicates an interesting point. If we test the relationship by regressing y
On the other hand, the correlation is the standardized covariance by the respective standard deviations. Now, the variance matrix of the residuals is σ2M
Corr(y,û)=Var(û)√Var(ˆu)Var(y)=√Var(û)Var(y)=√Var(û)σ2
This is the core result which ought to hold in a linear regression. The intuition is that the Corr(y,û)
Corr(y,û)=1√1+Var(^y)Var(û)
The are two forces here at work. If we have a great fit of the regression line, the correlation is expected to be low due to Var(û)≈0
An attempt conclude the question: The correlation between y
Notwithstanding this exercise may give us some intuition on the workings and inherent theoretical assumptions of an OLS regression, we rarely evaluate the correlation between y
For example, I would like to point out a statement made by a previous poster here. It is said that,
"If your residuals are correlated with your independent variables, then your model is heteroskedastic..."
I think that may not be entirely valid in this context. Believe it or not, but the OLS residuals û
X′ui=X′My=X′(I−P)y=X′y−X′Py
However, you may have heard claims that an explanatory variable is correlated with the error term. Notice that such claims are based on assumptions about the whole population with a true underlying regression model, that we do not observe first hand. Consequently, checking the correlation between y
The Adam's answer is wrong. Even with a model that fits data perfectly, you can still get high correlation between residuals and dependent variable. That's the reason no regression book asks you to check this correlation. You can find the answer on Dr. Draper's "Applied Regression Analysis" book.
So, the residuals are your unexplained variance, the difference between your model's predictions and the actual outcome you're modeling. In practice, few models produced through linear regression will have all residuals close to zero unless linear regression is being used to analyze a mechanical or fixed process.
Ideally, the residuals from your model should be random, meaning they should not be correlated with either your independent or dependent variables (what you term the criterion variable). In linear regression, your error term is normally distributed, so your residuals should also be normally distributed as well. If you have significant outliers, or If your residuals are correlated with either your dependent variable or your independent variables, then you have a problem with your model.
If you have significant outliers and non-normal distribution of your residuals, then the outliers may be skewing your weights (Betas), and I would suggest calculating DFBETAS to check the influence of your observations on your weights. If your residuals are correlated with your dependent variable, then there is a significantly large amount of unexplained variance that you are not accounting for. You may also see this if you're analyzing repeated observations of the same thing, due to autocorrelation. This can be checked for by seeing if your residuals are correlated with your time or index variable. If your residuals are correlated with your independent variables, then your model is heteroskedastic (see: http://en.wikipedia.org/wiki/Heteroscedasticity). You should check (if you haven't already) if your input variables are normally distributed, and if not, then you should consider scaling or transforming your data (the most common kinds are log and square-root) in order to make it more normalized.
In the case of both, your residuals, and your independent variables, you should take a QQ-Plot, as well as perform a Kolmogorov-Smirnov test (this particular implementation is sometimes referred to as the Lilliefors test) to make sure that your values fit a normal distribution.
Three things that are quick and may be helpful in dealing with this problem, are examining the median of your residuals, it should be as close to zero as possible (the mean will almost always be zero as a result of how the error term is fitted in linear regression), a Durbin-Watson test for autocorrelation in your residuals (especially as I mentioned before, if you are looking at multiple observations of the same things), and performing a partial residual plot will help you look for heteroscedasticity and outliers.