Rozumiem, że oznacza to, że model źle prognozuje poszczególne punkty danych, ale ustanowił silny trend (np. Y rośnie, gdy x rośnie).
Rozumiem, że oznacza to, że model źle prognozuje poszczególne punkty danych, ale ustanowił silny trend (np. Y rośnie, gdy x rośnie).
Odpowiedzi:
Oznacza to, że możesz wyjaśnić niewielką część wariancji danych. Na przykład możesz ustalić, że stopień naukowy wpływa na wynagrodzenie, ale jednocześnie jest to tylko niewielki czynnik. Istnieje wiele innych czynników, które wpływają na twoje wynagrodzenie, a wkład studiów wyższych jest bardzo niewielki, ale wykrywalny.
W praktyce może to oznaczać, że średni stopień kolegium zwiększa wynagrodzenie za $ 500 rocznie, podczas gdy odchylenie standardowe od wynagrodzeń osób to $ 10K. Tak więc wiele osób z wyższym wykształceniem ma niższe zarobki niż osoby bez wykształcenia, a wartość twojego modelu prognozowania jest niska.
Oznacza to, że „błąd nieredukowalny jest wysoki”, tzn. Najlepsze, co możemy zrobić (z modelem liniowym) jest ograniczone. Na przykład następujący zestaw danych:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
Uwaga: sztuczka w tym zestawie danych polega na tym, że biorąc pod uwagę jedną wartość , istnieje zbyt wiele różnych wartości y , że nie możemy zrobić dobrej prognozy, aby spełnić wszystkie z nich. W tym samym czasie, nie jest „silny” korelacji liniowej między X i Y . Jeśli dopasujemy model liniowy, otrzymamy znaczące współczynniki, ale niskie R do kwadratu.
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
Co to znaczy, że regresja liniowa jest statystycznie istotna, ale ma bardzo niskie r kwadrat do kwadratu?
Oznacza to, że istnieje zależność liniowa między zmienną niezależną i zależną, ale ta relacja może nie być warta rozmowy.
Znaczenie relacji zależy jednak w dużej mierze od tego, co badamy, ale ogólnie można przyjąć, że nie należy mylić znaczenia statystycznego z istotnością.
Przy wystarczająco dużej próbie nawet najbardziej trywialne relacje mogą być istotne statystycznie.
Innym sposobem sformułowania tego jest to, że oznacza to, że możesz śmiało przewidzieć zmianę na poziomie populacji, ale nie na poziomie indywidualnym. tzn. istnieje duża zmienność w poszczególnych danych, ale gdy stosuje się wystarczająco dużą próbkę, ogólny efekt można zobaczyć ogólnie. Jest to jeden z powodów, dla których niektóre rządowe porady zdrowotne nie są pomocne dla danej osoby. Rządy czasami odczuwają potrzebę działania, ponieważ widzą, że więcej niektórych działań prowadzi do ogólnej liczby zgonów w populacji. Tworzą porady lub zasady, które „ratują” ich życie. Jednak ze względu na dużą różnorodność indywidualnych odpowiedzi może być bardzo mało prawdopodobne, aby osobiście dostrzegł jakąkolwiek korzyść (lub, co gorsza, ze względu na określone warunki genetyczne, ich własne zdrowie poprawiłoby się w wyniku zastosowania przeciwnych wskazówek, ale jest to ukryte w agregacji populacji). Jeśli dana osoba czerpie korzyści (np. Przyjemność) z „niezdrowej” działalności, postępowanie zgodnie z tą radą może oznaczać, że rezygnuje z tej określonej przyjemności przez całe życie, ale tak naprawdę nie zmienia osobiście, czy cierpiałby na tę chorobę.