Zrozumienie kształtu i obliczanie pasm ufności w regresji liniowej

Próbuję zrozumieć pochodzenie zakrzywionych kształtów pasm ufności związanych z regresją liniową OLS i sposób, w jaki odnosi się to do przedziałów ufności parametrów regresji (nachylenie i przecięcie), na przykład (przy użyciu R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

wprowadź opis zdjęcia tutaj

Wydaje się, że pasmo jest powiązane z granicami linii obliczonymi z przecięciem 2,5% i nachyleniem 97,5%, a także z przecięciem 97,5% i nachyleniem 2,5% (choć nie do końca):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

wprowadź opis zdjęcia tutaj

Nie rozumiem dwóch rzeczy:

Co z kombinacją nachylenia 2,5% i przechwytu 2,5%, a także nachylenia 97,5% i przechwytywania 97,5%? Dają one linie, które są wyraźnie poza pasmem wykreślonym powyżej. Może nie rozumiem znaczenia przedziału ufności, ale jeśli w 95% przypadków moje oszacowania mieszczą się w przedziale ufności, wydaje się, że to możliwy wynik?
Co określa minimalną odległość między górną i dolną granicą (tj. Blisko punktu, w którym dwie linie dodane powyżej przechwytują)?

Wydaje mi się, że oba pytania powstają, ponieważ nie wiem / nie rozumiem, w jaki sposób te pasma są obliczane.

Jak obliczyć górną i dolną granicę za pomocą przedziałów ufności parametrów regresji (bez polegania na predykcji () lub podobnej funkcji, tj. Ręcznie)? Próbowałem rozszyfrować funkcję predykcji.lm w języku R, ale kodowanie jest poza mną. Będę wdzięczny za wszelkie wskazówki dotyczące odpowiedniej literatury lub wyjaśnień odpowiednich dla początkujących statystyk.

Dzięki.

regression confidence-interval

— David
źródło

Poniżej masz dwie dobre odpowiedzi. Jeśli chcesz uzyskać więcej informacji, może pomóc ci przeczytać moją odpowiedź tutaj: interwał przewidywania regresji liniowej , który dotyczy przedziałów przewidywania, ale idea jest bardzo podobna.

— gung - Przywróć Monikę

W tym poście podano szczegółowe intuicyjne wyjaśnienie: Kształt przedziału ufności dla przewidywanych wartości w regresji liniowej

— Glen_b

TA za pomocne odpowiedzi i doskonałe linki.

— David

zobacz: stats.stackexchange.com/a/397504/144543

— ouranos

Odpowiedzi:

$X$ $s_{\hat{Y}_{X}}$

$s_{\hat{Y}_{X}} = s_{Y|X}\sqrt{\frac{1}{n}+\frac{\left(X-\bar{X}\right)^{2}}{\sum_{i=1}^{n}{\left(X_{i}-\bar{X}\right)^{2}}}}$

$s_{Y|X}$

$s_{Y|X} = \sqrt{\frac{\sum_{i=1}^{n}{\left(Y_{i}-\hat{Y}\right)^{2}}}{n-2}}$

$\hat{Y} \pm t_{\nu=n-2, \alpha/2}s_{\hat{Y}}$

$Y$ $X$

$\hat{\beta}$ $\hat{\alpha}$

— Alexis
źródło

Czy istnieje podręcznik wyjaśniający, skąd pochodzą te formuły?

— Michael Goerz

@MichaelGoerz Każda wprowadzająca statystyka, biostatystyka, ekonometria itp., Która obejmuje zwykłą regresję liniową metodą najmniejszych kwadratów.

— Alexis,

Mam Wasserman - All of Statistics, James i in. - An Introduction to Statistics Learning oraz Hastie i in. - Elementy uczenia statystycznego. W żadnym z nich nie udało mi się znaleźć równań dla pasm ufności regresji liniowej. Czy masz numer rozdziału / eq dla którejkolwiek z tych lub innej powszechnie dostępnej książki?

— Michael Goerz

Żadna z wymienionych przez ciebie książek nie jest rodzajem książek, o których dyskutuje Alexis. Książka Foxa o regresji stosowanej ma ją, jeśli dobrze pamiętam.

— Glen_b

@MichaelGoerz Podobnie jak Pagano, M. i Gauvreau, K. (2000). Zasady biostatystyki . Duxbury Press, Pacific Grove, Kalifornia, 2. wydanie i Glantz, SA (2011). podkład biostatystyki . McGraw-Hill Medical, New York, NY, 7. wydanie, mimo że nie są to teksty specyficzne dla regresji.

— Alexis

Fajne pytanie. Ważne jest, aby zrozumieć te pojęcia i nie są one proste.

$\bar y$ $\bar y$ $\bar y$

Kiedy połączymy wszystkie przedziały ufności, dla każdego możliwego x, daje nam to szare pasy, które widzisz na wyjściu.

Funkcjonalnie oznacza to, że jesteśmy w 95% pewni, że prawdziwa linia regresji leży gdzieś w tej szarej strefie.

Ponieważ przedziały ufności są obliczane przy użyciu 95% przedziałów ufności dla każdego pojedynczego punktu, jest to bardzo ściśle powiązane z 95% CI dla przechwytywania. W rzeczywistości przy x = 0 krawędzie szarej strefy będą dokładnie pokrywać się z 95% CI dla przechwytywania, ponieważ w ten sposób wygenerowaliśmy przedziały ufności. Dlatego linie, które dodałeś powyżej, uderzają w krawędź szarego paska w lewo.

Jednak nachylenie jest nieco inne. Wpływa to na ograniczenia, jak widzieliśmy powyżej, ale nachylenia i przecięcia nie da się rozdzielić w regresji liniowej. Tak więc nie można tak naprawdę powiedzieć „a co jeśli przecięcie było na minimum zakresu CI, a nachylenie było również na minimum?” Ta linia generowałaby punkty, które są znacznie poza naszymi 95% CI dla wielu x. Oznacza to, że jesteśmy w 95% pewni, że nie jest to nasza prawdziwa linia regresji.

$\bar x$ $s_{{\hat y}_x}$ $(x - \bar x)$ $x = \bar x$

Jest tutaj przyzwoity program PowerPoint, który może pomóc w wizualizacji niektórych z tych rzeczy: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf

— Duncan
źródło

Myślę, że to naprawiłem - zastąpiłem yhaty ybarem. Czy to bardziej poprawne? Zawsze to schrzanię.

— Duncan

Ta. Jedną z rzeczy, która pozostaje dla mnie niejasna, jest to, jak sprawić, by następujące dwa stwierdzenia były spójne: „Oznacza to, że pod względem funkcjonalnym mamy 95% pewności, że prawdziwa linia regresji leży gdzieś w tej szarej strefie”. vs „[...] przedziały ufności dotyczące przecięcia i nachylenia są jeszcze innymi wielkościami”. Jeśli pierwsze zdanie jest poprawne, musi istnieć jakiś (matematyczny?) Związek między CI punktu przecięcia i nachylenia a pasmem wykreślonym powyżej? Myślę, że odnosi się to do części mojego pytania: Jak obliczyć (jeśli to możliwe) pasmo powyżej, używając CI nachylenia i przechwytywania?

— David

\bar{x}

$\bar x$

Ładny, zrozumiały post i fajny link! +1

— theforestecologist