Zrozumienie kształtu przedziału ufności dla regresji wielomianowej (MLR)

11

Mam trudności z uchwyceniem kształtu przedziału ufności regresji wielomianowej.

Oto przykład . Lewy rysunek przedstawia UPV (nieskalowana wariancja predykcji), a prawy wykres pokazuje przedział ufności i (sztucznie) zmierzone punkty przy X = 1,5, X = 2 i X = 3. $\hat{Y}=a+b\cdot X+c\cdot X^2$

Szczegóły podstawowych danych:

zestaw danych składa się z trzech punktów danych (1,5; 1), (2; 2,5) i (3; 2,5).
każdy punkt został „zmierzony” 10 razy, a każda zmierzona wartość należy do . Na 30 wynikowych punktach wykonano MLR z modelem spoczynkowym. $y \pm 0.5$
przedział ufności obliczono z recepturami i
$U P V = \frac{V a r [\hat{y} (x_{0})]}{{\hat{σ}}^{2}} = x_{0}^{'} (X^{'} X)^{- 1} x_{0}$ $UPV=\frac{Var[\hat{y}(x_0)]}{\hat{\sigma}^2}=x_0'(X'X)^{-1}x_0$ $\hat{y} (x_{0}) - t_{α / 2, d f (e r r o r)} \sqrt{{\hat{σ}}^{2} \cdot x_{0}^{'} (X^{'} X)^{- 1} x_{0}}$ $\hat{y}(x_0) - t_{\alpha /2, df(error)}\sqrt{\hat{\sigma}^2\cdot x_0'(X'X)^{-1}x_0}$ (obie formuły pochodzą z Myers, Montgomery, Anderson-Cook, „Response Surface Methodology”, czwarte wydanie, strony 407 i 34) $\leq μ_{y | x_{0}} \leq \hat{y} (x_{0}) + t_{α / 2, d f (e r r o r)} \sqrt{{\hat{σ}}^{2} \cdot x_{0}^{'} (X^{'} X)^{- 1} x_{0}} .$ $\leq \mu_{y|x_0} \leq \hat{y}(x_0) + t_{\alpha /2, df(error)}\sqrt{\hat{\sigma}^2\cdot x_0'(X'X)^{-1}x_0} .$

i . $t_{\alpha /2, df(error)}=2$ $\hat{\sigma}^2=MSE=SSE/(n-p)\sim0.075$

$x_0'(X'X)^{-1}x_0$

Rycina 1:

bardzo wysoka przewidywana wariancja poza przestrzenią projektową jest normalna, ponieważ dokonujemy ekstrapolacji
ale dlaczego wariancja jest mniejsza między X = 1,5 a X = 2 niż w zmierzonych punktach?
i dlaczego wariancja staje się szersza dla wartości powyżej X = 2, a następnie maleje po X = 2.3, aby ponownie stała się mniejsza niż w punkcie pomiaru przy X = 3?

Czy nie byłoby logiczne, aby wariancja była mała w zmierzonych punktach i duża między nimi?

Edycja: ta sama procedura, ale z punktami danych [(1,5; 1), (2,25; 2,5), (3; 2,5)] i [(1,5; 1), (2; 2,5), (2,5; 2,2), (3; 2.5)].

Rysunek 2:

Rycina 3:

$\hat{y} \pm t_{\alpha /2, df(error)}\cdot \sqrt{MSE}$

regression confidence-interval

— John Tokka Tacos
źródło

2

Czy możesz edytować swój post, aby uwzględnić dane, z którymi pracujesz?

— Stephan Kolassa

@StephanKolassa Próbowałem wyjaśnić, jakich danych użyłem. Niemniej jednak pytanie jest bardziej ogólne i nie jest związane z konkretnym przykładem.

— John Tokka Tacos

Jeśli podasz dane, łatwiej będzie zilustrować odpowiedź.

— Stephan Kolassa

6

$(x,y)$ $(x,x^2,y)$

Płacimy za konieczność patrzenia na trójwymiarowe obiekty, co jest trudne do zrobienia na ekranie statycznym. (Uważam, że nieskończenie obracające się obrazy są denerwujące i dlatego nie narzucą ci żadnego z nich, nawet jeśli mogą być pomocne.) Ta odpowiedź może nie wszystkim przypadać do gustu. Ale ci, którzy zechcą dodać trzeci wymiar swoją wyobraźnią, zostaną nagrodzeni. Proponuję ci pomóc w tym przedsięwzięciu za pomocą starannie dobranej grafiki.

Zacznijmy od wizualizacji zmiennych niezależnych . W modelu regresji kwadratowej

\begin{matrix} (1) & y_{i} = β_{0} + β_{1} (x_{i}) + β_{2} (x_{i}^{2}) + error, \end{matrix}

$y_i = \beta_0 + \beta_1 (x_i) + \beta_2 (x_i^2) + \text{error},\tag{1}$

$(x_i)$ $(x_i^2)$ $(x_i,x_i^2)$ $x$ $x^2.$ $(t,t^2):$

$(x,x^2)$

Regresja kwadratowa dopasowuje płaszczyznę do tych punktów.

$(\beta_0,\beta_1,\beta_2),$ $(x,x^2,y)$ $(1)$ $-\beta_1(x)-\beta_2(x^2)+(1)y-\beta_0,$ $(-\beta_1,-\beta_2,1).$ $\beta_1=-55/8$ $\beta_2=15/2,$ $1,$ $(x,x^2)$ samolot.)

Oto płaszczyzna najmniejszych kwadratów dopasowana do tych punktów:

$y=f(x,x^2),$ $(t,t^2)$

t \to (t, t^{2}, f (t, t^{2}))

$t\to (t, t^2, f(t,t^2))$

$x$ $y$ $x^2$

$(x,\hat y)$ $\hat y$ $x.$

Pasmo ufności dla tej dopasowanej krzywej pokazuje, co może się stać z dopasowaniem, gdy punkty danych są losowo zmieniane. Nie zmieniając punktu widzenia, narysowałem pięć dopasowanych płaszczyzn (i ich podniesione krzywe) do pięciu niezależnych nowych zestawów danych (z których tylko jedna jest pokazana):

$x \approx 1.75$ $x \approx 3.$

Spójrzmy na to samo, unosząc się nad trójwymiarową fabułą i patrząc nieco w dół i wzdłuż osi ukośnej płaszczyzny. Aby zobaczyć, jak zmieniają się płaszczyzny, skompresowałem również wymiar pionowy.

$(t,t^2)$ $(x,x^2).$

$(x_i,x_i^2)$ $\mathcal L$ $(x,x^2)$ $(x,x^2)$ $(x,x^2)$ $\mathcal L.$

$\mathcal L$ $t\to(t,t^2)$ $\mathcal L$ $x$ $1.7$ $2.9$

$(x,y)$

Ta analiza koncepcyjnie dotyczy regresji wielomianowej wyższego stopnia, a także ogólnie regresji wielokrotnej. Chociaż nie możemy tak naprawdę „zobaczyć” więcej niż trzech wymiarów, matematyka regresji liniowej gwarantuje, że intuicja wyprowadzona z dwu- i trójwymiarowych wykresów pokazanego tutaj typu pozostaje dokładna w wyższych wymiarach.

— Whuber
źródło

Dziękuję za tę wspaniałą odpowiedź! Nigdy nie przyszło mi do głowy, że regresja kwadratowa pasuje do samolotu. Te geometryczne formuły są naprawdę intuicyjne i bardzo mi pomogły.

— John Tokka Tacos

1

To świetna odpowiedź - powinniśmy skompilować twoje najlepsze posty i przekształcić je w książkę typu open source

— Xavier Bourret Sicotte

1

@Xavier Dziękujemy za miłe słowa. Myślałem o czymś takim i z zadowoleniem przyjmuję wszelkie konstruktywne sugestie i krytykę.

— whuber

1

Intuicyjny

W bardzo intuicyjnym i szorstkim sensie możesz zobaczyć krzywą wielomianową jako zszyte dwie krzywe liniowe (jedna wznosząca się, malejąca). Dla tych krzywych liniowych możesz zapamiętać wąski kształt w środku .

Punkty po lewej stronie piku mają stosunkowo niewielki wpływ na prognozy po prawej stronie piku i odwrotnie.

Można więc spodziewać się dwóch wąskich regionów po obu stronach szczytu (gdzie zmiany nachylenia obu stron mają stosunkowo niewielki wpływ).
Obszar wokół szczytu jest stosunkowo bardziej niepewny, ponieważ zmiana nachylenia krzywej ma większy wpływ w tym regionie. Możesz narysować wiele krzywych z dużym przesunięciem piku, który nadal przebiega rozsądnie przez punkty pomiarowe

Ilustracja

Poniżej znajduje się ilustracja z kilkoma różnymi danymi, która pokazuje łatwiej, w jaki sposób może powstać ten wzór (można powiedzieć podwójny węzeł):

set.seed(1)
x <- c(rep(c(-6, -5, 6, 5), 5))
y <- 0.2*x^2 + rnorm(20, 0, 1)
plot(x, y, 
     ylim=c(-10,30), xlim=c(-10,10),
     pch=21, col=1, bg=1, cex=0.3)

data    = list(y=y,           x=x,                x2=x^2)
newdata = list(y=rep(0,3001), x=seq(-15,15,0.01), x2=seq(-15,15,0.01)^2  )

model <- lm(y~1+x+x2, data=data)
predictions = predict(model, newdata = newdata, interval="predict")
lines(newdata$x, predictions[,1])
lines(newdata$x, predictions[,2], lty=2)
lines(newdata$x, predictions[,3], lty=2)

Formalny

^{$x$

$x$}

— Sextus Empiricus
źródło

1

Trudno mi uwierzyć w tę charakterystykę lub którykolwiek z jej wniosków, ponieważ jestem pewien, że regresja kwadratowa po prostu nie zachowuje się w ten sposób. Czy możesz mnie przekonać, przedstawiając dla nich uzasadnienie?

— whuber

1

Myślę, że to zależy od położenia punktów. W tym przykładzie punkty znajdują się po obu stronach szczytu. Następnie możesz rozważyć pozycję piku jako rodzaj ekstrapolacji. Bardziej ekstremalny przykład podam później. (Zastanawiam się także, jak przeprowadzana jest regresja, ale wyobrażam sobie, że błąd we współczynnikach jest uważany za skorelowany lub w przeciwnym razie rzeczywiście nie dostaniesz tego wzoru)

— Sextus Empiricus

(x_{i}, x_{i}^{2})

$(x_i, x_i^2)$

x

$x$

x^{2}

$x^2$