Pasma ufności dla linii QQ

To pytanie nie dotyczy konkretnie R, ale postanowiłem Rto zilustrować.

Rozważ kod do tworzenia pasm ufności wokół (normalnej) linii qq:

library(car)
library(MASS)
b0<-lm(deaths~.,data=road)
qqPlot(b0$resid,pch=16,line="robust")

Szukam wyjaśnienia (lub alternatywnego linku do dokumentu papierowego / internetowego wyjaśniającego), w jaki sposób zbudowane są te przedziały ufności (widziałem odniesienie do Foxa 2002 w plikach pomocy R, ale niestety nie mam tego książka przydatna).

Moje pytanie zostanie uściślone na przykładzie. Oto jak Roblicza te poszczególne elementy CI (skróciłem / uprościłem używany kod car::qqPlot)

x<-b0$resid
good<-!is.na(x)
ord<-order(x[good])
ord.x<-x[good][ord]
n<-length(ord.x)
P<-ppoints(n)
z<-qnorm(P)
plot(z,ord.x,type="n")
coef<-coef(rlm(ord.x~z))
a<-coef[1]
b<-coef[2]
abline(a,b,col="red",lwd=2)
conf<-0.95
zz<-qnorm(1-(1-conf)/2)
SE<-(b/dnorm(z))*sqrt(P*(1-P)/n)     #[WHY?]
fit.value<-a+b*z
upper<-fit.value+zz*SE
lower<-fit.value-zz*SE
lines(z,upper,lty=2,lwd=2,col="red")
lines(z,lower,lty=2,lwd=2,col="red")

Pytanie brzmi: jakie jest uzasadnienie wzoru użytego do obliczenia tych SE (np. Linia SE<-(b/dnorm(z))*sqrt(P*(1-P)/n)).

FWIW ta formuła bardzo różni się od formuły zwykłych pasm ufności stosowanych w regresji liniowej

confidence-interval linear-model qq-plot

— użytkownik603
źródło

Oczekuję, że ma to związek z rozkładem statystyk zamówień

a w szczególnościwynik asymptotyczny:

{fa}_{X_{(k)}} (x) = \frac{n!}{(k - 1)! (n - k)!} [{fa}_{X} (x)]^{k - 1} [1 - {fa}_{X} (x)]^{n - k} {fa}_{X} (x)

$f_{X_{(k)}}(x) =\frac{n!}{(k-1)!(n-k)!}[F_X(x)]^{k-1}[1-F_X(x)]^{n-k} f_X(x)$

X_{(⌈ n p ⌉)} \sim ZA N. ({fa}^{- 1} (p), \frac{p (1 - p)}{n [fa ({fa}^{- 1} (p))]^{2)}})

$X_{(\lceil np \rceil)} \sim AN\left(F^{-1}(p),\frac{p(1-p)}{n[f(F^{-1}(p))]^2}\right)$

— Glen_b

@Glen_b ma rację. John Fox pisze na stronach 35-36: „błędu standardowego zlecenia statystycznego

jest

X_{(i)}

$X_{(i)}$

gdzie

jest funkcją gęstości prawdopodobieństwa odpowiadającą CDF

. Wartości wzdłuż dopasowanej linii są przez

. W przybliżeniu 95% ufności "kopercie" wokół dopasowanej linii jest

.”

S. mi (X_{(ja)}) = \frac{\hat{σ}}{p (z_{ja})} \sqrt{\frac{{P.}_{ja} (1 - {P.}_{ja})}{n}}

$\mathrm{SE}(X_{(i)})=\frac{\hat{\sigma}}{p(z_i)}\sqrt{\frac{P_i(1-P_i)}{n}}$

p (z)

$p(z)$

P (z)

$P(z)$

{\hat{X}}_{(i)} = \hat{μ} + \hat{σ} z_{i}

$\widehat{X}_{(i)}=\hat{\mu}+\hat{\sigma}z_{i}$

{\hat{X}}_{(i)} \pm 2 \times S E (X_{(i)})

$\widehat{X}_{(i)}\pm 2\times \mathrm{SE}(X_{(i)})$

— COOLSerdash

Myślę jedyną rzeczą, która pozostaje zobaczyć, że

jest szacowana poprzez

w równaniu COOLSerdash boiska.

f (F^{- 1} (p))

$f(F^{-1}(p))$

(p (z_{i}) / \hat{σ})

$(p(z_i)/\hat{\sigma})$

— Glen_b

{fa}_{X_{(k)}} (x) = \frac{n!}{(k - 1)! (n - k)!} [{fa}_{X} (x)]^{k - 1} [1 - {fa}_{X} (x)]^{n - k} {fa}_{X} (x)

$f_{X_{(k)}}(x) =\frac{n!}{(k-1)!(n-k)!}[F_X(x)]^{k-1}[1-F_X(x)]^{n-k} f_X(x)$ a w szczególności wynik asymptotyczny :

X_{(⌈ n p ⌉)} \sim ZA N. ({fa}^{- 1} (p), \frac{p (1 - p)}{n [fa ({fa}^{- 1} (p))]^{2)}})

$X_{(\lceil np \rceil)} \sim AN\left(F^{-1}(p),\frac{p(1-p)}{n[f(F^{-1}(p))]^2}\right)$

Jak wspomina COOLSerdash w komentarzach, John Fox [1] pisze na stronach 35-36:

Standardowy błąd statystyki zamówienia $X_{(i)}$ jest
$S. mi (X_{(ja)}) = \frac{\hat{σ}}{p (z_{ja})} \sqrt{\frac{{P.}_{ja} (1 - {P.}_{ja})}{n}}$ $\mathrm{SE}(X_{(i)})=\frac{\hat{\sigma}}{p(z_i)}\sqrt{\frac{P_i(1-P_i)}{n}}$ gdzie $p(z)$ to funkcja gęstości prawdopodobieństwa odpowiadająca CDF $P(z)$ . Wartości wzdłuż dopasowanej linii są podane przez $\widehat{X}_{(i)}=\hat{\mu}+\hat{\sigma}z_{i}$ . Zatem „obwiednia” ufności około 95% wokół dopasowanej linii wynosi $\widehat{X}_{(i)}\pm 2\times \mathrm{SE}(X_{(i)})$ .

Następnie musimy to rozpoznać $f(F^{-1}(p))$ jest szacowany przez $(p(z_i)/\hat{\sigma})$ .

[1] Fox, J. (2008),
Applied Regression Analysis and Generalized Linear Models, 2nd Ed. ,
Sage Publications, Inc

— Glen_b - Przywróć Monikę
źródło