Wzór na 95% przedział ufności dla


13

Poszukałem google i przeszukałem stats.stackexchange, ale nie mogę znaleźć wzoru na obliczenie 95% przedziału ufności dla wartości dla regresji liniowej. Czy ktoś może to zapewnić?R2)

Jeszcze lepiej, powiedzmy, że uruchomiłem regresję liniową poniżej w R. Jak obliczyć 95% przedział ufności dla wartości za pomocą kodu R.R2)

lm_mtcars <- lm(mpg ~ wt, mtcars)

1
Dobrze wiesz, że zależność między korelacją i polega na tym, że zwiększasz współczynnik korelacji, aby uzyskać więc dlaczego nie obliczyć przedziału ufności dla a następnie obliczyć dolną i górną granicę przedziału? R 2 R 2 rrR2)R2r

1
@ ZERO: będzie działać w prostej regresji liniowej, to znaczy z jednym predyktorem i punktem przecięcia. Nie będzie działać w przypadku wielokrotnej regresji liniowej z więcej niż jednym predyktorem.
Stephan Kolassa

@StephanKolassa, bardzo prawda! Wydaje mi się, że bazowałem na jego Rkodzie, w którym jest tylko jeden regresor, ale to jest bardzo dobry punkt do wyjaśnienia.


Możesz np. Użyć bardzo małej funkcji R github.com/mayer79/R-confidence-intervals-R-squared w oparciu o właściwości niecentralnego rozkładu F.
Michael M

Odpowiedzi:


16

Zawsze możesz go uruchomić:

> library(boot)
> foo <- boot(mtcars,function(data,indices)
        summary(lm(mpg~wt,data[indices,]))$r.squared,R=10000)

> foo$t0
[1] 0.7528328

> quantile(foo$t,c(0.025,0.975))
     2.5%     97.5% 
0.6303133 0.8584067

Carpenter i Bithell (2000, Statistics in Medicine) zapewniają czytelne wprowadzenie do przedziałów ufności ładowania, choć nie są specjalnie skoncentrowane na .R2)


1
(+1) Może być interesujące, że przybliżona formuła cytowana przez @Durden, przy i daje przedział . Byłoby prawie całkowicie poprawne, gdybyśmy pomnożyli współczynnik pomnożenie SE w tej formule! n=32k=1(0,546,0,960)2)
whuber

Warto również zauważyć, że można uzyskać inne typy przedziału ufności (np. BCa) z dystrybucji ponownego próbkowania bootstrap za pomocą boot.ci().
Jeffrey Girard

7

W R możesz skorzystać z CI.Rsq()funkcji zapewnianej przez pakiet psychometryczny . Jeśli chodzi o wzór, którego dotyczy, patrz Cohen i in. (2003) , Applied Multiple Regress / Correlation Analysis for the Behavioural Sciences , str. 88:

S.miR2)=4R2)(1-R2))2)(n-k-1)2)(n2)-1)(n+3))

Zatem 95% CI to Twój .R2)±2)S.miR2)


3
(1-R2))R2)R2)n-k-1>60k+1liczy przecięcie plus liczbę zmiennych niezależnych.) Przydałoby się zobaczyć działający przykład obsługiwany przez symulację, ponieważ ten przedział wygląda na zbyt szeroki.
whuber

Według Wishart (1931) ta formuła jest nieodpowiednia dla nietypowych rozkładów.
abukaj
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.