Dla prostego przykładu załóżmy, że istnieją dwa modele regresji liniowej
- 1 Model posiada trzy czynniki prognostyczne,
x1a
,x2b
, ix2c
- Model 2 ma trzy predyktory z modelu 1 i dwa dodatkowe predyktory
x2a
orazx2b
Istnieje równanie regresji populacji, w którym wyjaśniona wariancja populacji wynosi dla Modelu 1 i dla Modelu 2. Inkrementalna wariancja wyjaśniona przez Model 2 w populacji wynosi
Jestem zainteresowany uzyskaniem standardowych błędów i przedziałów ufności dla estymatora . Chociaż przykład dotyczy odpowiednio predyktorów 3 i 2, moje zainteresowania badawcze dotyczą szerokiego zakresu różnych liczb predyktorów (np. 5 i 30). Moją pierwszą myślą było używać jako prognozy i bootstrap, ale nie byłem pewien, czy byłoby to właściwe.
pytania
- Czy rozsądny estymatorem hemibursztynianu p 2 ?
- Jak można uzyskać przedział ufności dla zmiany r-kwadrat populacji (tj. )?
- Czy ładowanie byłoby odpowiednie do obliczania przedziału ufności?
Wszelkie odniesienia do symulacji lub opublikowanej literatury będą również mile widziane.
Przykładowy kod
Jeśli to pomoże, stworzyłem mały zestaw danych symulacyjnych w R, który można wykorzystać do zademonstrowania odpowiedzi:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Powód do niepokoju z bootstrap
Uruchomiłem bootstrap na niektórych danych z około 300 przypadkami i 5 predyktorami w prostym modelu i 30 predyktorami w pełnym modelu. Podczas gdy oszacowanie próbki przy użyciu skorygowanej różnicy r-kwadrat było 0.116
, przedział ufności podskokiem był przeważnie większy CI95% (0,095 do 0,214), a średnia wartości bootstrapów nie była w pobliżu oszacowania próbki. Wydawało się, że średnia z próbek z zatłoczoną próbką jest wyśrodkowana na oszacowanej próbce różnicy między r-kwadratami w próbce. Dzieje się tak pomimo tego, że do oszacowania różnicy użyłem skorygowanych próbek r-kwadratów.
Co ciekawe, wypróbowałem alternatywny sposób obliczania as
- obliczyć próbkę zmiany r-kwadrat
- skoryguj zmianę próbki r-kwadrat za pomocą standardowej skorygowanej formuły r-kwadrat
W zastosowaniu do przykładowych danych ta zmniejszona oszacowanie do lecz wydawało się odpowiednie przedziały ufności dla tej metody I wspomnianym pierwszym, 95% przedział ufności (0,062, 0,179) ze średnią .118..082
Ogólnie rzecz biorąc, obawiam się, że ładowanie początkowe zakłada, że próbka jest populacją, a zatem szacunki, że redukcja w przypadku nadmiernego dopasowania może nie działać odpowiednio.