Jaka jest dokładna formuła zastosowana w R lm()
dla skorygowanego kwadratu R? Jak mogę to zinterpretować?
Skorygowane formuły r-kwadrat
Wydaje się, że istnieje kilka wzorów do obliczania skorygowanego kwadratu R.
- Wzór Wherry:
- Wzór McNemara:
- Wzór Pański:
- Wzór Steina:
Opisy podręczników
- Zgodnie z podręcznikiem Fielda, Discovering Statistics using R (2012, s. 273) R używa równania Wherry, która „mówi nam, ile wariancji Y można by uwzględnić, gdyby model został wyprowadzony z populacji, z której pobrano próbkę”. Nie podaje wzoru dla Wherry. Zaleca stosowanie formuły Stein (ręcznie), aby sprawdzić, jak dobrze model sprawdza krzyżowo.
- Kleiber / Zeileis, Applied Econometrics with R (2008, s. 59) twierdzą, że to „skorygowany R-kwadrat Theila” i nie mówią dokładnie, jak jego interpretacja różni się od wielokrotności R-kwadrat.
- Dalgaard, Introductory Statistics with R (2008, s. 113) pisze, że „jeżeli pomnożysz [skorygowany R-kwadrat] przez 100%, można to interpretować jako„ zmniejszenie wariancji% ”. Nie mówi, która to formuła odpowiada.
Wcześniej myślałem i czytałem szeroko, że R-kwadrat karze za dodanie dodatkowych zmiennych do modelu. Teraz stosowanie tych różnych formuł wydaje się wymagać różnych interpretacji. Przyjrzałem się również pokrewnemu pytaniu na temat przepełnienia stosu ( jaka jest różnica między wielokrotnym R-kwadratem i skorygowanym R-kwadratem w regresji pojedynczego wariantu najmniejszych kwadratów? ) Oraz słownik statystyczny szkoły Wharton w UPenn .
pytania
- Który wzór stosuje się do skorygowanego r-kwadrat przez R
lm()
? - Jak mogę to zinterpretować?
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
:, gdzie ans $ r.squared = R ^ 2; n = n, rdf = resztkowe df, df.int = przechwytywanie df (0 lub 1).