Czy stopnie swobody mogą być liczbą niecałkowitą?


27

Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.6

> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))

Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
    Min      1Q  Median      3Q     Max 
-4.1470 -1.6217 -0.8971  1.2445  6.0516 

(Dispersion Parameter for gaussian family taken to be 6.6717)

    Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294 

Number of Local Scoring Iterations: 2 

Anova for Parametric Effects
            Df Sum Sq Mean Sq F value    Pr(>F)    
lo(wt)     1.0 847.73  847.73  127.06 1.239e-11 ***
Residuals 26.6 177.47    6.67                      
r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
Zasadniczo tak, df może być liczbą zmiennoprzecinkową.
David Lane

6
Prawdopodobnie chcesz zapytać o liczbę rzeczywistą (lub liczbę, która nie jest liczbą całkowitą); liczba zmiennoprzecinkowa to koncepcja komputerowa (sposób przybliżenia liczb rzeczywistych), która odnosi się do implementacji, ale tak naprawdę pytasz o podstawowy pomysł matematyczny (a więc lepiej zadać pytanie matematyczne). Często spotykane są sytuacje, w których (z tego czy innego powodu, nie zawsze dobra), liczba, która jest koncepcyjnie liczbą całkowitą, jest mimo to w realizacji zapisywana jako liczba zmiennoprzecinkowa. Sugeruję: „Czy model może mieć niecałkowite stopnie swobody?” dla tytułu.
Glen_b

Odpowiedzi:


40

Stopnie swobody w wielu kontekstach nie są liczbami całkowitymi. Rzeczywiście w kilku okolicznościach można ustalić, że stopnie swobody dopasowania danych dla niektórych konkretnych modeli muszą zawierać się między pewną wartością a .kk+1

Zwykle myślimy o stopniach swobody jako liczbie wolnych parametrów, ale zdarzają się sytuacje, w których parametry nie są całkowicie wolne i mogą być trudne do zliczenia. Może się to zdarzyć na przykład podczas wygładzania / regulowania.

Przypadki lokalnie ważonej metody regresji / jądra i wygładzania splajnów są przykładami takiej sytuacji - całkowita liczba wolnych parametrów nie jest czymś, co można łatwo policzyć, dodając predyktory, więc potrzebna jest bardziej ogólna koncepcja stopni swobody.

W uogólnionych modelach addytywnych, na których gamczęściowo opiera się, Hastie i Tibshirani (1990) [1] (i rzeczywiście w wielu innych odnośnikach) dla niektórych modeli, w których możemy napisać , czasami przyjmuje się, że stopnie swobody są (omawiają także nazwa lub ). Pierwszy jest zgodny z bardziej typowym podejściem, w którym oba działają (np. W regresji, gdzie w normalnych sytuacjach będzie wymiarem kolumny ), ale gdy jest symetryczny i idempotentny, wszystkie trzy formuły są takie same.y^=Aytr(A)tr(AAT)tr(2AAAT)tr(A)XA

[Nie mam tego podręcznego podręcznika, żeby sprawdzić wystarczającą ilość szczegółów; alternatywą tych samych autorów (plus Friedmana), którą łatwo zdobyć, są elementy uczenia statystycznego [2]; patrz na przykład równanie 5.16, które definiuje efektywne stopnie swobody wygładzania splajnu jako nazwa (w mojej notacji)]tr(A)

Mówiąc bardziej ogólnie, Ye (1998) [3] zdefiniował uogólnione stopnie swobody jako , który jest sumą wrażliwości dopasowanych wartości na odpowiadające im obserwacje. Z kolei jest to zgodne z nazwa którym ta definicja działa. Aby użyć definicji Ye, wystarczy jedynie obliczyć i zaburzyć dane o niewielką ilość (w celu obliczenia liczbowo). Dzięki temu ma bardzo szerokie zastosowanie.iy^iyitr(A)y^y^iyi

W przypadku modeli takich jak te gam, te różne miary zasadniczo nie są liczbami całkowitymi.

(Bardzo polecam przeczytanie dyskusji tych odniesień na ten temat, choć historia może się nieco bardziej skomplikować w niektórych sytuacjach. Patrz na przykład [4])

[1] Hastie, T. i Tibshirani, R. (1990),
Generalized Additive Models
London: Chapman and Hall.

[2] Hastie, T., Tibshirani, R. and Friedman, J. (2009),
The Elements of Statistics Learning: Data Mining, Inference and prediction , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/

[3] Ye, J. (1998),
„O mierzeniu i korygowaniu skutków eksploracji danych i selekcji modeli”
Journal of American Statistics Association , t. 93, nr 441, str. 120–131

[4] Janson, L., Fithian, W., i Hastie, T. (2013),
„Skuteczne stopnie wolności: wadliwa metafora”
https://arxiv.org/abs/1312.7851


7
Nie ma to znaczenia w tym przypadku, ale test t dwóch próbek Welcha, gdy wariancje są nierówne, może mieć liczbę stopni swobody inną niż liczba całkowita.
Michael R. Chernick

5
Podobnie jak skorygowany epsilon df w powtarzanych pomiarach ANOVA.
David Lane

2
Innym odniesieniem jest statweb.stanford.edu/~tibs/ElemStatLearn/printings/… sekcja 5.4.1 Stopnie wolności i gładsze matryce
Adrian

1
@Adrian dzięki; Zastanawiałem się, czy dodać tylko to odniesienie (w szczególności czy wspomnieć eqn 5.16 w sekcji, którą wskazujesz). Doszedłem do wniosku, że warto go dodać.
Glen_b
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.