Kontekst
To pytanie używa R, ale dotyczy ogólnych problemów statystycznych.
Analizuję wpływ czynników umieralności (% umieralności z powodu chorób i pasożytnictwa) na tempo wzrostu populacji ćmy w czasie, gdy populacje larw pobierano z 12 miejsc raz w roku przez 8 lat. Dane dotyczące tempa wzrostu populacji pokazują wyraźny, ale nieregularny trend cykliczny w czasie.
Resztki z prostego uogólnionego modelu liniowego (tempo wzrostu ~% choroby +% pasożytnictwo + rok) wykazywały podobnie wyraźny, ale nieregularny trend cykliczny w czasie. Dlatego uogólnione modele najmniejszych kwadratów tej samej postaci zostały również dopasowane do danych z odpowiednimi strukturami korelacji, aby poradzić sobie z czasową autokorelacją, np. Złożoną symetrią, autoregresyjnym porządkiem procesu 1 i autoregresyjnymi strukturami średniej ruchomej.
Wszystkie modele zawierały te same ustalone efekty, zostały porównane za pomocą AIC i zostały dopasowane przez REML (aby umożliwić porównanie różnych struktur korelacji przez AIC). Korzystam z pakietu R nlme i funkcji gls.
Pytanie 1
Resztki modeli GLS nadal wyświetlają prawie identyczne wzory cykliczne, gdy są drukowane w funkcji czasu. Czy takie wzorce zawsze pozostaną, nawet w modelach, które dokładnie uwzględniają strukturę autokorelacji?
Symulowałem niektóre uproszczone, ale podobne dane w R poniżej mojego drugiego pytania, które pokazuje problem w oparciu o moje obecne zrozumienie metod potrzebnych do oceny czasowo autokorelowanych wzorców w resztkach modelu , które teraz wiem, że są błędne (patrz odpowiedź).
pytanie 2
Do moich danych dopasowałem wszystkie modele GLS ze wszystkimi możliwymi prawdopodobnymi strukturami korelacji, ale w rzeczywistości żadne z nich nie są znacznie lepsze niż GLM bez żadnej struktury korelacji: tylko jeden model GLS jest nieznacznie lepszy (wynik AIC = 1,8 niższy), podczas gdy wszystkie pozostałe mają wyższe wartości AIC. Jest tak jednak tylko wtedy, gdy wszystkie modele są dopasowane przez REML, a nie ML, gdzie modele GLS są wyraźnie znacznie lepsze, ale rozumiem z książek statystycznych, że musisz używać REML tylko do porównywania modeli o różnych strukturach korelacji i tych samych stałych efektach z powodów Nie będę tutaj szczegółowo.
Biorąc pod uwagę wyraźnie czasowo autokorelowany charakter danych, jeśli żaden model nie jest nawet umiarkowanie lepszy od zwykłego GLM, jaki jest najbardziej odpowiedni sposób podjęcia decyzji, który model zastosować do wnioskowania, zakładając, że stosuję odpowiednią metodę (ostatecznie chcę użyć AIC, aby porównać różne kombinacje zmiennych)?
Q1 „symulacja” badająca wzorce resztkowe w modelach z odpowiednimi strukturami korelacji i bez nich
Wygeneruj symulowaną zmienną odpowiedzi z efektem cyklicznym „czasu” i dodatnim efektem liniowym „x”:
time <- 1:50
x <- sample(rep(1:25,each=2),50)
y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1)
y powinien wyświetlać trend cykliczny w „czasie” z losową zmiennością:
plot(time,y)
I dodatni związek liniowy z „x” z losową odmianą:
plot(x,y)
Utwórz prosty liniowy model addytywny „y ~ time + x”:
require(nlme)
m1 <- gls(y ~ time + x, method="REML")
Model wyświetla wyraźne cykliczne wzory w resztach, gdy są wykreślane względem „czasu”, jak można się spodziewać:
plot(time, m1$residuals)
A jaki powinien być ładny, wyraźny brak jakiegokolwiek wzorca lub trendu w pozostałościach, gdy wykreślone w stosunku do „x”:
plot(x, m1$residuals)
Prosty model „y ~ time + x”, który obejmuje autoregresyjną strukturę korelacji rzędu 1, powinien pasować do danych znacznie lepiej niż w poprzednim modelu ze względu na strukturę autokorelacji, przy ocenie za pomocą AIC:
m2 <- gls(y ~ time + x, correlation = corAR1(form=~time), method="REML")
AIC(m1,m2)
Jednak model powinien nadal wyświetlać prawie identycznie „czasowo” autokorelowane reszty:
plot(time, m2$residuals)
Dziękuję bardzo za wszelkie porady.