Przeprowadziłem komputerową ocenę różnych metod dopasowania konkretnego typu modelu stosowanego w naukach paleeo. Miałem duży zestaw treningowy, więc losowo (stratyfikowane losowe próbkowanie) odłożyłem zestaw testowy. I przystosowany różnych metod zestawów testowych próbek i za pomocą otrzymanego wzór I przewidzieć odpowiedź dla zestawu testowego do próbki i oblicza się na RMSEP próbek w zestawie testowym. To jest pojedynczy przebieg .
Następnie powtórzyłem ten proces wiele razy, za każdym razem, gdy wybrałem inny zestaw treningowy, losowo próbkując nowy zestaw testowy.
Uczyniwszy to chcę zbadać, czy którykolwiek z metod ma lepsze lub gorsze osiągi RMSEP. Chciałbym również dokonać wielu porównań metod parami.
Moje podejście polegało na dopasowaniu modelu liniowych efektów mieszanych (LME) z jednym losowym efektem dla Run . Użyłem lmer()
z pakietu lme4 , aby dopasować mój model i funkcje z pakietu multcomp , aby wykonać wiele porównań. Mój model był zasadniczo
lmer(RMSEP ~ method + (1 | Run), data = FOO)
gdzie method
jest czynnikiem wskazującym, która metoda została użyta do wygenerowania prognoz modelu dla zestawu testowego i Run
jest wskaźnikiem dla każdego konkretnego przebiegu mojego „eksperymentu”.
Moje pytanie dotyczy resztek LME. Biorąc pod uwagę pojedynczy efekt losowy dla przebiegu Zakładam, że wartości RMSEP dla tego przebiegu są do pewnego stopnia skorelowane, ale nie są skorelowane między przebiegami, na podstawie indukowanej korelacji, którą daje efekt losowy.
Czy to założenie o niezależności między seriami jest ważne? Jeśli nie, czy istnieje sposób, aby to wyjaśnić w modelu LME, czy powinienem zastosować inny rodzaj analizy statystycznej, aby odpowiedzieć na moje pytanie?