Pytanie to najwyraźniej pochodziło z badania o niezrównoważonym dwukierunkowym projekcie, analizowanego w R z aov()
funkcją; ta strona zawiera bardziej aktualny i szczegółowy przykład tego problemu.
Ogólna odpowiedź na to pytanie, tak wielu, brzmi: „To zależy”. Tutaj zależy od tego, czy projekt jest zrównoważony, a jeśli nie, jaki smak ANOVA zostanie wybrany.
Po pierwsze, zależy to od tego, czy projekt jest zrównoważony. W najlepszym ze wszystkich możliwych światów, przy równej liczbie przypadków we wszystkich komórkach układu czynnikowego, nie byłoby różnicy ze względu na kolejność wprowadzania czynników do modelu, niezależnie od tego, jak przeprowadzana jest ANOVA. * Podane przypadki , ewidentnie z retrospektywnej kohorty klinicznej, wydają się pochodzić z prawdziwego świata, w którym takiej równowagi nie znaleziono. Więc kolejność może mieć znaczenie.
Po drugie, zależy to od sposobu wykonania ANOVA, co jest dość kontrowersyjną kwestią. Rodzaje ANOVA dla niezrównoważonych projektów różnią się w kolejności oceny głównych efektów i interakcji. Ocena interakcji ma fundamentalne znaczenie dla dwukierunkowej i wyższego rzędu ANOVA, więc istnieją spory o najlepszy sposób postępowania. Zobacz stronę Cross Validated, aby uzyskać jedno wyjaśnienie i dyskusję. Zobacz szczegóły i ostrzeżenie dotyczące funkcji Anova()
(z dużą literą „A”) w instrukcji obsługi car
pakietu, aby uzyskać inny widok.
Kolejność czynników ma znaczenie w projektach niezrównoważonych pod domyślną wartością aov()
w R, która wykorzystuje tak zwane testy typu I. Są to sekwencyjne przypisania wariancji do czynników w kolejności wprowadzania do modelu, jak przewidziano w obecnym pytaniu. Kolejność nie ma znaczenia w testach typu II lub typu III zapewnianych przez Anova()
funkcję w car
pakiecie w R. Te alternatywy mają jednak swoje własne potencjalne wady wymienione w powyższych linkach.
Na koniec zastanów się nad relacją wielokrotnej regresji liniowej jak lm()
w R, która jest zasadniczo tego samego typu modelem, jeśli uwzględnisz terminy interakcji. Kolejność wprowadzania zmiennych lm()
nie ma znaczenia pod względem współczynników regresji i wartości p zgłoszonych przez summary(lm())
, w których czynnik kategorialny na poziomie k jest kodowany jako (b-1) zmienne binarne manekina, a współczynnik regresji jest zgłaszany dla każdego manekina .
Możliwe jest jednak zawinięcie danych lm()
wyjściowych anova()
(małe litery „a” z stats
pakietu R ) lub Anova()
podsumowanie wpływu każdego czynnika na wszystkie jego poziomy, jak można się spodziewać w klasycznej ANOVA. W takim przypadku kolejność czynników będzie miała znaczenie anova()
dla aov()
i nie będzie miała znaczenia Anova()
. Podobnie powróciłyby spory dotyczące tego, jakiego rodzaju ANOVA użyć. Dlatego nie jest bezpieczne zakładanie niezależności od wprowadzania czynnika we wszystkich dalszych zastosowaniach lm()
modeli.
* Posiadanie równej liczby obserwacji we wszystkich komórkach jest wystarczające, ale, jak rozumiem, nie jest konieczne, aby kolejność czynników była nieistotna. Mniej wymagające rodzaje równowagi mogą pozwolić na niezależność od zamówień.