Wiele jest o kolinearności w odniesieniu do predyktorów ciągłych, ale nie tak bardzo, że mogę znaleźć na predyktory jakościowe. Mam dane tego typu zilustrowane poniżej.
Pierwszy czynnik to zmienna genetyczna (liczba alleli), drugi czynnik to kategoria choroby. Najwyraźniej geny poprzedzają chorobę i są czynnikiem pokazującym objawy, które prowadzą do diagnozy. Jednak regularna analiza z wykorzystaniem sum kwadratów typu II lub III, jak to zwykle bywa w psychologii z SPSS, pomija efekt. Analiza sum kwadratów typu I podnosi ją po wprowadzeniu odpowiedniej kolejności, ponieważ jest ona zależna od kolejności. Ponadto prawdopodobnie będą istnieć dodatkowe elementy procesu chorobowego, które nie są związane z genem, które nie są dobrze identyfikowane z typem II lub III, patrz anova (lm1) poniżej vs lm2 lub Anova.
Przykładowe dane:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- lm1 z SS typu I wydaje mi się właściwym sposobem analizy danych, biorąc pod uwagę teorię tła. Czy moje założenie jest prawidłowe?
- Jestem przyzwyczajony do jawnego manipulowania projektami ortogonalnymi, w których problemy te zwykle nie pojawiają się. Czy trudno jest przekonać recenzentów, że jest to najlepszy proces (zakładając, że punkt 1 jest poprawny) w kontekście pola centrycznego SPSS?
- A co zgłosić w sekcji statystyk? Wszelkie dodatkowe analizy lub komentarze, które powinny się pojawić?