Mam dane z eksperymentu ankietowego, w którym respondenci zostali losowo przydzieleni do jednej z czterech grup:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Podczas gdy trzy grupy terapeutyczne różnią się nieznacznie zastosowanym bodźcem, główne rozróżnienie, na którym mi zależy, dotyczy grup kontrolnych i leczonych. Zdefiniowałem więc zmienną fikcyjną Control
:
> summary(df$Control)
TRUE FALSE
59 191
W ankiecie respondenci zostali poproszeni (między innymi) o wybranie jednej z dwóch preferowanych rzeczy:
> summary(df$Prefer)
A B NA's
152 93 5
Następnie, po otrzymaniu pewnego bodźca określonego przez ich grupę leczenia (i żadnego, jeśli byli w grupie kontrolnej), respondenci zostali poproszeni o wybranie jednej z tych samych dwóch rzeczy:
> summary(df$Choice)
A B
149 101
Chcę wiedzieć, czy bycie w jednej z trzech grup terapeutycznych miało wpływ na wybór dokonany przez respondentów w ostatnim pytaniu. Moja hipoteza jest taka, że badani, którzy otrzymali leczenie są bardziej skłonni do wyboru A
niż B
.
Biorąc pod uwagę, że pracuję z danymi kategorycznymi, zdecydowałem się na regresję logitów (zachęcamy do wpisania się, jeśli uważasz, że to nieprawda). Ponieważ respondentów przydzielono losowo, mam wrażenie, że niekoniecznie muszę kontrolować inne zmienne (np. Dane demograficzne), więc pominąłem je w tym pytaniu. Mój pierwszy model był po prostu następujący:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
Mam wrażenie, że statystycznie znaczący punkt przecięcia nie ma znaczenia interpretowalnego. Pomyślałem, że powinienem dołączyć termin interakcji w następujący sposób:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Teraz status respondentów w grupie terapeutycznej ma oczekiwany efekt. Czy to był prawidłowy zestaw kroków? Jak mogę interpretować termin interakcji ControlFALSE:PreferA
? Czy pozostałe współczynniki nadal są dziennymi szansami?