Interpretowanie terminów interakcji w regresji logit ze zmiennymi kategorialnymi


25

Mam dane z eksperymentu ankietowego, w którym respondenci zostali losowo przydzieleni do jednej z czterech grup:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

Podczas gdy trzy grupy terapeutyczne różnią się nieznacznie zastosowanym bodźcem, główne rozróżnienie, na którym mi zależy, dotyczy grup kontrolnych i leczonych. Zdefiniowałem więc zmienną fikcyjną Control:

> summary(df$Control)
     TRUE FALSE 
       59   191 

W ankiecie respondenci zostali poproszeni (między innymi) o wybranie jednej z dwóch preferowanych rzeczy:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

Następnie, po otrzymaniu pewnego bodźca określonego przez ich grupę leczenia (i żadnego, jeśli byli w grupie kontrolnej), respondenci zostali poproszeni o wybranie jednej z tych samych dwóch rzeczy:

> summary(df$Choice)
  A    B 
149  101 

Chcę wiedzieć, czy bycie w jednej z trzech grup terapeutycznych miało wpływ na wybór dokonany przez respondentów w ostatnim pytaniu. Moja hipoteza jest taka, że badani, którzy otrzymali leczenie są bardziej skłonni do wyboru Aniż B.

Biorąc pod uwagę, że pracuję z danymi kategorycznymi, zdecydowałem się na regresję logitów (zachęcamy do wpisania się, jeśli uważasz, że to nieprawda). Ponieważ respondentów przydzielono losowo, mam wrażenie, że niekoniecznie muszę kontrolować inne zmienne (np. Dane demograficzne), więc pominąłem je w tym pytaniu. Mój pierwszy model był po prostu następujący:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

Mam wrażenie, że statystycznie znaczący punkt przecięcia nie ma znaczenia interpretowalnego. Pomyślałem, że powinienem dołączyć termin interakcji w następujący sposób:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Teraz status respondentów w grupie terapeutycznej ma oczekiwany efekt. Czy to był prawidłowy zestaw kroków? Jak mogę interpretować termin interakcji ControlFALSE:PreferA? Czy pozostałe współczynniki nadal są dziennymi szansami?


Odpowiedzi:


31

Zakładam, że PreferA = 1, gdy jeden wolał A, a 0 inaczej, a ControlFALSE = 1, gdy traktowano, a 0, gdy kontrolowano.

exp(3.135)=23

exp(2.309)=.099(1.099)×100%=90.1%.09923=2.3, więc jest 2,3 taka osoba, która woli A dla każdej takiej osoby, która woli B. Tak więc wśród tej grupy A jest nadal bardziej popularna niż B, ale mniej niż w grupie nieleczonej / wyjściowej.

.00699.4%

exp(2.850)=17.317.3×.099=1.71exp(2.8502.309)

Stała wykładnicza daje zatem podstawowe szanse , wykładnicze współczynniki efektów głównych dają iloraz szans, gdy druga zmienna wynosi 0, a wykładniczy współczynnik warunków interakcji podaje współczynnik, o który zmienia się iloraz szans .


Dziękuję Maarten, jest to bardzo pomocne, podobnie jak odpowiedź na moje inne powiązane pytanie. Chciałbym tylko trochę wyjaśnienia w jednym punkcie. Jak wspomniałem w drugim pytaniu, martwię się o statystyczną ważność tego, co tutaj zrobiłem, ponieważ ControlFALSEma on wysoką wartość p w pierwszym modelu, a następnie dość niską w drugim modelu. Stosując odpowiedź na moje inne pytanie w tym konkretnym przypadku, powiedziałeś, że mogłoby się to zdarzyć, gdyby Controlmiało negatywny wpływ na jedną grupę Preferi pozytywne na drugą.
Pygmalion

(zabrakło miejsca) Czy ta interpretacja ma tutaj sens? Nie jestem pewien, jak zastosować go bezpośrednio.
Pygmalion

Efektem ControlFALSEw pierwszym modelu jest efekt leczenia zarówno tych wcześniej preferowanych A, jak i tych, które tego nie zrobiły, podczas gdy efekt w drugim modelu jest tylko efektem leczenia dla tych, którzy wcześniej nie preferowali A. To, czy jest to w porządku, czy nie, nie jest pytaniem statystycznym, ale czy ma to sens merytoryczny.
Maarten Buis,

@ MaartenBuis Świetne wyjaśnienie. Jak wykonałbyś równoważne obliczenia dla przedziałów ufności szacunków? Dla ułatwienia interpretacji na ogół rozwarstwiłem modele logistyczne (np. Uprzednio preferując w tym przykładzie) i używam terminu interakcji jako „statystycznego testu na znaczącą różnicę w OR. Czy to jest dopuszczalne?
bobmcpop

2

Uważam również, że ten artykuł jest pomocny w interpretacji interakcji w regresji logistycznej:

Chen, JJ (2003). Przekazywanie złożonych informacji: interpretacja interakcji statystycznych w analizie wielu regresji logistycznych . Amerykańskie czasopismo zdrowia publicznego , 93 (9), 1376–1377.


4
Podałem pełne odniesienie (tytuł, autor, data, czasopismo itp.), Co oznacza, że ​​wkład będzie nadal przydatny, jeśli zmieni się adres linku. Ale czy możesz go rozwinąć, aby podsumować zawartość? W przeciwnym razie jest to bardziej komentarz niż odpowiedź - wolimy, aby nasze odpowiedzi były niezależne, więc są odporne na „link-rot”. Alternatywnie możemy przekształcić to w komentarz dla ciebie.
Silverfish,

Dzięki. Łączyłem NCBI, więc pomyślałem, że będzie dobrze. Zgadzam się ze zmianami. Dzięki!
deepseas

0

Moje własne preferencje, gdy próbuję interpretować interakcje w regresji logistycznej, to przyjrzeć się przewidywanym prawdopodobieństwom dla każdej kombinacji zmiennych kategorialnych. W twoim przypadku byłyby to tylko 4 prawdopodobieństwa:

  1. Preferuj A, kontroluj prawda
  2. Wolę A, kontroluj fałsz
  3. Wolę B, kontrola prawda
  4. Preferuj B, kontroluj fałsz

Kiedy mam zmienne ciągłe, zwykle patrzę na przewidywaną wartość w medianie, 1. i 3. kwartyle.

Chociaż nie wpływa to bezpośrednio na interpretację każdego współczynnika, stwierdzam, że często pozwala mi (i moim klientom) zobaczyć, co się dzieje w jasny sposób.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.