Uwzględniając interakcję, ale nie główne efekty w modelu


85

Czy kiedykolwiek jest uzasadnione włączenie dwukierunkowej interakcji do modelu bez uwzględnienia głównych efektów? Co jeśli twoja hipoteza dotyczy tylko interakcji, czy nadal musisz uwzględnić główne efekty?


3
Moja filozofia polega na prowadzeniu wielu modeli, sprawdzaniu ich prognoz, porównywaniu, wyjaśnianiu, uruchamianiu większej liczby modeli.
Michael Bishop,

11
Jeśli interakcje są znaczące tylko wtedy, gdy główne efekty znajdują się w modelu, być może główne efekty są znaczące, a interakcje nie. Rozważ jeden bardzo znaczący główny efekt z wariancją rzędu 100 i inny nieistotny główny efekt, dla którego wszystkie wartości są w przybliżeniu jeden z bardzo niską wariancją. Ich interakcja nie jest znacząca, ale efekt interakcji będzie wydawał się znaczący, jeśli główne efekty zostaną usunięte z modelu.
Thomas Levine

4
@Tomas powinien w pierwszym wierszu napisać: „jeśli interakcje są znaczące tylko wtedy, gdy głównych efektów NIE ma w modelu, ...”?
Glen,

2
O tak, powinno!
Thomas Levine

Odpowiedzi:


55

Z mojego doświadczenia wynika, że ​​nie tylko konieczne jest posiadanie wszystkich efektów niższego rzędu w modelu, gdy są one połączone z efektami wyższego rzędu, ale ważne jest również, aby odpowiednio modelować (np. Pozwalając być nieliniowym) główne efekty, które pozornie nie są powiązane z czynniki w interakcjach między zainteresowaniami. Dzieje się tak, ponieważ interakcje między a x 2 mogą być standaryzowane dla głównych efektów x 3 i x 4 . Czasami wydaje się, że interakcje są potrzebne, ponieważ są one współliniowe z pominiętymi zmiennymi lub pominiętymi nieliniowymi (np. Splajnami) terminami.x1x2x3x4


1
Oznacza to, że powinniśmy zacząć usuwać warunki z y ~ x1 * x2 * x3 * x4, zaczynając od usuwania terminów najwyższego rzędu, tj. Normalnej metody usuwania, prawda?
Ciekawy

9
Usunięcie terminów nie jest zalecane, chyba że możesz przetestować całe klasy terminów jako „fragment”. Na przykład rozsądne może być zachowanie lub usunięcie wszystkich warunków interakcji lub zachowanie lub usunięcie wszystkich interakcji trzeciego lub czwartego rzędu.
Frank Harrell,

Co jest złego w usuwaniu tylko niektórych interakcji w określonej kolejności?
user1205901

3
Jeśli masz całkowicie z góry określone zamówienie, którego nie ustalono na podstawie danych, możesz to zrobić. Zasadniczo będziesz mieć problemy z współliniowością i wielokrotnością przy podejmowaniu wielu decyzji przy użyciu wielu wartości P.
Frank Harrell,

2
Uważam, że ta odpowiedź jest niejasna i tylko częściowo odpowiada na pytanie. Rzeczywiście, ta odpowiedź stwierdza, że ​​konieczne jest modelowanie głównego efektu, ale nie odpowiada, czy można go regresować, aby skupić się tylko na interakcji, która jest i jest stosowana w niektórych modelach, takich jak gPPI (patrz moja odpowiedź poniżej).
gaboryczny

37

Pytasz, czy to jest kiedykolwiek ważne. Pozwól, że podam wspólny przykład, którego wyjaśnienie może sugerować ci dodatkowe podejście analityczne.

Najprostszym przykładem interakcji jest model z jedną zmienną zależną i dwiema zmiennymi niezależnymi X , Y w formieZXY

Z=α+βX+γY+δXY+ε,

εα,β,γ,δδβγ

Z=α(1+βX+γY+δXY)+ε

=α(1+βX)(1+γY)+α(δβγ)XY+ε

β=αβ

(δβγ)0εZ

log(Z)=log(α)+log(1+βX)+log(1+γY)+τ

τβXγY1

log(Z)=(log(α)+log(β)+log(γ))+log(X)+log(Y)+τ

=η+log(X)+log(Y)+τ.

ηαβδ=βγ

Nie twierdzę, że jest to konieczny, a nawet jedyny krok do zrobienia, ale sugeruję, że tego rodzaju algebraiczne przegrupowanie modelu jest zwykle warte rozważenia, ilekroć same interakcje wydają się znaczące.

Niektóre doskonałe sposoby eksploracji modeli z interakcją, zwłaszcza z dwiema i trzema niezależnymi zmiennymi, pojawiają się w rozdziałach 10–13 EDA Tukeya .


δβγ

α(δβγ)0log(Z)XYZXYZXY
whuber

30

Chociaż w podręcznikach często stwierdza się, że nigdy nie należy uwzględniać interakcji w modelu bez odpowiadających im głównych efektów, z pewnością istnieją przykłady, w których miałoby to doskonały sens. Dam ci najprostszy przykład, jaki mogę sobie wyobrazić.

Załóżmy, że osobników losowo przypisanych do dwóch grup mierzy się dwukrotnie, raz na początku (tj. Zaraz po randomizacji) i raz po grupie T, poddano leczeniu, podczas gdy grupa C nie. Następnie model powtarzanych pomiarów dla tych danych obejmowałby główny efekt okazji pomiarowej (zmienna fikcyjna, która wynosi 0 dla linii bazowej i 1 dla kontynuacji) oraz warunek interakcji między fikcyjnym grupą (0 dla C, 1 dla T ) i manekin czasu.

Model przechwytuje następnie szacuje średni wynik badanych na początku (niezależnie od grupy, w której się znajdują). Współczynnik dla manekina okazji pomiarowej wskazuje zmianę w grupie kontrolnej między wartością początkową a obserwacją. A współczynnik dla składnika interakcji wskazuje, o ile większa / mniejsza była zmiana w grupie leczonej w porównaniu z grupą kontrolną.

W tym przypadku nie jest konieczne uwzględnienie głównego efektu dla grupy, ponieważ na początku grupy są z definicji równoważne z powodu randomizacji.

Można oczywiście argumentować, że główny efekt dla grupy powinien być nadal uwzględniony, aby w przypadku niepowodzenia randomizacji zostanie to ujawnione w analizie. Jest to jednak równoważne testowaniu ze sobą średnich wartości obu grup. I jest wiele osób, które marszczą brwi podczas testowania różnic podstawowych w randomizowanych badaniach (oczywiście, jest też wielu, którzy uważają to za przydatne, ale to inna kwestia).


4
Problemy pojawiają się, gdy pomiar czasu zerowego (wyjściowy) jest stosowany jako zmienna pierwszej odpowiedzi. Linia bazowa jest często stosowana jako kryterium wejścia do badania. Na przykład badanie może obejmować pacjentów ze skurczowym ciśnieniem krwi (bp)> 140, a następnie losowo wybrać leczenie z 2 bp i postępować zgodnie z bps. Początkowo bp ma skrócony rozkład, a późniejsze pomiary będą bardziej symetryczne. Nieuporządkowane jest modelowanie 2 kształtów dystrybucyjnych w tym samym modelu. Istnieje wiele innych powodów, aby traktować linię bazową jako zmienną towarzyszącą linii podstawowej.
Frank Harrell,

3
To dobra uwaga, ale ostatnie badania sugerują, że nie jest to problem. W rzeczywistości wydaje się, że istnieje więcej wad korzystania z wyjściowych wyników jako współzmiennej. Patrz: Liu, GF i in. (2009). Czy wartość wyjściowa powinna być zmienną towarzyszącą lub zależną w analizach zmian od wartości wyjściowej w badaniach klinicznych? Statystyka w medycynie, 28, 2509-2530.
Wolfgang

3
Przeczytałem ten artykuł. To nie jest przekonujące, a Liu nie badał różnych rodzajów sytuacji w badaniach klinicznych, które opisałem. Więcej argumentów znajduje się na stronie biostat.mc.vanderbilt.edu/wiki/pub/Main/RmS/course2.pdf w rozdziale dotyczącym analizy danych szeregowych (podłużnych).
Frank Harrell

1
Dzięki za link. Zakładam, że odnosisz się do dyskusji w 8.2.3. To kilka interesujących kwestii, ale nie sądzę, że daje to jednoznaczną odpowiedź. Jestem pewien, że praca Liu i in. nie jest też ostateczną odpowiedzią, ale sugeruje na przykład, że nienormalność wartości wyjściowych nie jest istotnym problemem. Może jest to coś na osobny temat dyskusji, ponieważ nie odnosi się bezpośrednio do pytania PO.
Wolfgang

2
Tak, zależy to od ilości nienormalności. Po co polegać na szczęściu przy formułowaniu modelu? Istnieje również wiele czysto filozoficznych powodów, by traktować pomiary czasu zerowego jako pomiary podstawowe (patrz cytaty Senna i Rochona w moich notatkach).
Frank Harrell,

19

Przyczyną zachowania głównych efektów w modelu jest identyfikowalność. Dlatego jeśli celem jest wnioskowanie statystyczne o każdym z efektów, należy zachować główne efekty w modelu. Jeśli jednak twoim celem modelowania jest wyłącznie przewidywanie nowych wartości, to całkowicie uzasadnione jest uwzględnienie tylko interakcji, jeśli poprawi to dokładność predykcyjną.


5
Czy możesz być trochę bardziej precyzyjny na temat problemu identyfikowalności?
ocram

6
Nie wierzę, że model pomijający główne efekty jest koniecznie niezidentyfikowany. Być może masz na myśli raczej „interpretowalność” niż „identyfikowalność” (który jest terminem technicznym z precyzyjną definicją)
JMS

6
@JMS: Tak, zabija interpretowalność. Jednak termin „identyfikowalność” jest różnie używany przez statystów i naukowców społecznych. Miałem na myśli to drugie, w którym (luźno mówiąc) chcesz zidentyfikować każdy parametr statystyczny za pomocą określonej konstrukcji. Po upuszczeniu głównego efektu nie można już dopasować konstrukcji do parametru.
Galit Shmueli

13

jest to ukryte w wielu odpowiedziach udzielonych przez innych, ale prostota polega na tym, że modele bez określenia produktu, ale bez moderatora i predyktora są tylko różnymi modelami. Dowiedz się, co to oznacza, biorąc pod uwagę proces, który modelujesz i czy model bez moderatora i predyktora ma większy sens, biorąc pod uwagę twoją teorię lub hipotezę. Obserwacja, że ​​termin produktu jest znaczący, ale tylko wtedy, gdy nie uwzględniono moderatora i predyktora, nic ci nie mówi (z wyjątkiem być może szukania „znaczenia”) bez przekonującego wyjaśnienia, dlaczego warto je pominąć .


Przybyłem tutaj, aby zbadać interpretację głównych efektów w obecności znaczącego terminu interakcji i ta odpowiedź naprawdę bardzo pomogła. Dzięki!
Patrick Williams,

9

Prawdopodobnie zależy to od tego, do czego używasz swojego modelu. Ale nigdy nie widziałem powodu, aby nie uruchamiać i opisywać modeli z głównymi efektami, nawet w przypadkach, w których hipoteza dotyczy tylko interakcji.


Co jeśli interakcja jest znacząca tylko wtedy, gdy głównych efektów nie ma w modelu?
Glen,

3
@Glen - Jest wiele rzeczy do przemyślenia poza istotnością statystyczną. Zobacz to . Lepiej zbadać ogólne dopasowanie modelu (wykreślić swoje resztki w stosunku do prognoz dla każdego dopasowanego modelu), swoją teorię i motywacje do modelowania.
Michael Bishop

7

Będę pożyczyć ustęp z książki Wprowadzenie do analizy przeżycia przy użyciu Stata przez M.Cleves, R.Gutierrez, W.Gould, Y.Marchenko edytowany przez Stata prasie odpowiedzieć na Twoje pytanie.

Powszechnie wiadomo, że efekty interakcji powinny być uwzględniane w modelu tylko wtedy, gdy uwzględniane są również odpowiednie efekty główne, ale nie ma nic złego w włączaniu samych efektów interakcji. [...] Celem badacza jest sparametryzowanie tego, co prawdopodobnie jest prawdziwe dla danych, biorąc pod uwagę problem, a nie tylko na podstawie recepty.


3
Absolutnie okropna rada.
Frank Harrell,

3
@Frank, czy mógłbyś rozwinąć swój komentarz? Na pierwszy rzut oka „sparametryzowanie tego, co prawdopodobnie jest prawdziwe dla danych”, ma wiele sensu.
whuber

6
Zobacz stats.stackexchange.com/questions/11009/… . Dane nie są w stanie powiedzieć ci, co jest prawdą, a takie podejście jest silnie uzależnione od początku pomiaru mnożonych zmiennych. Ocena izolowanych oddziaływań temperaturowych w stopniach Fahrenheita da inny obraz niż w przypadku Celsjusza.
Frank Harrell,

@Frank: Dzięki, znalazłem to :-). Jest teraz częścią tego wątku.
whuber

7

Zarówno x i y będą skorelowane z xy (chyba, że podjęły konkretne środki, aby temu zapobiec stosując centrowanie). Tak więc, jeśli uzyskasz znaczący efekt interakcji ze swoim podejściem, prawdopodobnie będzie to jeden lub więcej głównych efektów udających interakcję. Nie da to jasnych, możliwych do interpretacji wyników. Zamiast tego pożądane jest, aby zobaczyć, jak wiele interakcji może wyjaśnić ponad to, co robią główne efekty, włączając x , yi (najlepiej w następnym etapie) xy .

Jeśli chodzi o terminologię: tak, β 0 nazywa się „stałą”. Z drugiej strony „częściowy” ma określone znaczenie w regresji, więc nie użyłbym tego terminu do opisania tutaj twojej strategii.

W tym wątku opisano kilka interesujących przykładów, które pojawią się raz na niebieskim księżycu .


7

Sugerowałbym, że jest to po prostu szczególny przypadek niepewności modelu. Z perspektywy bayesowskiej po prostu traktujesz to w dokładnie taki sam sposób, jak traktujesz każdy inny rodzaj niepewności, poprzez:

  1. Obliczanie prawdopodobieństwa, jeśli jest przedmiotem zainteresowania
  2. Integrowanie lub uśrednianie, jeśli nie jest to interesujące, ale może mieć wpływ na twoje wnioski

Dokładnie to robią ludzie, testując „znaczące efekty” za pomocą kwantyli t zamiast normalnych kwantyli. Ponieważ masz wątpliwości co do „prawdziwego poziomu hałasu”, bierzesz to pod uwagę, stosując w testach bardziej rozproszony rozkład. Zatem z twojej perspektywy „główny efekt” jest w rzeczywistości „uciążliwym parametrem” w stosunku do zadawanego pytania. Więc po prostu uśredniasz dwa przypadki (lub bardziej ogólnie, biorąc pod uwagę modele, które rozważasz). Miałem więc (niejasną) hipotezę: D I P ( H i n t | D I ) = P ( H i n t | I ) P ( D | H i n t I )

Hint:The interaction between A and B is significant
Powiedziałbym, że choć nie jest dokładnie zdefiniowane, na to pytanie chcesz odpowiedzieć tutaj. I zauważ, że to nie wypowiedzi słowne, takie jak powyżej, „definiują” hipotezę, ale także równania matematyczne. Mamy pewne dane i wcześniejsze informacje , a następnie po prostu obliczamy: (mała uwaga: bez względu na to, ile razy zapisuję to równanie, zawsze pomaga mi lepiej zrozumieć problem. Dziwne). Główną wielkością do obliczenia jest prawdopodobieństwo , nie odnosi się to do modelu, więc model musiał zostać usunięty przy użyciu prawa całkowitego prawdopodobieństwa: DI
P(Hint|DI)=P(Hint|I)P(D|HintI)P(D|I)
P(D|HintI)
P(D|HintI)=m=1NMP(DMm|HintI)=m=1NMP(Mm|HintI)P(D|MmHintI)
Gdzie indeksuje -ty model, a to liczba rozważanych modeli. Pierwszy termin to „waga modelu”, która mówi, jak bardzo dane i wcześniejsze informacje wspierają model mth. Drugi termin wskazuje, w jakim stopniu mth model obsługuje hipotezę. Ponowne podłączenie tego równania do pierwotnego twierdzenia Bayesa daje: MmNM
P(Hint|DI)=P(Hint|I)P(D|I)m=1NMP(Mm|HintI)P(D|MmHintI)
=1P(D|I)m=1NMP(DMm|I)P(MmHintD|I)P(DMm|I)=m=1NMP(Mm|DI)P(Hint|DMmI)

I widać z tego, że jest „warunkowym wnioskiem” hipotezy w ramach m-tego modelu (zwykle jest to wszystko, co jest brane pod uwagę, dla wybranego „najlepszego” modelu ). Zauważ, że ta standardowa analiza jest uzasadniona za każdym razem, gdy - model „oczywiście najlepszy” - lub gdy - wszystkie modele dają takie same / podobne wnioski. Jeśli jednak żaden z nich nie zostanie spełniony, to twierdzenie Bayesa mówi, że najlepszą procedurą jest uśrednienie wyników, umieszczając wyższe wagi na modelach, które są najbardziej wspierane przez dane i wcześniejsze informacje.P ( M m | D I ) 1 P ( H i n t | D M j I ) P ( H i n t | D M k I )P(Hint|DMmI)P(Mm|DI)1P(Hint|DMjI)P(Hint|DMkI)


5

Bardzo rzadko dobrym pomysłem jest dołączenie terminu interakcji bez uwzględnienia w nim głównych efektów. David Rindskopf z CCNY napisał kilka artykułów na temat tych rzadkich przypadków.


5

Istnieją różne procesy w naturze, które wymagają jedynie efektu interakcji i praw, które je opisują. Na przykład prawo Ohma. W psychologii masz na przykład model wydajności Vrooma (1964): Performance = Ability x Motivation. Teraz możesz spodziewać się znalezienia znaczącego efektu interakcji, gdy to prawo jest prawdziwe. Niestety tak nie jest. Możesz łatwo znaleźć dwa główne efekty i nieznaczny efekt interakcji (demonstrację i dalsze wyjaśnienia patrz Landsheer, van den Wittenboer i Maassen (2006), Social Science Research 35, 274-294). Model liniowy nie jest bardzo odpowiedni do wykrywania efektów interakcji; Ohm mógł nigdy nie znaleźć swojego prawa, gdyby użył modeli liniowych.

W rezultacie interpretacja efektów interakcji w modelach liniowych jest trudna. Jeśli masz teorię, która przewiduje efekt interakcji, powinieneś uwzględnić go nawet wtedy, gdy jest nieznaczny. Możesz zignorować główne efekty, jeśli Twoja teoria je wyklucza, ale będzie to trudne, ponieważ znaczące główne efekty często występują w przypadku prawdziwego mechanizmu generowania danych, który ma jedynie efekt multiplikatywny.

Moja odpowiedź brzmi: tak, poprawne może być uwzględnienie dwukierunkowej interakcji w modelu bez uwzględnienia głównych efektów. Modele liniowe są doskonałymi narzędziami do przybliżenia wyników wielu różnych mechanizmów generowania danych, ale ich formuł nie można łatwo interpretować jako prawidłowego opisu mechanizmu generowania danych.


4

Ten jest trudny i przydarzył mi się w moim ostatnim projekcie. Wyjaśniłbym to w ten sposób: załóżmy, że masz zmienne A i B, które wyszły znaczące niezależnie i z biznesowego punktu widzenia myślałeś, że interakcja A i B wydaje się dobra. Uwzględniłeś interakcję, która okazała się znacząca, ale B straciło na znaczeniu. Na początku wyjaśniłbyś swój model, pokazując dwa wyniki. Wyniki pokazałyby, że początkowo B była znacząca, ale gdy spojrzeć na nią w świetle A, straciła swój połysk. Zatem B jest dobrą zmienną, ale tylko w świetle różnych poziomów A (jeśli A jest zmienną kategorialną). To tak, jakby powiedzieć, że Obama jest dobrym przywódcą, gdy patrzy się na niego w świetle swojej armii SEAL. Tak więc pieczęć Obama * będzie znaczącą zmienną. Ale Obama, gdy widzi się go samego, może nie być tak ważny. (Bez obrazy dla Obamy, tylko przykład.)


1
Tutaj jest coś wręcz przeciwnego. Interakcja (będąca przedmiotem zainteresowania) jest znacząca tylko wtedy, gdy głównych efektów nie ma w modelu.
Glen,

3

F = m * a, siła równa jest masie razy przyspieszenie.

Nie jest reprezentowany jako F = m + a + ma lub jakaś inna liniowa kombinacja tych parametrów. Rzeczywiście, tylko interakcja między masą a przyspieszeniem miałaby sens fizyczny.


2
To, co stosuje się do niezaprzeczalnego równania fizyki, w którym nie ma miejsca na zmienność, niekoniecznie ma zastosowanie lub niekoniecznie jest prawdziwe, dokładne lub produktywne przy modelowaniu danych charakteryzujących się zmiennością.
rolando2

2

Interakcja z efektem głównym i bez niego.  Niebieski jest jednym warunkiem.  Czerwony inny.  Ich odpowiednie efekty są testowane w trzech kolejnych pomiarach.

Czy kiedykolwiek uzasadnione jest uwzględnienie interakcji dwukierunkowej bez efektu głównego?

Tak, może być ważny, a nawet konieczny. Jeśli na przykład w 2. uwzględnisz czynnik dla efektu głównego (średnia różnica warunków niebieskiego i czerwonego), pogorszy to model.

Co jeśli twoja hipoteza dotyczy tylko interakcji, czy nadal musisz uwzględnić główne efekty?

Twoja hipoteza może być prawdziwa niezależnie od głównego efektu. Ale model może potrzebować go, aby najlepiej opisać podstawowy proces. Więc tak, powinieneś spróbować zi bez.

Uwaga: Musisz wyśrodkować kod zmiennej niezależnej „ciągłej” (pomiar w przykładzie). W przeciwnym razie współczynniki interakcji w modelu nie będą rozkładane symetrycznie (brak współczynnika dla pierwszego pomiaru w przykładzie).



1

Tak, może to być poprawne, chociaż jest rzadkie. Ale w tym przypadku nadal musisz modelować główne efekty, które potem zrezygnujesz.

Rzeczywiście, w niektórych modelach interesująca jest tylko interakcja, na przykład testy leków / modele kliniczne. Jest to na przykład podstawa modelu uogólnionych interakcji psychofizjologicznych (gPPI): y = ax + bxh + chgdzie x/ysą woksele / regiony zainteresowania i hprojekty bloków / zdarzeń.

W tym modelu, jak ai cbędzie cofały się tylko bbędą przechowywane przez wnioskowanie (współczynniki beta). Rzeczywiście, zarówno ai cprzedstawiają aktywność fałszywy w naszym przypadku i tylko breprezentuje to, co nie może być wyjaśniona przez działalność fałszywych, interakcji z zadania.


1

Krótka odpowiedź: jeśli uwzględnisz interakcję w ustalonych efektach, główne efekty zostaną automatycznie uwzględnione, niezależnie od tego, czy włączysz je do kodu . Jedyną różnicą jest twoja parametryzacja, tj. Co oznaczają parametry w twoim modelu (np. Czy są to średnie grupowe, czy też różnią się od poziomów odniesienia).

Założenia: Zakładam, że pracujemy w ogólnym modelu liniowym i pytam, kiedy możemy użyć specyfikacji efektów stałych zamiast , gdzie i są czynnikami (kategorialnymi).ABA+B+ABAB

Wyjaśnienie matematyczne: Zakładamy, że wektor odpowiedzi . Jeśli , i są matrycami projektowymi dla trzech czynników, wówczas model z „głównymi efektami i interakcją” odpowiada ograniczeniu zakresie . Model z „tylko interakcją” odpowiada ograniczeniu span . Jednak zakres zakres . Są to dwie różne parametryzacje tego samego modeluX A X B X A B ξ { X A , X B , X A B } ξ { X A B } { X A B } = { X A , X B , X A B }YN(ξ,σ2In)XAXBXABξ{XA,XB,XAB}ξ{XAB}{XAB}={XA,XB,XAB} (lub z tej samej rodziny dystrybucji, jeśli czujesz się bardziej komfortowo z tą terminologią).

Właśnie zobaczyłem, że David Beede udzielił bardzo podobnej odpowiedzi (przeprosiny), ale pomyślałem, że zostawię to tym, którzy dobrze reagują na algebrę liniową.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.