Jaka jest zaleta traktowania czynnika jako losowego w modelu mieszanym?


24

Mam problem z uznaniem korzyści oznaczania czynnika modelowego za losowy z kilku powodów. Wydaje mi się, że prawie we wszystkich przypadkach optymalnym rozwiązaniem jest traktowanie wszystkich czynników jako ustalonych.

Po pierwsze, rozróżnienie między ustalonym a losowym jest dość arbitralne. Standardowe wyjaśnienie jest takie, że jeśli ktoś interesuje się konkretnymi jednostkami eksperymentalnymi per se, to należy zastosować ustalone efekty, a jeśli interesuje się populacja reprezentowana przez jednostki eksperymentalne, należy zastosować efekty losowe. Nie jest to zbyt pomocne, ponieważ sugeruje, że można przełączać się między widokami stałymi i losowymi, nawet jeśli dane i projekt eksperymentalny pozostają takie same. Ponadto definicja ta promuje złudzenie, że jeśli czynnik jest oznaczony jako losowy, wnioskowanie z modelu jest w jakiś sposób bardziej odpowiednie dla populacji niż w przypadku, gdy czynnik jest oznaczony jako ustalony. Wreszcie, Gelman pokazuje, że rozróżnienie na nieruchome losowe jest mylące nawet na poziomie definicji, ponieważ istnieją jeszcze cztery definicje tego, czym są efekty stałe i losowe.

Po drugie, oszacowanie modeli mieszanych jest dość skomplikowane. W przeciwieństwie do „czysto ustalonego” modelu istnieje więcej niż kilka sposobów na uzyskanie wartości p. Prof. Bates, który zaimplementował oszacowanie REML w pakiecie lme4 w R, posunął się tak daleko, że odmówił podania wartości p .

Po trzecie, istnieje niejasna kwestia, ile domyślnych parametrów wprowadza czynnik losowy. Poniższy przykład to moja adaptacja tego w Burnham & Anderson, Wybór modelu i Wnioskowanie wielu modeli: Praktyczne podejście teoretyczno-informacyjne . Z perspektywy kompromisowej wariancji rolę efektów losowych można zilustrować w następujący sposób. Rozważ jednokierunkową ANOVA z terapiami i efektami głównego czynnika , z których można oszacować. Termin błędu ma rozkład . Jeżeli liczba obserwacji jest stała, kompromis bias-wariancji pogorszy jako idzie w górę. Załóżmy, że mówimy, żeK K - 1 N ( 0 , σ 2 ) K KK.K.K-1N.(0,σ2))K.K.główne efekty pochodzą z rozkładu . Odpowiedni model będzie miał złożoność, która jest gdzieś pomiędzy poprawioną (przebudowaną) wersją a niedopasowanym modelem, który zawiera tylko przechwytywanie. Liczba efektywnych parametrów w modelu stałym wynosiN.(0,σK.)

1jantmirdomipt+(K.-1)mzajanmifafamidots+1σ=K.+1.

Liczba efektywnych parametrów w modelu losowym wynosi co najmniej trzy: . Ponadto model losowy ma szereg „ukrytych” parametrów implikowanych przez ograniczenie dystrybucji (normalne w tym przypadku) nałożone na główne efekty.jantmirdomipt,σ,σK.

W szczególności, jeśli istnieje czynnik z dwoma poziomami, nie ma sensu nazywać go losowym, nawet jeśli wiemy na pewno, że z niektórych populacji losowo pobrano próbki. Jest tak, ponieważ wersja ze stałym efektem ma trzy parametry, a wersja z efektem losowym ma ponad trzy parametry. W tym przypadku model losowy okazuje się bardziej złożony niż wersja stała. Najwyraźniej przejście z wersji stałej na losową jest bardziej uziemione dla większegoK.. Jednak liczba „ukrytych” parametrów w modelu losowym jest nieznana, więc niemożliwe jest porównanie wersji stałej i losowej na podstawie kryteriów informacyjnych, takich jak AIC. Dlatego, chociaż ten przykład naświetla wpływ efektów losowych (możliwość lepszego kompromisu wariancji odchylenia), pokazuje również, że trudno jest powiedzieć, kiedy uzasadnione jest ponowne oznaczenie współczynnika od stałego do losowego.

Żaden z powyższych problemów nie występuje w „czysto ustalonym” modelu. Dlatego jestem gotów zapytać:

  1. Czy ktoś może podać przykład, gdy wydarzyło się coś bardzo złego, gdy zastosowano czynnik losowy tak, jakby został naprawiony? Uważam, że powinny istnieć pewne badania symulacyjne, które wyraźnie zajmą się tym problemem.

  2. Czy istnieje sprawdzona metoda ilościowa, aby zdecydować, kiedy sensowne jest przejście od etykiety stałej do losowej?


Dobrze napisane pytanie i nauczyłem się kilku rzeczy, czytając je. Zastanawiam się, czy analiza efektów losowych jest skazana na dłuższą metę, być może zostać pokonana przez bardziej proste techniki wygładzania. Jeśli spróbuję odpowiedzieć na pytanie nr 1, wybiorę sytuację o dużej zmienności, wielu osobnikach i małych próbkach w obrębie przedmiotu. Wówczas ustalone szacunki wewnątrz podmiotu będą wszędzie.
Ben Ogorek,

Odpowiedzi:


20

1. Słynny przykład w psychologii i językoznawstwie opisuje Herb Clark (1973; po Coleman, 1964): „Błędność języka jako ustalonego efektu: krytyka statystyki języka w badaniach psychologicznych”.

Clark jest psycholingwistą omawiającym eksperymenty psychologiczne, w których próbka badanych odpowiada na zbiór materiałów stymulacyjnych, zwykle różnych słów zaczerpniętych z jakiegoś korpusu. Wskazuje, że standardowa procedura statystyczna stosowana w tych przypadkach, oparta na ANOVA z powtarzanymi pomiarami i określana przez Clarka jako , traktuje uczestników jako czynnik losowy, ale (być może domyślnie) traktuje materiały stymulacyjne (lub „język”) jak ustalono. Prowadzi to do problemów z interpretacją wyników testów hipotez dotyczących czynnika warunków eksperymentalnych: naturalnie chcemy założyć, że wynik dodatni mówi nam coś zarówno o populacji, z której pobraliśmy naszą próbę uczestnika, jak i populacji teoretycznej, z której czerpaliśmy materiały językowe. Ale F.fa1 , traktując uczestników jako przypadkowych, a bodźce jako ustalone, mówi nam tylko o wpływie czynnika warunkowego na innych podobnych uczestników reagującychna dokładnie te same bodźce. Przeprowadzenieanalizy F 1, gdy zarówno uczestnicy, jak i bodźce są bardziej odpowiednio postrzegane jako losowe, może prowadzić do poziomów błędu typu 1, które znacznie przekraczają nominalnypoziom α - zwykle 0,05 - z zakresem zależnym od czynników, takich jak liczba i zmienność bodźce i plan eksperymentu. W tych przypadkach bardziej odpowiednią analizą, przynajmniej w klasycznej strukturze ANOVA, jest wykorzystanie tak zwanychstatystykquasi- F opartych na stosunkachśrednich kwadratów.fa1fa1αfa kombinacji liniowych

Artykuł Clarka rozkwitł wówczas w psycholingwistyce, ale nie zrobił wielkiego wgniecenia w szerszej literaturze psychologicznej. (I nawet w psycholingwistyce rada Clarka z biegiem lat uległa pewnym zniekształceniom, jak udokumentowali Raaijmakers, Schrijnemakers i Gremmen, 1999.) Ale w ostatnich latach problem ten przeżył coś w rodzaju przebudzenia, w dużej mierze dzięki postępom statystycznym w modelach z efektami mieszanymi, których klasyczny model mieszany ANOVA może być postrzegany jako szczególny przypadek. Niektóre z tych ostatnich artykułów to Baayen, Davidson i Bates (2008), Murayama, Sakaki, Yan i Smith (2014) oraz ( ahem ) Judd, Westfall i Kenny (2012). Jestem pewien, że są pewne, o których zapominam.

2. Niezupełnie. Istniejąmetody pozwalające ustalić, czy czynnik jest lepiej uwzględniany jako efekt losowy, czy też wcale nie jest uwzględniany w modelu (patrz np. Pinheiro i Bates, 2000, s. 83-87; jednak patrz Barr, Levy, Scheepers i Tily, 2013). Oczywiście istnieją klasyczne techniki porównywania modeli w celu ustalenia, czy czynnik jest lepiej uwzględniony jako efekt stały, czy też wcale (tj.Testy ). Sądzę jednak, że określenie, czy czynnik jest lepiej uważany za stały czy losowy, najlepiej pozostawić jako pytanie koncepcyjne, na które należy odpowiedzieć, rozważając projekt badania i charakter wniosków, które należy z niego wyciągnąć.fa

Jeden z moich absolwentów instruktorów statystyki, Gary McClelland, lubił mówić, że być może podstawowe pytanie dotyczące wnioskowania statystycznego brzmi: „W porównaniu z czym?” Podążając za Garym, myślę, że możemy sformułować pytanie pojęciowe, o którym wspomniałem powyżej: Jaka jest klasa odniesienia hipotetycznych wyników eksperymentalnych, z którą chcę porównać moje rzeczywiste zaobserwowane wyniki? Pozostając w kontekście psycholingwistycznym i biorąc pod uwagę eksperymentalny plan, w którym mamy próbkę Badanych reagujących na próbkę słów sklasyfikowanych w jednym z dwóch Warunków (konkretny projekt omówiony szczegółowo przez Clarka, 1973), skupię się na dwie możliwości:

  1. Zestaw eksperymentów, w którym dla każdego eksperymentu rysujemy nową próbkę Przedmiotów, nową próbkę Słowa i nową próbkę błędów z modelu generatywnego. W ramach tego modelu Tematy i Słowa są efektami losowymi.
  2. Zestaw eksperymentów, w którym dla każdego eksperymentu rysujemy nową próbkę Przedmiotów i nową próbkę błędów, ale zawsze używamy tego samego zestawu słów . W ramach tego modelu Tematy są efektami losowymi, ale Słowa są efektami stałymi.

Aby uczynić to całkowicie konkretnym, poniżej przedstawiono kilka wykresów z (powyżej) 4 zestawów hipotetycznych wyników z 4 symulowanych eksperymentów w Modelu 1; (poniżej) 4 zestawy hipotetycznych wyników z 4 symulowanych eksperymentów w ramach Modelu 2. Każdy eksperyment wyświetla wyniki na dwa sposoby: (lewe panele) pogrupowane według osobników, przy czym dla każdego osobnika wykreślono środki i powiązano je ze sobą; (prawe panele) pogrupowane według słów, z wykresami ramkowymi podsumowującymi rozkład odpowiedzi dla każdego słowa. Wszystkie eksperymenty obejmują 10 podmiotów odpowiadających na 10 słów, a we wszystkich eksperymentach „hipoteza zerowa” braku różnicy warunków jest prawdziwa w odpowiedniej populacji.

Tematy i słowa losowe: 4 symulowane eksperymenty

oba_losowy

Zauważ tutaj, że w każdym eksperymencie profile odpowiedzi dla tematów i słów są zupełnie inne. W przypadku Przedmiotów czasami mamy niską ogólną odpowiedź, czasem wysoką odpowiedź, czasami Tematy, które wykazują duże różnice w Warunkach, a czasami Tematy, które wykazują małe różnice w Warunkach. Podobnie w przypadku słów czasami otrzymujemy słowa, które mają tendencję do wywoływania niskich odpowiedzi, a czasami otrzymujemy słowa, które mają tendencję do wywoływania wysokich odpowiedzi.

Tematy losowe, Słowa naprawione: 4 symulowane eksperymenty

subs_random

Zauważ tutaj, że w 4 symulowanych eksperymentach badani za każdym razem wyglądają inaczej, ale profile odpowiedzi dla słów wyglądają w zasadzie tak samo, zgodnie z założeniem, że używamy tego samego zestawu słów dla każdego eksperymentu w tym modelu.

Nasz wybór, czy naszym zdaniem Model 1 (podmioty i słowa zarówno losowe), jak i model 2 (podmioty losowe, słowa ustalone) zapewnia odpowiednią klasę referencyjną dla wyników eksperymentalnych, które faktycznie zaobserwowaliśmy, może mieć duży wpływ na naszą ocenę, czy manipulacja Warunkiem „pracował”. Spodziewamy się większej zmienności szans w danych w Modelu 1 niż w Modelu 2, ponieważ jest więcej „części ruchomych”. Jeśli więc wnioski, które chcemy wyciągnąć, są bardziej spójne z założeniami modelu 1, w którym zmienność szans jest stosunkowo wyższa, ale analizujemy nasze dane w oparciu o założenia modelu 2, w których zmienność szans jest stosunkowo mniejsza, to nasz błąd typu 1 szybkość testowania Różnica Warunków zostanie zawyżona do pewnego stopnia (być może całkiem dużego). Aby uzyskać więcej informacji, zobacz odnośniki poniżej.

Referencje

Baayen, RH, Davidson, DJ i Bates, DM (2008). Modelowanie efektów mieszanych ze skrzyżowanymi efektami losowymi dla przedmiotów i przedmiotów. Dziennik pamięci i języka, 59 (4), 390-412. PDF

Barr, DJ, Levy, R., Scheepers, C., i Tily, HJ (2013). Struktura efektów losowych do testowania hipotez potwierdzających: zachowaj maksymalną wartość. Journal of Memory and Language, 68 (3), 255–278. PDF

Clark, HH (1973). Błąd językowy jako ustalony efekt: krytyka statystyki językowej w badaniach psychologicznych. Dziennik uczenia się i zachowań werbalnych, 12 (4), 335-359. PDF

Coleman, EB (1964). Uogólnienie na populację językową. Raporty psychologiczne, 14 (1), 219–226.

Judd, CM, Westfall, J., i Kenny, DA (2012). Traktowanie bodźców jako przypadkowego czynnika w psychologii społecznej: nowe i kompleksowe rozwiązanie wszechobecnego, ale w dużej mierze ignorowanego problemu. Dziennik osobowości i psychologii społecznej, 103 (1), 54. PDF

Murayama, K., Sakaki, M., Yan, VX i Smith, GM (2014). Inflacja błędów typu I w tradycyjnej analizie przez uczestnika do dokładności metamemory: uogólniona perspektywa modelu z efektami mieszanymi. Journal of Experimental Psychology: Learning, Memory and Cognition. PDF

Pinheiro, JC i Bates, DM (2000). Modele z efektami mieszanymi w S i S-PLUS. Skoczek.

Raaijmakers, JG, Schrijnemakers, J., i Gremmen, F. (1999). Jak radzić sobie z „błędem językowym jako ustalonego efektu”: typowe nieporozumienia i alternatywne rozwiązania. Journal of Memory and Language, 41 (3), 416–426. PDF


1
+1 To świetna odpowiedź, a twój artykuł z 2012 roku jest bardzo miły.
ameba mówi Przywróć Monikę

ponieważ pierwotne pytanie wiązało się już z doskonałą dyskusją, która się w to angażuje - o co dokładnie chodzi?
James

1
Link do Gelmana
Jake Westfall

@James Poszedłem dalej i dodałem trochę pojęć, w tym kilka zdjęć. Powiedz mi co myślisz.
Jake Westfall

Dziękuję za zdjęcia. Zgodnie z ostatnim akapitem, im więcej efektów w modelu jest oznaczonych losowo, tym wyższa jest wartość p dla pozostałych ustalonych efektów. Jednak w przypadku modelu addytywnego wygląda to tak, gdy w PROC MIXED stosowana jest domyślna metoda „powstrzymywania”, wówczas wartość p dla stałego efektu będzie taka sama. Jednym konkretnym przykładem jest to pytanie: stats.stackexchange.com/q/112640/54099 Jak to wyjaśnić?
James

1

Załóżmy, że mam proces produkcyjny, który polega na wytwarzaniu materiału na kilku różnych maszynach. To jedyne maszyny, które mam, więc „maszyna” to stały efekt. Ale tworzę wiele materiałów na każdej maszynie i jestem zainteresowany przewidywaniem rzeczy o przyszłych losach. Sprawię, że „numer partii” będzie czynnikiem losowym, ponieważ jestem zainteresowany wynikami, które uzyskam przyszłych partii.


1
Drogi Emilu: Obawiam się, że nie zrozumiałeś pytań, które zadałem. Twój przykład ilustruje najczęstszą definicję „ustalonego vs losowego”, którą sam podałem w swoim pytaniu. W każdym razie, korzystając ze swojego przykładu, czy możesz mi powiedzieć, dlaczego wnioskowanie o przyszłej reakcji z modelu, w którym numer partii jest stałym czynnikiem, jest złym pomysłem?
James

Jeśli potraktujesz „numer partii” jako ustalony, twoje wnioski będą miały zastosowanie tylko do partii, które już przetestowałeś. W innych sytuacjach dzieje się to samo. Jeśli chcesz wyciągać wnioski na temat efektów losowych, wówczas traktowanie ich jako efektów stałych na ogół da złe odpowiedzi. W wielu sytuacjach modelu mieszanego, traktowanie efektów losowych jako efektów ustalonych da nawet niepoprawne odpowiedzi dotyczące faktycznie naprawionych efektów.
Emil Friedman,

To nie jest kwestia plusów i minusów. Jeśli zrobi się niewłaściwą analizę, wyniki zwykle będą niepoprawne.
Emil Friedman,

Czy możesz podać odniesienie do badania symulacyjnego, które wykazało, że wynik stał się nieprawidłowy w zależności od stałej / losowej etykiety?
James

Zauważ również, że MLE nie jest dostępny za darmo, szczególnie gdy obecne są komponenty wariancji. Spróbuj skonfigurować przekrojony układ czynnikowy z 3 czynnikami i kilkoma ciągłymi współzmiennymi. Następnie spróbuj oszacować czysty model stały i kilka mieszanych specyfikacji. Tak długo, jak istnieje element losowy, który powoduje zmianę z OLS na MLE / REML, problemy z konwergencją, uzyskiwaniem składników zerowych lub ujemnych wariancji lub innymi bezsensownymi wynikami są bardziej prawdopodobne.
James

1

Tak więc traktujesz je losowo, aby uzyskać efekt uśredniania między ogólną średnią a średnią dla tego konkretnego czynnika na podstawie wielkości próby czynnika i ogólnej liczby obserwacji. Pozwala to powiedzieć, że twoje wyniki odnoszą się do całej populacji, ponieważ masz pewien rodzaj średniej ważonej i szacunkową zmienność związaną z tym czynnikiem, jeśli nie, naprawdę możesz powiedzieć, że twoje wyniki odnoszą się do poziomów czynników użyty, ponieważ regresja będzie traktować je jako czynniki dyskretne, a nie losowe, które otrzymają średnią ważoną.

Są one również przydatne, gdy powtarzane są pomiary na ten sam temat, ponieważ można ich użyć, aby uwzględnić korelację między miarami na ten sam temat.


Jeśli chodzi o RM, jest to jeden z powodów, dla których zadałem to pytanie. Jak wspomniałem tutaj: stats.stackexchange.com/q/112640/54099 Traktowanie podmiotu jako ustalonego lub losowego nie zmienia wartości p leczenia, więc po co się tym przejmować.
James

Jeśli masz prosty krzyżowany projekt z jednym ustalonym współczynnikiem i jednym losowym i używasz Oczekiwanych średnich kwadratów, wartość p dla ustalonego współczynnika będzie się różnić od tego, co byś otrzymał, gdybyś traktował oba jako ustalone.
Emil Friedman

1

Yjajot=β1Xjajot+β2)Zja+mija+μjajotXjajotZjaβ2)ZjajaZja

Yjajot=β1Xjajot+mija+μjajotZja

β1β1 , teoretycznie prowadząc do mniejszych błędów standardowych.


(Oryginalna odpowiedź)

Jednym z miejsc, w których zasadniczo wymagane jest użycie efektów losowych, jest włączenie parametrów niezmiennych na poziomie grupowania efektu stałego.

Na przykład powiedz, że chcesz zbadać wpływ cech lekarza (np. / Edukacji) na wyniki pacjentów. Zestaw danych jest na poziomie pacjenta z obserwowanymi wynikami pacjenta i cechami pacjenta / lekarza. Ponieważ pacjenci leczeni u jednego lekarza są prawdopodobnie skorelowani, należy to kontrolować. Możesz wstawić tutaj efekt naprawiony przez lekarza, ale robiąc to, wykluczasz włączenie do modelu jakichkolwiek cech lekarza. Co jest problematyczne, jeśli zainteresowanie dotyczy cech na poziomie lekarza.


Czy możesz podać jakieś instrukcje modelu?
James

0

Myślę, że ma to związek ze spójnością szacunków.

xjajot=zaja+bjot+mizaja stojaki do ustalonego efektu (niektóre warunek eksperymentalny)

bjot oznacza efekt losowy (może osoba).

Neyman i Scott (1948) zwracają uwagę na problem spójności

zajabjot .

zajabjot zarówno jako stałą mocą, szacunki nie są już

zgodny. Przynajmniej tak rozumiałem ...

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.