1. Słynny przykład w psychologii i językoznawstwie opisuje Herb Clark (1973; po Coleman, 1964): „Błędność języka jako ustalonego efektu: krytyka statystyki języka w badaniach psychologicznych”.
Clark jest psycholingwistą omawiającym eksperymenty psychologiczne, w których próbka badanych odpowiada na zbiór materiałów stymulacyjnych, zwykle różnych słów zaczerpniętych z jakiegoś korpusu. Wskazuje, że standardowa procedura statystyczna stosowana w tych przypadkach, oparta na ANOVA z powtarzanymi pomiarami i określana przez Clarka jako , traktuje uczestników jako czynnik losowy, ale (być może domyślnie) traktuje materiały stymulacyjne (lub „język”) jak ustalono. Prowadzi to do problemów z interpretacją wyników testów hipotez dotyczących czynnika warunków eksperymentalnych: naturalnie chcemy założyć, że wynik dodatni mówi nam coś zarówno o populacji, z której pobraliśmy naszą próbę uczestnika, jak i populacji teoretycznej, z której czerpaliśmy materiały językowe. Ale F.fa1 , traktując uczestników jako przypadkowych, a bodźce jako ustalone, mówi nam tylko o wpływie czynnika warunkowego na innych podobnych uczestników reagującychna dokładnie te same bodźce. Przeprowadzenieanalizy F 1, gdy zarówno uczestnicy, jak i bodźce są bardziej odpowiednio postrzegane jako losowe, może prowadzić do poziomów błędu typu 1, które znacznie przekraczają nominalnypoziom α - zwykle 0,05 - z zakresem zależnym od czynników, takich jak liczba i zmienność bodźce i plan eksperymentu. W tych przypadkach bardziej odpowiednią analizą, przynajmniej w klasycznej strukturze ANOVA, jest wykorzystanie tak zwanychstatystykquasi- F opartych na stosunkachśrednich kwadratów.fa1fa1αfa kombinacji liniowych
Artykuł Clarka rozkwitł wówczas w psycholingwistyce, ale nie zrobił wielkiego wgniecenia w szerszej literaturze psychologicznej. (I nawet w psycholingwistyce rada Clarka z biegiem lat uległa pewnym zniekształceniom, jak udokumentowali Raaijmakers, Schrijnemakers i Gremmen, 1999.) Ale w ostatnich latach problem ten przeżył coś w rodzaju przebudzenia, w dużej mierze dzięki postępom statystycznym w modelach z efektami mieszanymi, których klasyczny model mieszany ANOVA może być postrzegany jako szczególny przypadek. Niektóre z tych ostatnich artykułów to Baayen, Davidson i Bates (2008), Murayama, Sakaki, Yan i Smith (2014) oraz ( ahem ) Judd, Westfall i Kenny (2012). Jestem pewien, że są pewne, o których zapominam.
2. Niezupełnie. Istniejąmetody pozwalające ustalić, czy czynnik jest lepiej uwzględniany jako efekt losowy, czy też wcale nie jest uwzględniany w modelu (patrz np. Pinheiro i Bates, 2000, s. 83-87; jednak patrz Barr, Levy, Scheepers i Tily, 2013). Oczywiście istnieją klasyczne techniki porównywania modeli w celu ustalenia, czy czynnik jest lepiej uwzględniony jako efekt stały, czy też wcale (tj.Testy ). Sądzę jednak, że określenie, czy czynnik jest lepiej uważany za stały czy losowy, najlepiej pozostawić jako pytanie koncepcyjne, na które należy odpowiedzieć, rozważając projekt badania i charakter wniosków, które należy z niego wyciągnąć.fa
Jeden z moich absolwentów instruktorów statystyki, Gary McClelland, lubił mówić, że być może podstawowe pytanie dotyczące wnioskowania statystycznego brzmi: „W porównaniu z czym?” Podążając za Garym, myślę, że możemy sformułować pytanie pojęciowe, o którym wspomniałem powyżej: Jaka jest klasa odniesienia hipotetycznych wyników eksperymentalnych, z którą chcę porównać moje rzeczywiste zaobserwowane wyniki? Pozostając w kontekście psycholingwistycznym i biorąc pod uwagę eksperymentalny plan, w którym mamy próbkę Badanych reagujących na próbkę słów sklasyfikowanych w jednym z dwóch Warunków (konkretny projekt omówiony szczegółowo przez Clarka, 1973), skupię się na dwie możliwości:
- Zestaw eksperymentów, w którym dla każdego eksperymentu rysujemy nową próbkę Przedmiotów, nową próbkę Słowa i nową próbkę błędów z modelu generatywnego. W ramach tego modelu Tematy i Słowa są efektami losowymi.
- Zestaw eksperymentów, w którym dla każdego eksperymentu rysujemy nową próbkę Przedmiotów i nową próbkę błędów, ale zawsze używamy tego samego zestawu słów . W ramach tego modelu Tematy są efektami losowymi, ale Słowa są efektami stałymi.
Aby uczynić to całkowicie konkretnym, poniżej przedstawiono kilka wykresów z (powyżej) 4 zestawów hipotetycznych wyników z 4 symulowanych eksperymentów w Modelu 1; (poniżej) 4 zestawy hipotetycznych wyników z 4 symulowanych eksperymentów w ramach Modelu 2. Każdy eksperyment wyświetla wyniki na dwa sposoby: (lewe panele) pogrupowane według osobników, przy czym dla każdego osobnika wykreślono środki i powiązano je ze sobą; (prawe panele) pogrupowane według słów, z wykresami ramkowymi podsumowującymi rozkład odpowiedzi dla każdego słowa. Wszystkie eksperymenty obejmują 10 podmiotów odpowiadających na 10 słów, a we wszystkich eksperymentach „hipoteza zerowa” braku różnicy warunków jest prawdziwa w odpowiedniej populacji.
Tematy i słowa losowe: 4 symulowane eksperymenty
Zauważ tutaj, że w każdym eksperymencie profile odpowiedzi dla tematów i słów są zupełnie inne. W przypadku Przedmiotów czasami mamy niską ogólną odpowiedź, czasem wysoką odpowiedź, czasami Tematy, które wykazują duże różnice w Warunkach, a czasami Tematy, które wykazują małe różnice w Warunkach. Podobnie w przypadku słów czasami otrzymujemy słowa, które mają tendencję do wywoływania niskich odpowiedzi, a czasami otrzymujemy słowa, które mają tendencję do wywoływania wysokich odpowiedzi.
Tematy losowe, Słowa naprawione: 4 symulowane eksperymenty
Zauważ tutaj, że w 4 symulowanych eksperymentach badani za każdym razem wyglądają inaczej, ale profile odpowiedzi dla słów wyglądają w zasadzie tak samo, zgodnie z założeniem, że używamy tego samego zestawu słów dla każdego eksperymentu w tym modelu.
Nasz wybór, czy naszym zdaniem Model 1 (podmioty i słowa zarówno losowe), jak i model 2 (podmioty losowe, słowa ustalone) zapewnia odpowiednią klasę referencyjną dla wyników eksperymentalnych, które faktycznie zaobserwowaliśmy, może mieć duży wpływ na naszą ocenę, czy manipulacja Warunkiem „pracował”. Spodziewamy się większej zmienności szans w danych w Modelu 1 niż w Modelu 2, ponieważ jest więcej „części ruchomych”. Jeśli więc wnioski, które chcemy wyciągnąć, są bardziej spójne z założeniami modelu 1, w którym zmienność szans jest stosunkowo wyższa, ale analizujemy nasze dane w oparciu o założenia modelu 2, w których zmienność szans jest stosunkowo mniejsza, to nasz błąd typu 1 szybkość testowania Różnica Warunków zostanie zawyżona do pewnego stopnia (być może całkiem dużego). Aby uzyskać więcej informacji, zobacz odnośniki poniżej.
Referencje
Baayen, RH, Davidson, DJ i Bates, DM (2008). Modelowanie efektów mieszanych ze skrzyżowanymi efektami losowymi dla przedmiotów i przedmiotów. Dziennik pamięci i języka, 59 (4), 390-412. PDF
Barr, DJ, Levy, R., Scheepers, C., i Tily, HJ (2013). Struktura efektów losowych do testowania hipotez potwierdzających: zachowaj maksymalną wartość. Journal of Memory and Language, 68 (3), 255–278. PDF
Clark, HH (1973). Błąd językowy jako ustalony efekt: krytyka statystyki językowej w badaniach psychologicznych. Dziennik uczenia się i zachowań werbalnych, 12 (4), 335-359. PDF
Coleman, EB (1964). Uogólnienie na populację językową. Raporty psychologiczne, 14 (1), 219–226.
Judd, CM, Westfall, J., i Kenny, DA (2012). Traktowanie bodźców jako przypadkowego czynnika w psychologii społecznej: nowe i kompleksowe rozwiązanie wszechobecnego, ale w dużej mierze ignorowanego problemu. Dziennik osobowości i psychologii społecznej, 103 (1), 54. PDF
Murayama, K., Sakaki, M., Yan, VX i Smith, GM (2014). Inflacja błędów typu I w tradycyjnej analizie przez uczestnika do dokładności metamemory: uogólniona perspektywa modelu z efektami mieszanymi. Journal of Experimental Psychology: Learning, Memory and Cognition. PDF
Pinheiro, JC i Bates, DM (2000). Modele z efektami mieszanymi w S i S-PLUS. Skoczek.
Raaijmakers, JG, Schrijnemakers, J., i Gremmen, F. (1999). Jak radzić sobie z „błędem językowym jako ustalonego efektu”: typowe nieporozumienia i alternatywne rozwiązania. Journal of Memory and Language, 41 (3), 416–426. PDF