Czy powinienem dołączyć argument, aby zażądać sumy kwadratów typu III w ezANOVA?


16

Opracowałem pakiet ez dla R jako środek ułatwiający ludziom przejście z pakietów statystyk takich jak SPSS na R. Jest to (miejmy nadzieję) osiągnięte poprzez uproszczenie specyfikacji różnych smaków ANOVA i zapewnienie wyników podobnych do SPSS (w tym wielkości efektów i założeń testy), między innymi. Ta ezANOVA()funkcja służy głównie jako opakowanie car::Anova(), ale obecna wersja ezANOVA()implementuje tylko sumy kwadratów typu II, podczas gdy car::Anova()pozwala na określenie sum kwadratów typu II lub -III. Jak się prawdopodobnie spodziewałem, kilku użytkowników poprosiło o przedstawienie argumentuezANOVA()który pozwala użytkownikowi zażądać typu II lub typu III. Byłem niechętny, aby to zrobić i nakreślić moje rozumowanie poniżej, ale byłbym wdzięczny za wkład społeczności w moje lub jakiekolwiek inne rozumowanie związane z tą kwestią.

Powody, dla których nie uwzględniono argumentu „SS_type” w ezANOVA():

  1. Różnica między kwadratami sum typu I, II i III pojawia się tylko wtedy, gdy dane są niezrównoważone, w takim przypadku powiedziałbym, że więcej korzyści wynika z poprawy nierównowagi poprzez dalsze gromadzenie danych niż zbieranie danych z obliczeń ANOVA.
  2. Różnica między typem II i III dotyczy efektów niższego rzędu, które są kwalifikowane przez efekty wyższego rzędu, w którym to przypadku uważam, że efekty niższego rzędu są naukowo nieciekawe. (Ale patrz poniżej na możliwe komplikacje argumentu)
  3. W tych rzadkich okolicznościach, gdy (1) i (2) nie mają zastosowania (gdy dalsze gromadzenie danych jest niemożliwe, a badacz ma uzasadnione naukowe zainteresowanie kwalifikowanym głównym efektem, którego obecnie nie wyobrażam), można stosunkowo łatwo zmodyfikować ezANOVA()źródła lub przez zastosowanie car::Anova()się do osiągnięcia badań typu III. W ten sposób widzę dodatkowy wysiłek / zrozumienie wymagane do uzyskania testów typu III jako sposób, dzięki któremu mogę zapewnić, że tylko ci, którzy naprawdę wiedzą, co robią, idą tą drogą.

Teraz ostatni wnioskodawca typu III zwrócił uwagę, że argument (2) jest podważany przez rozważenie okoliczności, w których istniejące, ale „nieistotne” efekty wyższego rzędu mogą wpływać na obliczenia sum kwadratów dla efektów niższego rzędu. W takich przypadkach można sobie wyobrazić, że badacz spojrzałby na efekt wyższego rzędu, a widząc, że jest on „nieistotny”, przejdź do próby interpretacji efektów niższego rzędu, które - bez wiedzy badacza - zostały naruszone. Moja początkowa reakcja jest taka, że ​​nie jest to problem z sumami kwadratów, ale z wartościami p i tradycją testowania hipotez zerowych. Podejrzewam, że bardziej jednoznaczna miara dowodów, taka jak współczynnik prawdopodobieństwa, może dać bardziej niejednoznaczny obraz obsługiwanych modeli zgodnych z danymi. Jednak nie mam


2
Krótko - tak. Po prostu, aby zapewnić spójność z innymi pakietami (nawet jeśli wynik był w jakiś sposób „zły” - w takim przypadku masaż ostrzegawczy byłby w porządku). I dziękuję za niesamowity pakiet!
Tal Galili

Kiedy pisałem „paczki”, miałem na myśli inne paczki statystyczne (takie jak SPSS i SAS) - Cieszę się, że inni doprowadzili ten punkt dalej do domu, niż zrobiłem :)
Tal Galili

2
Jak wielu już wie, obecny pakiet ez (wersja 3) zaktualizował ezANOVA, który ma argumenty za SS Type i zwraca model aov.
jiggysoo,

Odpowiedzi:


9

Po prostu w celu wzmocnienia - wierzę, że jestem najnowszym wnioskodawcą.

W szczegółowym komentarzu do punktów Mike'a:

  1. To prawda, że ​​różnica I / II / III dotyczy tylko skorelowanych predyktorów (z których najbardziej niezrównoważonym przykładem są modele niezrównoważone, z pewnością w czynnikowej ANOVA) - ale wydaje mi się to argumentem, który odrzuca analizę niezrównoważonej sytuacji (a stąd jakakolwiek debata typu I / II / III). Może to być niedoskonałe, ale tak właśnie się dzieje (iw wielu kontekstach koszty dalszego gromadzenia danych przeważają nad problemem statystycznym, pomimo zastrzeżeń).

  2. Jest to całkowicie uczciwe i reprezentuje mięso większości argumentów „II kontra III”, faworyzując II ”, z którymi się spotkałem. Najlepsze podsumowanie, z jakim się spotkałem, to Langsrud (2003) „ANOVA dla niezrównoważonych danych: użyj sumy kwadratów typu III zamiast sumy kwadratów typu III”, Statistics and Computing 13: 163-167 (Mam plik PDF, jeśli trudno jest znaleźć oryginał ). Argumentuje (biorąc pod uwagę przypadek dwuskładnikowy jako podstawowy przykład), że jeśli istnieje interakcja, to jest interakcja, więc rozważenie głównych efektów jest zwykle bez znaczenia (oczywiście słuszna kwestia) - a jeśli nie ma interakcji, analiza typu II główne efekty są silniejsze niż Typ III (bez wątpienia), dlatego zawsze powinieneś wybierać z Typem II. Widziałem inne argumenty (np. Venables,

  3. I zgadzam się z tym: jeśli masz interakcję, ale masz również pytanie dotyczące głównego efektu, prawdopodobnie znajdujesz się na terytorium zrób to sam.

Oczywiście są tacy, którzy chcą tylko typu III, ponieważ robi to SPSS, lub innego odniesienia do statystycznej wyższej władzy. Nie jestem całkowicie przeciwny temu poglądowi, jeśli sprowadza się to do wyboru wielu ludzi trzymających się SPSS (przeciwko którym mam pewne rzeczy, a mianowicie czasu, pieniędzy i warunków wygaśnięcia licencji) i SS typu III lub wielu ludzie przechodzący na R i SS typu III. Jednak ten argument jest wyraźnie kiepski statystycznie.

Jednak argument, który uznałem za bardziej znaczący na korzyść typu III, jest wysunięty niezależnie przez Myers & Well (2003, „Research Design and Statistics Analysis”, s. 323, 626-629) oraz Maxwell & Delaney (2004, „ Projektowanie eksperymentów i analiza danych: perspektywa porównania modelu ”, s. 324–328, 332–335). To jest następująco:

  • w przypadku interakcji wszystkie metody dają ten sam wynik dla sumy interakcji kwadratów
  • Typ II zakłada, że ​​nie ma interakcji dla testu głównych efektów; typ III nie
  • Niektórzy (np. Langsrud) twierdzą, że jeśli interakcja nie jest znacząca, masz uzasadnione założenie, że jej nie ma i patrząc na (mocniejsze) główne efekty Typu II
  • Ale jeśli test interakcji jest niewystarczający, ale istnieje interakcja, interakcja może wyjść „nieistotna”, ale nadal prowadzić do naruszenia założeń testu głównych efektów typu II, powodując, że testy te będą zbyt liberalne .
  • Myers & Well przytaczają Appelbaum / Cramer jako głównych zwolenników podejścia typu II i kontynuują [p323]: „... Można zastosować bardziej konserwatywne kryteria nieistotności interakcji, takie jak wymaganie, aby interakcja nie była znacząca w poziom .25, ale nie ma wystarczającego zrozumienia konsekwencji nawet takiego podejścia. Zasadniczo sumy kwadratów typu II nie powinny być obliczane, chyba że istnieje silny a priori powód, aby zakładać brak efektów interakcji i wyraźnie nieistotną interakcję suma kwadratów." Przytaczają [p629] Ogólnie, Lee i Hornick 1981 jako dowód, że interakcje, które nie mają znaczenia, mogą wpływać na testy głównych efektów. Maxwell i Delaney [p334] opowiadają się za podejściem typu II, jeśli interakcja populacji wynosi zero, dla mocy, oraz podejście typu III, jeśli nie jest [dla interpretowalności środków pochodzących z tego podejścia]. Oni również opowiadają się za użyciem Typu III w rzeczywistej sytuacji (kiedy wnioskujesz o obecności interakcji na podstawie danych) z powodu problemu popełnienia błędu typu 2 [słabej mocy] w teście interakcji, a tym samym przypadkowego naruszenia założenia podejścia SS typu II; następnie przedstawiają podobne punkty do Myers & Well i odnotowują długą debatę na ten temat! ponownie wnioskuje o obecności interakcji na podstawie danych) z powodu problemu popełnienia błędu typu 2 [słabej mocy] w teście interakcji, a tym samym przypadkowego naruszenia założeń podejścia SS typu II; następnie przedstawiają podobne punkty do Myers & Well i odnotowują długą debatę na ten temat! ponownie wnioskuje o obecności interakcji na podstawie danych) z powodu problemu popełnienia błędu typu 2 [słabej mocy] w teście interakcji, a tym samym przypadkowego naruszenia założeń podejścia SS typu II; następnie przedstawiają podobne punkty do Myers & Well i odnotowują długą debatę na ten temat!

Tak więc moja interpretacja (i nie jestem ekspertem!) Jest taka, że ​​po obu stronach argumentu jest dużo Wyższego Urzędu Statystycznego; że zwykłe wysuwane argumenty nie dotyczą zwykłej sytuacji, która spowodowałaby problemy (ta sytuacja jest powszechna w interpretacji głównych efektów przy nieistotnej interakcji); i że istnieją uzasadnione powody, aby martwić się podejściem typu II w tej sytuacji (i sprowadza się to do potęgi kontra potencjalnej kwestii nadmiernego liberalizmu).

Dla mnie to wystarczy, aby życzyć sobie opcji Type III w ezANOVA, a także Type II, ponieważ (za moje pieniądze) jest to doskonały interfejs do systemów ANOVA R. Moim zdaniem R jest łatwym w użyciu dla nowicjuszy, a pakiet „ez” z ezANOVA i dość uroczymi funkcjami kreślenia efektów znacznie przyczynia się do udostępnienia R bardziej ogólnej grupie badawczej. Niektóre z moich myśli w toku (i paskudny hack dla ezANOVA) są na stronie http://www.psychol.cam.ac.uk/statistics/R/anova.html .

Byłoby zainteresowane usłyszeć myśli wszystkich!


Ach, nie zdawałem sobie sprawy, że rozróżnienie typu II / III powstaje za każdym razem, gdy skorelowane są predyktory, których niezrównoważony projekt jest tylko jednym przykładem. Z pewnością podważa to mój pierwszy argument „po prostu zbieraj więcej danych”.
Mike Lawrence

2
Jestem raczej przekonany przez twój argument, że R zyska więcej konwersji SPSS, jeśli zapewnią one łatwe sposoby na uzyskanie znanych analiz, nawet jeśli analizy te wymagają bardziej szczegółowej analizy niż jest to zwykle stosowane. Następnie, gdy już ich uzależnimy od R, możemy spróbować przekonać ich, że znane podejście niekoniecznie jest zawsze właściwym podejściem. Myślę, że nadal ustawię wartość domyślną jako typ = 2 z dużym ostrzeżeniem w dokumentacji, że ta wartość domyślna może dawać wyniki inne niż SPSS i linki wykonują dokumentację dotyczącą rozróżnienia typu II / III.
Mike Lawrence

Inne warianty predyktorów skorelowanych są zwykle z predyktorami ciągłymi, ale tak, to jest ogólny problem. // To dla mnie brzmi świetnie! Czasami te zmiany są powolne; stosowanie korekt sferyczności (zamiast ignorowania problemu) jest, moim zdaniem, postępem w dziedzinie neurologii. Były chwile, kiedy jakakolwiek wzmianka o tym (szczególnie jeśli zgłosiłeś poprawiony, nie będący liczbą całkowitą df) sprawiał, że sędziowie myśleli, że szczekasz.
Rudolf Cardinal

Chciałbym dodać, że argumenty typu III dotyczą konserwatywnych lub liberalnych testów hipotez, ale nie znaczeń składników. Główny efekt w typie III po prostu nie jest rozsądny, ponieważ obejmuje interakcję z brakującymi efektami głównymi. Niezależnie od konserwatywnych lub liberalnych kwestii testowych podstawowa spójność modelu wymaga typu II, ponieważ główny efekt typu II ma sens. To powiedziawszy, ezANOVA powinna mieć typ III z innych powodów.
John

7

Zastrzeżenie: odpowiedź czysto niestatystyczna. Wolę pracować z jedną funkcją (lub co najmniej jednym pakietem) podczas wykonywania tego samego typu analizy (np. ANOVA). Do tej pory konsekwentnie używam, Anova()ponieważ wolę jego składnię do określania modeli z powtarzanymi miarami - w porównaniu do aov()i tracę niewiele (SS typ I) z powtarzanymi miarami. ezANOVA()jest miły dla dodatkowej korzyści z rozmiarów efektów. Ale szczególnie nie lubię zajmować się 3 różnymi funkcjami, aby wykonać zasadniczo ten sam typ analizy, tylko dlatego, że jedna z nich implementuje funkcję X (ale nie Y), a druga Y (ale nie X).

Dla ANOVA, mogę wybrać oneway(), lm(), aov(), Anova(), ezANOVA()i prawdopodobnie innych. Ucząc języka R, już trudno jest wyjaśnić różne opcje, ich wzajemne relacje ( aov()jest to opakowanie lm()) i która funkcja robi to, co:

  • oneway()tylko dla projektów jednoskładnikowych, ale z opcją var.equal=FALSE. Brak takiej opcji w aov()i innych, ale te funkcje również dla projektów wieloczynnikowych.
  • składnia powtarzanych taktów jest nieco skomplikowana aov(), lepiej wAnova()
  • wygodny SS typu I tylko w aov(), a nie wAnova()
  • wygodne SS typu II i III tylko w Anova(), nie waov()
  • dogodna miara wielkości efektu w ezANOVA(), a nie w innych

Byłoby fajnie nauczyć tylko jednej funkcji z jedną spójną składnią, która to wszystko robi. Bez wygodnego SS typu III ezANOVA()nie może być dla mnie tą funkcją, ponieważ wiem, że uczniowie zostaną poproszeni o ich użycie w pewnym momencie („po prostu sprawdź te wyniki, które John Doe uzyskał w SPSS”). Uważam, że lepiej jest mieć możliwość samodzielnego wyboru bez konieczności uczenia się kolejnej składni do określania modeli. Postawa „wiem, co jest dla ciebie najlepsze” może mieć swoje zalety, ale może być nadopiekuńcza.


1
Aby dodać jeszcze jedno wymaganie: Byłoby całkowicie niesamowite, gdyby funkcja mogła również uruchamiać wszelkiego rodzaju kontrasty z tej ANOVA, na przykład przy użyciu multcomppakietu (który, o ile pamiętam, wymaga aovobiektów). W przeciwnym razie zgadzam się całkowicie i normalnie korzystać ezz mojej codziennej służby, ponieważ jest to takie łatwe ...
Henrik

1
dodanie argumentu „method” (z możliwymi wartościami „oneway”, „aov” i „Anova” oraz z argumentem „...” w celu przekazania var.eq = FALSE do jednokierunkowego i typu = 2 do Anova) intrygujący pomysł i na pewno wydaje się, że jego wdrożenie byłoby dość łatwe. Dzieki za sugestie.
Mike Lawrence

@Henrik: Muszę szczerze powiedzieć, że moje rozumienie kontrastów jest bardzo ograniczone i nigdy nie używam ich w swoich badaniach, więc nie traktowałem priorytetowo włączania kontrastów do ez.
Mike Lawrence

@Mike Jeśli możesz dodać argument metody, aby funkcja mogła zwrócić aovelement, który byłby świetny. Do tej pory zwykle jestem leniwy, aby stworzyć własny aovelement i korzystać ezANOVAz niego zamiast t.tests ...
Henrik

@Mike Nie odważyłem się zasugerować czegoś takiego, ponieważ wkładasz w to swoją pracę. Dzięki za to! ezPakiet ma jakiś wielki potencjał: psychologię, to już całkiem często zalecana (por niemieckiej książki „R für Einsteiger” przez Luhmann). Z pewnością doceniono by uczynienie go jeszcze bardziej elastycznym.
caracal


0

To była dla mnie debata otwierająca oczy na temat typu II / III. Dzięki za wysiłek wszystkich w zapewnieniu dyskusji. Doszedłem do wniosku, że konsekwentnie promuję typ II zamiast typu III, ale słabo rozumiałem argument - po prostu oparłem się na poradach z książki regresji Johna Foxa (samochód), które zalecały, by testy typu III były rzadko interpretowalny (cóż, myślę, że tak powiedział ...).

W każdym razie - ezANOVA jest naprawdę przydatny do umożliwienia dostępu do funkcjonalności R, która w innym przypadku byłaby niemożliwa dla studentów, których uczę w psychologii. Dostarczam moduły R online, jeden z ezANOVA, aby zademonstrować mieszane projekty ANOVA (choć wydaje się, że wcześniejsza wersja 3 mogła być wadliwa dla tego ... doh!)

Wypróbuj tutaj:

http://www.wessa.net/rwasp_Mixed%20Model%20ANOVA.wasp

po załadowaniu modułu (~ 10s) znajdź przycisk obliczania (w połowie strony), a on uruchomi ezANOVA oraz powiązane tabele i wykresy.

Ian


Kiedy mówisz, że ez był wadliwy dla mieszanych projektów ANOVA, czy opierasz to na moim ostatnim ogłoszeniu o wersji 3.0, w której zauważam, że w kodzie ezMixed () wystąpił błąd? Jeśli tak, myślę, że źle zinterpretowałeś tę notatkę. ezMixed () nie jest powiązany z ezANOVA (). ezMixed () służy do oceny wpływu efektów stałych w kontekście modelowania efektów mieszanych.
Mike Lawrence

Cześć Mike - masz całkowitą rację - to była twoja uwaga na temat ezMixed () Przeczytałem i źle zinterpretowałem to dla ezANOVA ().
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.