Działania następcze: w przypadku mieszanego wykresu ANOVA oszacowanych SE lub rzeczywistych SE?

14

Obecnie kończę pracę i natknąłem się na to pytanie z wczoraj, które skłoniło mnie do postawienia sobie tego samego pytania. Czy lepiej jest podać mojemu wykresowi rzeczywisty błąd standardowy z danych lub ten oszacowany na podstawie mojej ANOVA?
Ponieważ pytanie z wczoraj było raczej niespecyficzne, a moje dość specyficzne, pomyślałem, że właściwe byłoby postawienie tego pytania uzupełniającego.

Szczegóły:
Przeprowadziłem eksperyment w pewnej dziedzinie psychologii poznawczej (rozumowanie warunkowe), porównując dwie grupy (instrukcje indukcyjne i dedukcyjne, tj. Manipulacja między podmiotami) z dwiema manipulacjami wewnątrz podmiotowymi (typ problemu i treść problemu, każda z dwa poziomy czynników).

Wyniki wyglądają tak (lewy panel z oszacowaniami SE z wyjścia ANOVA, prawy panel z oszacowaniami SE na podstawie danych): alternatywny tekst
Zauważ, że różne linie reprezentują dwie różne grupy (tj. Manipulację między podmiotami) i wewnątrz- manipulacje badanych są wykreślane na osi x (tj. poziomy współczynnika 2x2).

W tekście podaję odpowiednie wyniki ANOVA, a nawet planowane porównania krytycznej interakcji krzyżowej w środku. SE mają na celu dać czytelnikowi wskazówkę na temat zmienności danych. Wolę SE od standardowych odchyleń i przedziałów ufności, ponieważ wykreślanie SD nie jest powszechne i występują poważne problemy przy porównywaniu CI między badanymi i pomiędzy nimi (podobnie jak w przypadku SE, nie jest tak często fałszywe wnioskowanie znaczących różnic od nich).

Powtarzając moje pytanie: czy lepiej wykreślić SE obliczone na podstawie ANOVA, czy powinienem wykreślić SE obliczone na podstawie surowych danych?

Aktualizacja:
Myślę, że powinienem być nieco jaśniejszy w szacunkach SE. Dane wyjściowe ANOVA w SPSS dają mi estimated marginal meansodpowiednie SE i CI. To jest przedstawione na lewym wykresie. O ile rozumiem, powinny to być SD pozostałych. Ale podczas zapisywania resztek ich SD nie są w jakiś sposób bliskie oszacowanym SE. Tak więc drugorzędnym (potencjalnie specyficznym dla SPSS) pytaniem byłoby:
Co to są SE?

AKTUALIZACJA 2: W końcu udało mi się napisać funkcję R, która powinna być w stanie stworzyć wykres, ponieważ w końcu mi się podobało (zobacz moją zaakceptowaną odpowiedź) samodzielnie. Jeśli ktoś ma czas, byłbym bardzo wdzięczny, gdybyś mógł na niego spojrzeć. Oto jest.

— Henrik
źródło

1

Czy możesz wyjaśnić przewidywaną zmienną „średnie poparcie” ?. Czy jest to skala 0-100, którą uczestnicy zastosowali do odpowiedzi, czy też jest to miara odsetka prób, w których uczestnicy stwierdzili „tak, popieram” (w porównaniu z „nie, nie popieram”). Jeśli to drugie, niewłaściwe jest analizowanie tych danych jako proporcji. Zamiast tego powinieneś analizować nieprzetworzone dane próbne za pomocą mieszanego modelu efektów z funkcją dwumianowego łącza.

— Mike Lawrence

Przepraszamy za pominięcie tego: jest to skala odpowiedzi 0-100.

— Henrik

Czy masz wiele zer lub 100? Jeśli nie, rozważę podzielenie przez 100 i wykonanie transformacji logit, aby uwzględnić ograniczenie zasięgu w skrajnościach. Jest to zasadniczo to, co osiąga funkcja dwumianowego łącza, gdy masz dane binarne, ale jest przydatna, jeśli masz tylko dane proporcjonalne, jak się wydaje. Nie można jednak logować transformacji 1 lub 0, więc trzeba by podrzucić dowolne odpowiedzi 100 lub 0.

— Mike Lawrence

Ups, właśnie zdałem sobie sprawę, że mój pierwszy komentarz nie był w 100% poprawny. Każda wykreślona średnia reprezentuje średnią z dwóch odpowiedzi w skali 0-100. W tych danych jest wiele wartości bardzo zbliżonych do 100, a niektóre bezpośrednio na 100, ale tak naprawdę bardzo niewiele przy 0 i około 0. Czy masz trochę literatury na uzasadnienie swojej rekomendacji?

— Henrik

1

Inne osoby wizualizujące dane mogą twierdzić, że wykresy słupkowe są zbrodnią przeciwko ludzkości: Op

— Mike Lawrence

9

W wyniku inspirujących odpowiedzi i dyskusji na moje pytanie skonstruowałem następujące wykresy, które nie opierają się na żadnych parametrach opartych na modelu, ale przedstawiają podstawowe dane.

Powody są takie, że niezależnie od tego, jaki rodzaj błędu standardu mogę wybrać, błąd standardowy jest parametrem opartym na modelu. Dlaczego więc nie przedstawić podstawowych danych i tym samym przekazać więcej informacji?

Ponadto, wybierając SE z ANOVA, pojawiają się dwa problemy dla moich konkretnych problemów.
Po pierwsze (przynajmniej dla mnie) niejasne jest, czym tak SPSSnaprawdę są SE z ANOVA Output ( patrz także ta dyskusja w komentarzach ). Są one w jakiś sposób powiązane z MSE, ale dokładnie nie wiem.
Po drugie, są one uzasadnione tylko wtedy, gdy spełnione są podstawowe założenia. Jednak, jak pokazują poniższe wykresy, założenia jednorodności wariancji są wyraźnie naruszone.

Wykresy z wykresami pudełkowymi: alternatywny tekst

Wykresy ze wszystkimi punktami danych: alternatywny tekst

Zauważ, że dwie grupy są przesunięte nieco w lewo lub w prawo: dedukcyjne w lewo, indukcyjne w prawo. Środki są nadal wykreślane na czarno, a dane lub wykresy w tle na szaro. Różnice między wykresami po lewej i po prawej stronie są takie, że środki są przemieszczane tak samo jak punkty lub wykresy pudełkowe lub jeśli są prezentowane centralnie.
Przepraszamy za nieoptymalną jakość wykresów i brakujące etykiety osi X.

Pozostaje pytanie, który z powyższych wątków wybrać teraz. Muszę o tym pomyśleć i zapytać innego autora naszego artykułu. Ale teraz wolę „przemieszczenie środków”. Nadal byłbym bardzo zainteresowany komentarzami.

Aktualizacja: Po pewnym programowaniu w końcu udało mi się napisać funkcję R, aby automatycznie utworzyć wykres podobny do punktów ze środkami przemieszczonymi. Sprawdź to (i wyślij mi komentarze) !

— Henrik
źródło

Doskonały Henrik. Wolę też „punkty ze środkami przemieszczonymi”. Łączenie obiektów z segmentami linii może wyglądać na zbyt zagracone. Szkoda. Jeśli chodzi o jednorodność wariancji, jestem trochę bardziej optymistyczny. Problem wariancji może nie być tak zły, jak wygląda na surowych danych. Podejrzewam, że przez większość czasu będziesz porównywał kontrasty - w ramach różnic grupowych. Warianty kontrastu będą bardziej jednorodne niż wariancje surowych danych. Jeśli porównane są surowe miary o różnych wariancjach (np. Indukcyjne vs dedukcyjne w grupie MP-walidacyjnej i prawdopodobnej), można zastosować test nieparametryczny jako kopię zapasową.

— Thylacoleo

1

Punkty podoba mi się centralnie. Ma bardziej wierną reprezentację linii. Możesz zmniejszyć punkty.

— John,

8

W tego rodzaju projektach eksperymentalnych nie znajdziesz pojedynczego rozsądnego paska błędów do celów wnioskowania. Jest to stary problem bez jasnego rozwiązania.

Wydaje się niemożliwe, aby oszacować SE, które tu masz. Istnieją dwa główne rodzaje błędów w takim projekcie, błąd pomiędzy i wewnątrz S. Zazwyczaj bardzo się od siebie różnią i nie są porównywalne. Po prostu naprawdę nie ma dobrego pojedynczego paska błędu, który reprezentowałby twoje dane.

Można argumentować, że surowe SE lub SD z danych są najważniejsze w sensie opisowym, a nie wnioskującym. Opowiadają o jakości centralnego oszacowania tendencji (SE) lub o zmienności danych (SD). Jednak nawet wtedy jest to nieco nieuczciwe, ponieważ rzecz, którą testujesz i mierzysz w obrębie S, nie jest tą surową wartością, ale raczej efektem zmiennej wewnątrz S. Dlatego zgłaszanie zmienności wartości surowych jest albo pozbawione znaczenia, albo wprowadza w błąd w odniesieniu do efektów w obrębie S.

Zazwyczaj nie popierałem żadnych słupków błędów na takich wykresach i sąsiednich wykresach efektów wskazujących na zmienność efektów. Na tym wykresie można mieć CI, które są całkowicie rozsądne. Zobacz Masson i Loftus (2003), aby zobaczyć przykłady wykresów efektów. Po prostu wyeliminuj ich ((prawie całkowicie bezużyteczne) paski błędów wokół wyświetlanych średnich wartości i po prostu użyj pasków błędu efektu.

Do twojego badania najpierw zastąpiłbym dane jako projekt 2 x 2 x 2 (2-panelowy 2x2), a następnie narysowałem bezpośrednio obok wykresu z przedziałami ufności dla ważności, wiarygodności, instrukcji i efektów interakcji. Umieść SD i SE dla grup instrukcji w tabeli lub w tekście.

(oczekiwanie na oczekiwaną odpowiedź analizy mieszanych efektów;))

AKTUALIZACJA: OK, po edycji jest jasne, że jedyną rzeczą, jakiej chcesz, jest SE, aby pokazać jakość oszacowania wartości. W takim przypadku użyj wartości swojego modelu. Obie wartości są oparte na modelu i nie ma „prawdziwej” wartości w próbie. Użyj tych z modelu, który zastosowałeś do swoich danych. ALE, upewnij się, że ostrzegasz czytelników w podpisie ryciny, że te SE nie mają żadnej wartości wnioskowania dla twoich efektów S lub interakcji.

AKTUALIZACJA 2: Patrząc wstecz na dane, które przedstawiłeś ... które wyglądają podejrzanie jak odsetki, których nie powinno się analizować za pomocą ANOVA. Niezależnie od tego, czy jest, czy nie, jest to zmienna, która ma maksimum przy 100 i ma zmniejszone wariancje w skrajnościach, więc nadal nie powinna być analizowana za pomocą ANOVA. Bardzo podobają mi się twoje działki rm.plot. Nadal kusiłbym, aby robić osobne wykresy między warunkami, pokazując surowe dane, oraz w warunkach pokazujących dane z usuniętą zmiennością S.

— Jan
źródło

1

Mam dobre (niestatystyczne) powody, aby wykreślić wykres w postaci, w jakiej jest: bezpośrednio widzisz odpowiedź na pytanie badawcze. Ponadto nie szukam słupków błędów do celów wnioskowania, ponieważ wiem o problemach pośrednich. Ale dzięki skierowaniu mnie z powrotem do Masona i Loftusa musiałem zapomnieć, że mieli mieszany przykład. Muszę zastanowić się, czy to służy mojemu celowi.

— Henrik

7

To wygląda na bardzo fajny eksperyment, więc gratuluję!

Zgadzam się z Johnem Christie, jest to model mieszany, ale pod warunkiem, że można go dokładnie określić w projekcie ANOVA (i jest zrównoważony), nie rozumiem, dlaczego nie można go tak sformułować. Dwa czynniki wewnątrz i 1 czynnik między podmiotami, ale czynnik między podmiotami (indukcyjny / dedukcyjny) wyraźnie oddziałuje (modyfikuje) efekty wewnątrz osobników. Zakładam, że wykreślone średnie pochodzą z modelu ANOVA (LHS), więc model został poprawnie określony. Dobra robota - to nie jest trywialne!

Niektóre punkty: 1) „Szacowany” a „rzeczywisty” „błąd” jest fałszywą dychotomią. Oba zakładają model podstawowy i na tej podstawie dokonują szacunków. Jeśli model jest rozsądny, argumentowałbym, że lepiej jest użyć szacunków opartych na modelu (opierają się one na łączeniu większych próbek). Ale, jak wspomina James, błędy różnią się w zależności od dokonanego porównania, więc nie jest możliwe proste przedstawienie.

2) Wolałbym widzieć wykresy ramkowe lub pojedyncze punkty danych (jeśli nie ma ich zbyt wiele), być może z pewnym drżeniem bocznym, więc można wyróżnić punkty o tej samej wartości.

http://en.wikipedia.org/wiki/Box_plot

3) Jeśli musisz wykreślić oszacowanie błędu średniej, nigdy nie wykreśl SD - są one szacunkiem standardowego odchylenia próby i odnoszą się do zmienności populacji, a nie statystycznego porównania średnich. Na ogół lepiej jest wykreślić 95% przedziały ufności niż SE, ale nie w tym przypadku (patrz 1 i punkt Johna)

4) Jedyny problem z tymi danymi, który mnie niepokoi, to założenie o jednolitej wariancji, które prawdopodobnie zostało naruszone, ponieważ dane „Ważne i wiarygodne” są wyraźnie ograniczone przez limit 100%, szczególnie dla osób dedukcyjnych. Przypominam sobie, jak ważna jest ta kwestia. Przejście do logitu efektów mieszanych (prawdopodobieństwo dwumianowe) jest prawdopodobnie idealnym rozwiązaniem, ale jest trudne. Najlepiej byłoby pozwolić innym odpowiedzieć.

— Thylacoleo
źródło

Nie jestem do końca pewien, czy rozumiem twoje zalecenie w 1. Ponieważ rzeczywista SE [tj. SD / sqrt (n)] i szacowana SE są oparte na modelach, zalecamy korzystanie z nich. Więc który? A może masz na myśli: wybierz bardziej skomplikowany model (tutaj: ANOVA), ponieważ oba modele są rozsądne.

— Henrik

zgadzam się całkowicie z punktem 1

— John

Cześć Henrik, Prosty przykład - porównaj dwie grupy (x1, x2) przy założeniu ND. Założenia i modele: 1) Niezależnie próbkowane, inna wariancja. SE dla x1, x2 oszacowane osobno. Jest to domyślnie założenie w wielu prezentacjach graficznych. Szacowane SE różnią się. 2) Indep., Ten sam var. Zwykłe założenie ANOVA. Oszacuj SE za pomocą zbiorczej RSS. Oszacowanie jest bardziej wiarygodne, jeśli założenia są prawidłowe. 3) Każdy x1 ma parę x2. SE oszacowane na podstawie x1-x2. Aby skutecznie wykreślić je, musisz wykreślić różnicę x1-x2. Po zmieszaniu 1) i 2) masz prawdziwy problem z wykreśleniem znaczących SE lub CI.

— Thylacoleo,

Henrik, komentarz do fabuły. Ile masz przedmiotów? Zdecydowanie zaleciłbym sporządzenie danych indywidualnie i wykorzystanie segmentów linii do łączenia poszczególnych osób. (Sposób łączenia segmentów linii jest zwodniczy.) Nie ma potrzeby kreślenia SE. Chodzi o wizualne wsparcie analizy statystycznej. Pod warunkiem, że fabuła nie będzie zbyt zagracona, czytelnik powinien zobaczyć (na przykład), że wyraźna większość wyników wzrośnie od impasu ważnego MP do nieważności AC dla grupy indukcyjnej i w dół dla grupy dedukcyjnej. Patrz: jstor.org/stable/2685323?seq=1 Szczególnie dolne panele z rys. 1 i 9.

— Thylacoleo,

3

Ostatnio korzystam z analizy efektów mieszanych, a próbując opracować towarzyszącą metodę analizy danych wizualnych, używałem ładowania początkowego ( patrz mój opis tutaj ), który zapewnia przedziały ufności, które nie są podatne na problemy wewnątrz i pomiędzy konwencjonalnych CI.

Poza tym unikałbym mapowania wielu zmiennych do tej samej estetyki wizualnej, jak to zrobiłeś na powyższym wykresie; masz 3 zmienne (MP / AC, poprawne / nieprawidłowe, wiarygodne / niewiarygodne) mapowane na oś x, co utrudnia analizowanie projektu i wzorców. Sugerowałbym zamiast tego mapowanie, powiedzmy, MP / AC na oś x, prawidłowe / nieprawidłowe na kolumny aspektów i wiarygodne / niewiarygodne na rzędy aspektów. Sprawdź ggplot2 w R, aby łatwo to osiągnąć, np .:

library(ggplot2)
ggplot(
    data = my_data
    , mapping = aes(
        y = mean_endorsement
        , x = mp_ac
        , linetype = deductive_inductive
        , shape = deductive_inductive
)+
geom_point()+
geom_line()+
facet_grid(
    plausible_implausible ~ valid_invalid
)

— Mike Lawrence
źródło

Mike, w języku pakietu R funkcja pvals.fnc wykonuje MCMC, aby ocenić hipotezy modelu Lmer - jednak nie obsługuje projektów z losowymi nachyleniami - co prowadzi mnie do podejrzeń, że istniał jakiś powód, aby robić MCMC z losowymi nachyleniami w jakiś sposób problematyczne, czy definitywnie wiesz, że nie ma takiego problemu?

— russellpierce

Muszę przyznać, że wciąż nie zorientowałem się, jak działa MCMC, co jest jednym z powodów, dla których zdecydowałem się na ładowanie systemu. Podczas gdy bootstrapowanie powinno być możliwe przy losowych nachyleniach, zgodnie z tym, co powiedziano, pvals.fnc nie pozwala ci wykonywać CI dla modeli z losowymi nachyleniami, ponieważ z jakiegoś powodu jest to nieprawidłowe, a ponadto może być tak, że ta nieważność rozciąga się na ładowanie takich modeli. Nie intuicyjnie sądzę, że wystąpiłby problem z ładowaniem, ale może to wynikać z mojej ograniczonej wiedzy.

— Mike Lawrence