Jak wizualizować, co robi ANOVA?

60

W jaki sposób (sposoby?) Istnieje wizualne wyjaśnienie, czym jest ANOVA?

Wszelkie referencje, linki (pakiety R)? Będą mile widziane.

data-visualization anova teaching

— Tal Galili
źródło

Na swoim blogu „Próby psychologa w programowaniu statystycznym” Kristoffer Magnusson podaje świetny przykład jednokierunkowej wizualizacji anowej przy użyciu D3.js rpsychologist.com/d3-one-way-anova/#comment-1891

— Epifunky

Znalazłem tę miłą wizualizację analizy wariancji. To nie jest tak precyzyjne jak poprzednie odpowiedzi, ale możesz interaktywnie grać z wizualizacją. Okazało się, że jest dość interesujący: students.brown.edu/seeing-theory/regression/index.html#third

— Mike

51

Osobiście lubię wprowadzać regresję liniową i ANOVA, pokazując, że wszystko jest takie samo i że modele liniowe dzielą całkowitą wariancję: mamy pewien wariant wariancji, który można wytłumaczyć interesującymi czynnikami oraz niewyjaśnione część (zwana „resztkową”). Ogólnie używam następującej ilustracji (szara linia dla całkowitej zmienności, czarne linie dla grupy lub indywidualnej zmienności specyficznej):

alternatywny tekst

Podoba mi się również heplots pakietu R, Michaela domowych i John Fox, ale patrz też wizualne testów hipotezy w modelach wieloczynnikowa liniowej: Pakiet heplots dla R .

Standardowe sposoby wyjaśnienia, co faktycznie robi ANOVA, szczególnie w ramach modelu liniowego, są bardzo dobrze wyjaśnione w odpowiedziach samolotu na złożone pytania autorstwa Christensena, ale jest bardzo niewiele ilustracji. Metody statystyczne Saville'a i Wooda : podejście geometryczne zawiera kilka przykładów, ale głównie regresję. W Projekcie i analizie eksperymentów Montgomery'ego , który głównie skupiał się na DoE, są ilustracje, które lubię, ale patrz poniżej

alternatywny tekst

(Te są moje :-)

Myślę jednak, że musisz poszukać podręczników na temat modeli liniowych, jeśli chcesz zobaczyć, jak suma kwadratów, błędów itp. Przekłada się na przestrzeń wektorową, jak pokazano na Wikipedii . Oszacowanie i wnioskowanie w ekonometrii autorstwa Davidsona i MacKinnona wydaje się mieć ładne ilustracje (pierwszy rozdział dotyczy geometrii OLS), ale przeglądam tylko francuskie tłumaczenie (dostępne tutaj ). Geometria regresji liniowej ma również kilka dobrych ilustracji.

Edytuj :

Ach, i właśnie pamiętam ten artykuł Roberta Pruzka, Nowa grafika dla jednostronnej ANOVA .

Edytuj 2

A teraz pakiet granova (wspomniany przez @ gd047 i powiązany z powyższym artykułem) został przeniesiony do ggplot, patrz granovaGG z ilustracją jednokierunkowej ANOVA poniżej.

wprowadź opis zdjęcia tutaj

— chl
źródło

Czy pierwsza ilustracja wykonana przy użyciu R?

— George Dontas,

@ gd047 Tak. Powinieneś mieć gdzieś brzydki kod źródłowy. Drugi odbywa się w Metapost.

— chl

3

@ gd047 porządku, jak zwykle to zawsze, kiedy patrzymy na starym kodzie, że nie możemy znaleźć go (mimo moich najlepszych starań z grep / znaleźć), więc przepisał szybki (nadal brzydki) skrypt R za to. Podałem również przykład kodu MP .

— chl

Niestety geometria łącza regresji liniowej zgniła.

— Silverfish,

23

Co powiesz na coś takiego? alternatywny tekst

Po Crawley (2005). Statystyka. Wprowadzenie do R: Wiley.

— EDi
źródło

1

(+1) Przypominam o plot.design()(ale twoje w ulepszonej wersji :-)

— chl

To jest najlepszy.

— Ciekawy

13

Dziękuję za wspaniałą odpowiedź. Choć były bardzo pouczające, czułem, że korzystanie z nich na kursie, który obecnie prowadzę (cóż, TA'ing) będzie dla moich uczniów zbyt dużym obciążeniem. (Pomagam uczyć kursu BioStatistics dla studentów ze stopniem nauk medycznych)

Dlatego ostatecznie stworzyłem dwa obrazy (oba oparte są na symulacji), które moim zdaniem są przydatnym przykładem wyjaśniającym ANOVA.

Z przyjemnością przeczytam komentarze lub sugestie dotyczące ich ulepszenia.

Pierwszy obraz pokazuje symulację 30 punktów danych, rozdzielonych na 3 wykresy (pokazujące, w jaki sposób MST = Var jest rozdzielony na dane, które tworzą MSB i MSW:

Lewy wykres pokazuje wykres rozproszenia danych na grupę.
Środkowy pokazuje, jak wyglądają dane, które będziemy wykorzystywać w MSB.
Właściwy obraz pokazuje, jak wyglądają dane, które będziemy wykorzystywać w MSW.

alternatywny tekst

Drugi obraz pokazuje 4 wykresy, każdy dla innej kombinacji wariancji i oczekiwań dla grup

Pierwszy rząd wykresów dotyczy niskiej wariancji, podczas gdy drugi rząd dotyczy dużej (er) wariancji.
Pierwsza kolumna wykresów służy do równego oczekiwania między grupami, natomiast druga kolumna pokazuje grupy o (bardzo) różnych oczekiwaniach.

alternatywny tekst

— Tal Galili
źródło

2

(+1) Zawsze myślę, że wiadomościami na wynos podczas nauczania ANOVA jest: (1) mamy współczynnik F, który odzwierciedla względną ważność wariancji wynikającą z naszego współczynnika zainteresowania wrt. wariancja całkowita (lub MSB / MSW, gdzie MSW = MST-MSB), (2) różnice między średnimi grupy są wariancją i (3) jawnie testujemy vs . ( ). Jeśli jesteś w stanie przenieść te pomysły na wyświetlacz graficzny - wydaje się, że tak właśnie jest - wydaje mi się, że prawie skończyłeś.

H_{0} : μ_{1} = μ_{2} = \dots = μ_{k}

$H_0:~\mu_1=\mu_2=\ldots=\mu_k$

H_{1} : \exists i, j | μ_{i} \neq μ_{j}

$H_1:~\exists\ i,j~|~\mu_i\neq\mu_j$

H_{1} \equiv \neg H_{0}

$H_1\equiv\neg~H_0$

— chl

Cześć, dziękuję za pozytywne opinie (i za twoją poprzednią szczegółową odpowiedź)! Myślę, że jednymi z największych masaży, które wziąłem do domu, jakie przygotowałem podczas przygotowywania materiału do tej klasy, są: 1) Jak opisać transformację oryginalnych danych, aby uzyskać miary wariancji MSB i MSW. 2) W jaki sposób statystyka testowa MSB / MSW jest w rzeczywistości jednostronnym (nie dwustronnym) testem, w którym H0 oznacza, że MSB <= MSW. Wreszcie pomyślałem, że to prawda, że SSW = SST-SSB (ale nie rozumiem, jak to jest prawda dla MSW = MST-MSB).

— Tal Galili,

1

Tak, przepraszam, że napisałem szybko. Miałem na myśli: rozważ model lub i zaznacz graficznie następujący rozkład: , czyli obs. wyrażane są jako odchylenia od średniej średniej + średnia grupy + fluktuacje wokół średniej grupy. Następnie mamy lub całkowita zmienność = pomiędzy -Wariant grupy + wariant wewnątrz grupy (który jest w zasadzie pierwszym obrazem).

y_{i j} = μ + α_{i} + ε_{i j}

$y_{ij}=\mu + \alpha_i + \varepsilon_{ij}$

y_{i j} = μ_{i} + ε_{i j}

$y_{ij}=\mu_i + \varepsilon_{ij}$

y_{i j} = \bar{y_{i}} + ε_{i j} = \bar{y} + ({\bar{y}}_{i} - \bar{y}) + (y_{i j} - {\bar{y}}_{i})

$y_{ij}=\bar{y_i}+\varepsilon_{ij}=\bar{y}+(\bar{y}_i-\bar{y})+(y_{ij}-\bar{y}_i)$

(y_{i j} - \bar{y}) = ({\bar{y}}_{i} - \bar{y}) + (y_{i j} - {\bar{y}}_{i})

$(y_{ij}-\bar{y})=(\bar{y}_i-\bar{y})+(y_{ij}-\bar{y}_i)$

— chl

12

Ponieważ w tym poście zbieramy pewne typy ładnych wykresów, oto kolejny, który niedawno znalazłem i może pomóc ci zrozumieć, jak działa ANOVA i jak generowana jest statystyka F. Grafika została utworzona przy użyciu pakietu granova w języku R. alternatywny tekst

— George Dontas
źródło

2

(+1) Podałem link do artykułu Roberta Pruzka, ale nie wiedziałem, że jest dostępny w R.

— Chł

10

Sprawdź prezentację Hadleya Wickhama ( pdf , mirror ) na ggplot. Na stronach 23–40 tego dokumentu opisuje interesujące podejście do wizualizacji ANOVA.

* Link pochodzi z: http://had.co.nz/ggplot2/

— Dimitry L.
źródło

6

Świetne pytanie. Wiesz, bardzo długo walczyłem z owinięciem głowy wokół ANOVA. Zawsze wracam do intuicji „pomiędzy kontra wewnątrz” i zawsze próbowałem sobie wyobrazić, jak to by wyglądało w mojej głowie. Cieszę się, że to pytanie się pojawiło i byłem zaskoczony różnorodnym podejściem do tego w powyższych odpowiedziach.

W każdym razie, od dłuższego czasu (nawet lat) chciałem zebrać kilka działek w jednym miejscu, gdzie mogłem zobaczyć, co dzieje się jednocześnie z wielu różnych kierunków: 1) jak daleko od siebie są populacje , 2) jak daleko od siebie są dane , 3) jak duże są między nimi w porównaniu do wewnątrz , i 4) w jaki sposób porównuje się centralne i niecentralne rozkłady F?

W naprawdę świetnym świecie mogłem nawet bawić się suwakami, aby zobaczyć, jak zmienia się wielkość próby .

Więc bawiłem sięmanipulate poleceniem w RStudio i święta krowa, to działa! Oto jedna z fabuł, migawka, naprawdę:

wizualizujANOVA

Jeśli masz RStudio, możesz uzyskać kod do wykonania powyższej fabuły (suwaki i wszystko)! na Github tutaj .

Po dłuższej zabawie z tym jestem zaskoczony, jak dobrze statystyka F wyróżnia grupy, nawet przy umiarkowanie małych próbkach. Kiedy patrzę na populacje, tak naprawdę nie są tak daleko od siebie (dla mojego oka), jednak słupek „wewnątrz” jest stale przyciemniany przez słupek „między”. Chyba czegoś się codziennie uczę.

— kjetil b halvorsen
źródło

3

Aby zilustrować, co się dzieje z jednokierunkową ANOVA, czasami korzystałem z apletu oferowanego przez autorów „Wstępu do praktyki statystyki”, który pozwala uczniom bawić się w ramach wariancji i pomiędzy nimi oraz obserwować ich wpływ na statystykę F. . Oto link (aplet jest ostatnim na stronie). Przykładowy zrzut ekranu:

wprowadź opis zdjęcia tutaj

Użytkownik kontroluje górny suwak, zmieniając pionowe rozłożenie trzech grup danych. Czerwona kropka u dołu przesuwa się wzdłuż wykresu wartości p, podczas gdy statystyka F pokazana poniżej jest aktualizowana.

— David
źródło

2

Wygląda na to, że statek już płynął pod względem odpowiedzi, ale myślę, że jeśli jest to kurs wprowadzający, że większość prezentowanych tu wyświetlaczy będzie zbyt trudna do zrozumienia dla studentów wprowadzających ... a przynajmniej zbyt trudne do uchwycenia bez wstępnego wyświetlacza, który zapewnia bardzo uproszczone wyjaśnienie wariancji podziału. Pokaż im, w jaki sposób suma SST rośnie wraz z liczbą osób. Następnie, po pokazaniu, że napełnia się kilkoma podmiotami (być może dodając kilka razy w każdej grupie), wyjaśnij, że SST = SSB + SSW (chociaż wolę nazywać to SSE od samego początku, ponieważ pozwala uniknąć pomyłki, gdy przechodzisz do testu wewnątrz tematów IMO ). Następnie pokaż im wizualną reprezentację podziału wariancji, np. Duży kwadrat oznaczony kolorem, abyś mógł zobaczyć, jak SST jest zrobiony z SSB i SSW. Następnie,

— russellpierce
źródło

2

Oto niektóre reprezentacje sytuacji, w której ANOVA zawrze na różnym poziomie dopasowania między i . $Y$ $X$

wprowadź opis zdjęcia tutaj

— Martin Van der Linden
źródło