Zarówno wykres pudełkowy, jak i wykres słupkowy oraz wykres słupkowy są odpowiednią grafiką dla ANOVA zgodnie z The R Book (Crawley, 2013), ale która jest bardziej odpowiednia ? Przypuszczam, że to zależy od sytuacji ... czy ktoś może mi pomóc?
Zarówno wykres pudełkowy, jak i wykres słupkowy oraz wykres słupkowy są odpowiednią grafiką dla ANOVA zgodnie z The R Book (Crawley, 2013), ale która jest bardziej odpowiednia ? Przypuszczam, że to zależy od sytuacji ... czy ktoś może mi pomóc?
Odpowiedzi:
Specjalnie dla graficznej ilustracji ANOVA:
Wykres ramkowy lub wykres słupkowy jest znacznie lepszy niż nic graficznie dla ANOVA, ale jak zwykle wykreślone, oba są pośrednie lub niekompletne jako podsumowanie graficzne.
ANOVA dotyczy porównań średnich w kontekście odmian jednego lub więcej rodzajów, więc najbardziej odpowiednia grafika pokazywałaby, co najmniej, średnie, jak również surowe dane. Grupowe odchylenia standardowe (SD) lub powiązane wielkości nie wyrządzą szkody.
Chociaż niektóre odmiany wykresów pudełkowych pokazują zarówno środki, jak i mediany, typ standardowy pokazuje mediany, kwartyle i niektóre informacje w ogonach rozkładu. Najczęstszym wariantem wydaje się być ten, w którym poszczególne punkty danych są pokazywane wtedy i tylko wtedy, gdy znajdują się one w odległości większej niż 1,5 IQR od najbliższego kwartylu. To znaczy: zakres międzykwartylowy IQR górny kwartyl dolny kwartyl, więc wykreśl jako wartości punktów większe niż górny kwartyl 1,5 IQR lub mniej niż dolny kwartyl- + -1,5 IQR. Taka konwencja może być pomocna w wskazywaniu dużych wartości odstających, które mogą być problematyczne dla ANOVA, ale ani mediana, ani kwartyle nie odgrywają żadnej roli w ANOVA, a kwestia, czy mediany przybliżone średnie są punktem, który należy sprawdzić, nie jest zakładana. Zwykle doświadczeni analitycy danych przyjmują np. Wyraźne znaczące wartości odstające i / lub asymetrię dystrybucji jako oznakę problemu, który wymaga działania, takiego jak transformacja danych lub potrzeba uogólnionego modelu liniowego z funkcją powiązania nieidentyfikującego. Niemniej zaskakujące jest to, jak wiele podręczników i innych kont pokazuje wykresy pudełkowe podczas prezentacji ANOVA, ale nie wspominaj o słoniach nieobecnych w pokoju, czyli środkach, które nie są drukowane.
I odwrotnie, najczęstszy rodzaj wykresu słupkowego w tym kontekście podsumowuje dane za pomocą SD i standardowych błędów, ale pomija wyświetlanie innych punktów danych w inny sposób. Na przykład wartości odstające lub wyraźną asymetrię można wywnioskować jedynie na podstawie średnich poza linią lub zawyżonej zmienności w obrębie poszczególnych grup.
Zasadniczo istnieje wiele sugestii, które rodzaje wykresów są przydatne, ale mało konsensusu co do tego, które są najlepsze. Jako kryteria sugerowałbym dobry wykres
Pełny wzorzec zmienności danych, przynajmniej jako tło lub kontekst
Istotne streszczenia danych, w szczególności te odnoszące się do rozrywanego modelu lub rozważanych deskryptorów
Wskazania możliwych problemów z danymi, które podają w wątpliwość przyjęte założenia.
Istnieje kilka projektów, które pomagają w ANOVA, takich jak wykresy punktowe lub paski z dodanymi środkami i SE.
Ten artykuł autorstwa Johna Tukeya wyjaśnia istotną tutaj różnicę między wykresami propagandowymi a wykresami analitycznymi . Zbyt wiele graficznych ilustracji ANOVA to wykresy propagandowe (patrz! Grupy są bardzo różne) bez dużej analizy (a czego jeszcze możemy dowiedzieć się o danych lub ograniczeniach techniki w tej aplikacji?).
Nie należy mylić wykresów słupkowych (jeden słupek służy do wyświetlenia każdej interesującej ilości) i wykresów dynamitowych (jeden słupek pokazuje średnią każdej grupy plus słupki błędów). Wykresy dynamitu NIGDY nie są akceptowane, ponieważ ukrywają rozkład danych bez żadnego powodu.
Tak, zdaję sobie sprawę, że jest to zdecydowanie najczęstszy rodzaj fabuły. Jest to duży problem, który odzwierciedla (małe) znaczenie, jakie naukowcy przywiązują do kształtu swoich danych. Gdybyś był detektywem szukającym narzędzia zbrodni, czy byłoby lepiej, gdyby świadek powiedział ci 1) tylko lokalizację i rozmiar broni? lub 2) lokalizacja, rozmiar i kształt?
http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf