Jak ustalić, czy oś y wykresu powinna zaczynać się od zera?

Jednym z powszechnych sposobów „kłamstwa z danymi” jest użycie skali osi y, która sprawia, że wydaje się, że zmiany są bardziej znaczące niż są w rzeczywistości.

Kiedy przeglądam publikacje naukowe lub raporty laboratoryjne studentów, często jestem sfrustrowany tym „grzechem wizualizacji danych” (który, jak sądzę, autorzy popełniają nieumyślnie, ale nadal wprowadza w błąd).

Jednak „zawsze zaczynaj oś Y od zera” nie jest trudną i szybką zasadą. Na przykład Edward Tufte wskazuje, że w szeregu czasowym linia bazowa niekoniecznie musi wynosić zero:

Zasadniczo w szeregu czasowym użyj linii bazowej, która pokazuje dane, a nie punkt zerowy. Jeśli punkt zerowy występuje rozsądnie podczas rysowania danych, dobrze. Ale nie marnuj dużo pustej przestrzeni pionowej, próbując dotrzeć do punktu zerowego kosztem ukrycia tego, co dzieje się w samej linii danych. (Książka „Jak kłamać ze statystykami” jest w tej kwestii błędna).

Na przykład wszędzie tam, gdzie brakuje zerowych punktów w szeregach czasowych, spójrz na każdą dużą publikację z badań naukowych. Naukowcy chcą pokazać swoje dane, a nie zero.

Chęć kontekstualizacji danych jest dobra, ale kontekst nie pochodzi z pustej przestrzeni pionowej sięgającej zera, liczby, która nie występuje nawet w wielu zestawach danych. Zamiast tego, dla kontekstu, pokaż więcej danych w poziomie!

Chciałbym wskazać mylącą prezentację w recenzowanych przeze mnie artykułach, ale nie chcę być purystą na osi zero.

Czy istnieją jakieś wytyczne dotyczące tego, kiedy zacząć oś Y od zera, a kiedy jest to niepotrzebne i / lub nieodpowiednie? (Zwłaszcza w kontekście pracy naukowej).

data-visualization

— ff524
źródło

Myślę, że to, czy włączenie (lub nie) 0 może potencjalnie wprowadzać w błąd, zależy krytycznie od opowiedzianej historii.

— Gung - Przywróć Monikę

W przemówieniu wyrażenie „zwróć uwagę na wysoce tłumione zero” lub podobne może być użyte w celu nadania uczciwości potencjalnie mylącej postaci. Nie jestem zadowolony z tego w drukowanym materiale, ale w mgnieniu oka możesz go również tam użyć.

— dmckee,

Aby tego uniknąć, korzystam z wykresów pudełkowych, gdy tylko jest to możliwe. Nie ma potrzeby obliczania średnich i słupków błędów, a zawiera wiele cennych informacji (np. Rozkład danych, rozrzut, skośność, zakres) w jednym wykresie. Dodatkowo wyświetlasz surowe dane.

— Stefan

@ Wykresy Stefan Box mogą rzeczywiście być pomocne. Dziwne jest jednak to, że nawet niektóre podręczniki wyjaśniają ANOVA, a następnie pokazują wykresy pudełkowe. W tym celu środki, jeśli nie słupki błędów, są z pewnością odpowiednie i powinny mieć charakter informacyjny. W zależności od odmiany wiele wykresów pudełkowych bardzo słabo pokazuje surowe dane, ponieważ po prostu je podsumowują. Są jednak ulepszenia, które pomagają, np. Wykresy pudełek kwantyli. Jednak w tym kontekście należy zauważyć, że pokazywanie średnich i słupków błędów w żaden sposób nie zobowiązuje do pokazywania

jeśli jest to poza zakresem danych.

y = 0

$y = 0$

— Nick Cox,

@NickCox dzięki za komentarz! Zgadzam się, że po zakończeniu ANOVA pokazywanie środków i słupków błędów ma większy sens. Jednak przed uruchomieniem jakichkolwiek analiz uważam, że wykresy pudełkowe są bardziej pouczające i dostarczają informacji o tym, jak wyglądają twoje dane i czy wybrana ANOVA może być odpowiednia, czy nie. „Leżenie z danymi” może już wystąpić, gdy np. Wybrane zostaną testy parametryczne, ale dane nie spełniają wymaganych założeń. Dlatego dla mnie, jako czytelnika badań naukowych, zawsze lubię patrzeć na wykresy pudełkowe, które podejmują decyzję dotyczącą prezentowanych wyników.

— Stefan

Nie używaj przestrzeni na wykresie w żaden sposób, który nie pomaga w zrozumieniu. Potrzebne jest miejsce, aby wyświetlić dane!
Skorzystaj z osądu naukowego (inżynierskiego, medycznego, społecznego, biznesowego ...), a także statystycznego. (Jeśli nie jesteś klientem ani klientem, porozmawiaj z kimś w terenie, aby dowiedzieć się, co jest interesujące lub ważne, najlepiej tych zlecających analizę).
Pokaż zero na osi jeśli porównania z zerem są kluczowe dla problemu, a nawet mogą być interesujące. $y$

To są trzy proste zasady. (Czasami nic nie wyklucza napięcia między nimi).

Oto prosty przykład, ale powstają wszystkie trzy punkty: Mierzysz temperaturę ciała pacjenta w stopniach Celsjusza, Fahrenheita lub nawet w stopniach Kelvina: wybierz. W jakim sensie naleganie na wyświetlanie temperatur zerowych jest pomocne, a nawet logiczne? Ważne, nawet ważne z medycznego lub fizjologicznego punktu widzenia, informacje zostaną w przeciwnym razie ukryte.

Oto prawdziwa historia z prezentacji. Badacz pokazywał dane dotyczące proporcji płci dla różnych stanów i terytoriów związkowych w Indiach. Grafika była wykresem słupkowym, przy czym wszystkie słupki zaczynają się od zera. Wszystkie pręty były zbliżone do tej samej długości pomimo pewnych znacznych zmian. To prawda, ale interesująca historia była taka, że obszary były różne pomimo podobieństw, a nie że były podobne pomimo różnic. Zasugerowałem, że parytet między mężczyznami i kobietami (1 lub 100 kobiet / 100 mężczyzn) był znacznie bardziej naturalnym poziomem odniesienia. (Byłbym również otwarty na użycie jakiegoś ogólnego poziomu, takiego jak średnia krajowa). Nawet niektórzy statystyczni ludzie, którzy słyszeli tę krótką historię, czasami odpowiadali: „Nie, takty zawsze powinny zaczynać się od zera”. Dla mnie nie jest to lepsze niż nieistotny dogmat w takim przypadku.

$y$ $^\circ$ $y$

Powszechny rodzaj wykresu, szczególnie w niektórych naukach biologicznych i medycznych, pokazuje średnie lub inne zestawienia grubych słupków rozpoczynających się od zera i błędu standardowego lub standardowych odstępów opartych na odchyleniach, wskazujących niepewność cienkich słupków. Takie detonatory lub wykresy dynamitowe, jak je nazywają ci, którzy się nie zgadzają, mogą być popularne częściowo ze względu na stwierdzenie, że zero zawsze powinno być pokazywane. Efektem netto jest podkreślenie porównań z zerem, którym często brakuje zainteresowania lub użyteczności.

Niektóre osoby chciałyby pokazywać zero, ale także dodać podziałkę skali, aby pokazać, że podziałka została przerwana. Zmieniają się mody i zmiany technologiczne. Kilkadziesiąt lat temu, kiedy naukowcy sporządzili własne wykresy lub powierzyli to zadanie technikom, łatwiej było poprosić o wykonanie tego ręcznie. Teraz programy graficzne często nie obsługują podziałów skali, co moim zdaniem nie jest stratą. Nawet jeśli to zrobią, jest to wybredny dodatek, który może zmarnować umiarkowany ułamek obszaru grafiki.

$x$

Istnieje oczywiście reguła zerowa, która ma zastosowanie oprócz trzech wymienionych.

Cokolwiek robisz, bądź bardzo jasny. Oznaczaj swoje osie w sposób spójny i informacyjny. Ufaj, że uważni czytelnicy będą sprawdzać, co zrobiłeś.

Dlatego w tej kwestii zdecydowanie zgadzam się z Edwardem Tufte i nie zgadzam się z Darrellem Huffem.

EDYCJA 9 maja 2016 r .:

zamiast próbować niezmiennie włączać linię zerową do wszystkich twoich wykresów, zamiast tego użyj logicznych i znaczących linii bazowych

Cairo, A. 2016. The Truthful Art: Data, Charts and Maps for Communication. San Francisco, Kalifornia: New Riders, str. 136.

— Nick Cox
źródło

Na marginesie: myślę, że ludzie są bardziej podatni na dogmatyczne trzymanie się „startu od zera”, gdy dane są reprezentowane przez słupki, z tego powodu, że słupki pokazują obszar i obszar jest mylący, jeśli nie zaczyna się od zera. Na wykresie punktowym w Cleveland - który i tak często jest bardziej odpowiednią wizualizacją - wydaje się, że nie ma tak przekonującego argumentu, aby zacząć od zera, a ludzie wydają się bardziej skłonni do elastyczności w kwestii miejsca rozpoczęcia.

— Silverfish,

Świetna odpowiedź. Zadałem to pytanie w kontekście recenzji artykułu, w którym konsekwentnie stosowano niewłaściwe zakresy osi (podkreślając nieznaczne różnice w danych). Ta odpowiedź uświadomiła mi, że tak naprawdę byłem sfrustrowany brakiem oceny (statystycznej i inżynierskiej) w zrozumieniu i interpretacji danych - o wiele bardziej konstruktywną rzeczą do komentowania w recenzji niż narzekanie na zakres osi.

— ff524,

Zasada rozpoczynania osi od zera ma sens jedynie w przypadku zmiennych ciągłych, które są współczynnikami, więc zero ma prawdziwe znaczenie. Waga 0 to brak wagi. Itd. Ale temperatury w C lub F używają dowolnych wartości dla zera, więc nie ma sensu nawet myśleć o rozpoczęciu tam osi.

— Harvey Motulsky,

^{\circ}

$^\circ$

Fajnie, ale chciałbym zauważyć, że punkt „osądu” zależy od publiczności (publiczność zawsze ma znaczenie!). Odbiorcy techniczni przeczytają oś i zrozumieją implikacje. Pewna część populacji świeckich zdecydowanie zignoruje etykiety osi i wyciągnie wnioski z kształtu wykresu przy potencjalnie błędnych założeniach dotyczących skali. Jeśli wykres jest przeznaczony dla świeckich odbiorców, musisz uwzględnić to w swojej ocenie.

— dmckee,