Jakie są alternatywy dla złamanych osi?

28

Użytkownicy często mają pokusę, aby przełamać wartości osi w celu prezentacji danych o różnych rzędach wielkości na tym samym wykresie (patrz tutaj ). Chociaż może to być wygodne, nie zawsze jest to preferowany sposób wyświetlania danych (w najlepszym przypadku może być mylący). Jakie są alternatywne sposoby wyświetlania danych, które różnią się w kilku rzędach wielkości?

Mogę wymyślić dwa sposoby, aby przekształcić dane w log lub użyć wykresów kratowych. Jakie są inne opcje?

data-visualization logarithm

— Roman Luštrik
źródło

1

Te przewodniki Excela wyglądają dość upiornie ...

5

Czy możesz sobie wyobrazić, jak wygląda samouczek na temat języka R dla osoby, która nigdy nie widziała linii kodu w swoim życiu? :)

— Roman Luštrik

3

Ok, ale mogę sobie również wyobrazić tych wszystkich ludzi, którzy ręcznie rysują dziesiątki przerw w pasku w programie Excel i uważają, że jest to jedyny (a zatem najłatwiejszy i najszybszy) sposób na zrobienie tego. Lub ludzie spędzający godziny próbując ujednolicić formatowanie w dużym dokumencie Word.

1

„Ojcze, przebacz im, bo nie wiedzą, co robią”. przychodzi na myśl. :)

— Roman Luštrik

3

Oficjalny zespół stats.stackexchange.com: The Broken Axes.

— Matt Parker,

17

Jestem bardzo ostrożny w stosowaniu osi logarytmicznych na wykresach słupkowych . Problem polega na tym, że musisz wybrać punkt początkowy osi i jest to prawie zawsze arbitralne. Możesz wybrać, aby dwa pręty miały bardzo różne wysokości lub prawie taką samą wysokość, zmieniając jedynie minimalną wartość na osi. Te trzy wykresy przedstawiają te same dane: alternatywny tekst

Alternatywą dla nieciągłych osi, o której nikt jeszcze nie wspomniał, jest po prostu pokazanie tabeli wartości. W wielu przypadkach tabele są łatwiejsze do zrozumienia niż wykresy.

— Harvey Motulsky
źródło

3

Te wykresy wyglądają bardzo myląco również dlatego, że nie ma na nich słupków błędów. Jeśli dodasz słupki błędów, różnica będzie wyglądać mniej istotnie. Lub możesz użyć wykresów pudełkowych i wąsów, które w większości unikają tego rodzaju problemów.

— nico

5

IMHO pochodzenie jest problemem na wykresach słupkowych i nie ma nic wspólnego z logarytmem. Możesz osiągnąć to samo zwodnicze wrażenie za pomocą osi liniowych.

— cbeleites obsługuje Monikę

@cbeleites. Tak, można tworzyć mylące wykresy słupkowe z osią liniową, zmieniając linię bazową. Ale w przypadku osi liniowej naturalna linia bazowa wynosi zero. W przypadku osi logarytmicznych w większości kontekstów nie ma naturalnej linii bazowej.

— Harvey Motulsky

@HarveyMotulsky: Zaczynam się nie zgadzać. Istnieje cała klasa danych, która jest dobrze opisana za pomocą osi logarytmicznych i która ma naturalną linię bazową: zmiany / współczynniki mnożenia. W twoim przykładzie być może traktowany sygnał jest 15-krotnie większy niż sygnał kontrolny. Jeśli to założenie ma sens dla aplikacji, masz „naturalną” linię bazową dla dziennika. Jeśli nie, może kolejna transformacja jest bardziej sensowna?

— cbeleites obsługuje Monikę

1

@cbeleites Zgadzam się, że jeśli zmienna jest stosunkiem, więc 1,0 jest naturalną linią bazową, to pokazanie jej w skali logicznej ma sens.

— Harvey Motulsky

11

Kilka dodatkowych pomysłów:

(1) Nie musisz ograniczać się do transformacji logarytmicznej. Wyszukaj w tej witrynie na przykład tag „transformacja danych”. Niektóre dane dobrze nadają się do pewnych przekształceń, takich jak root lub logit. (Takich przekształceń - nawet dzienników - zwykle należy unikać, publikując grafikę dla nietechnicznych odbiorców. Z drugiej strony mogą być doskonałym narzędziem do przeglądania wzorców w danych.)

(2) Możesz pożyczyć standardową technikę kartograficzną wstawiania szczegółów wykresu w obrębie wykresu lub obok niego. W szczególności wykreślisz wartości ekstremalne samodzielnie na jednym wykresie, a wszystkie (lub) pozostałe dane na innym z bardziej ograniczonym zakresem osi, a następnie graficznie uporządkujesz te dwie wartości wraz ze wskazaniami (wizualnymi i / lub zapisanymi) relacji między nimi. Pomyśl o mapie USA, w której Alaska i Hawaje są wstawiane w różnych skalach. (To nie zadziała z wszystkimi rodzajami wykresów, ale może być skuteczne z wykresami słupkowymi na twojej ilustracji.) [Widzę, że jest to podobne do ostatniej odpowiedzi mbq.]

(3) Możesz pokazać zepsuty wykres obok siebie z tym samym polem na nieprzerwanych osiach.

(4) W przypadku przykładu z wykresem słupkowym wybierz odpowiednią (być może mocno rozciągniętą) oś pionową i zapewnij narzędzie do panoramowania. [Jest to bardziej sztuczka niż prawdziwie przydatna technika, IMHO, ale może być przydatna w niektórych szczególnych przypadkach.]

(5) Wybierz inny schemat, aby wyświetlić dane. Zamiast wykresu słupkowego, który używa długości do reprezentowania wartości, wybierz na przykład wykres, w którym obszary symboli przedstawiają wartości. [Oczywiście, że chodzi tutaj o kompromisy.]

Twój wybór techniki będzie prawdopodobnie zależeć od celu fabuły: wykresy utworzone w celu eksploracji danych często różnią się na przykład od wykresów dla ogółu odbiorców.

— Whuber
źródło

8

Może można to zaklasyfikować jako sieć, ale spróbuję; wykreśl wszystkie paski skalowane do najwyższych w jednym panelu i umieść inny panel pokazujący powiększenie na niższych. Użyłem tej techniki raz w przypadku wykresu rozrzutu, a wynik był całkiem niezły.

8

Oddzielę problem osi logów od problemu wykresów słupkowych.

$A = lg I_0 - lg I$ $I_0$

Wykresy słupkowe nigdy nie będą sensowne, jeśli nie ma sensownego i ustalonego początku, który pełniłby rolę kontrolną (poziom podstawowy, pusty). Ale to nie ma nic wspólnego z osiami logów.
Jedyne regularne użycie wykresów słupkowych to histogramy. Ale mogę sobie wyobrazić, że dobrze sobie radzą, pokazując różnicę do tego pochodzenia (od razu widać też, czy różnica jest dodatnia czy ujemna). Ponieważ słupki przedstawiają obszar, zwykle myślę o wykresach słupkowych jako o bardzo dyskretnej wersji obszaru pod krzywą. Oznacza to, że oś X powinna mieć znaczenie metryczne (może tak być w przypadku czasu, ale nie miast).

Gdybym zastanawiał się, jakiego źródła użyć do dziennika czegoś, co miało „naturalne” pochodzenie w punkcie 0, cofnąłbym się i pomyślał trochę o tym, co się dzieje. Bardzo często takie problemy są tylko wskaźnikiem, że log nie jest tutaj sensowną transformacją.

Teraz wykres słupkowy z osiami logarytmicznymi podkreśla wzrosty lub spadki występujące w wielokrotnościach. Rozsądne przykłady, o których mogę teraz myśleć, mają pewien liniowy związek z wartością zainteresowania. Ale może ktoś inny znajdzie dobry przykład.

Dlatego myślę, że transformacja danych powinna być rozsądna w odniesieniu do znaczenia danych. Jest tak w przypadku jednostek fizyko-chemicznych, o których wspomniałem powyżej (A jest proporcjonalne do stężeń, a pH ma na przykład liniowy związek z napięciem w pH-metrze). W rzeczywistości jest tak, że jednostka logu otrzymuje nową nazwę i jest używana w sposób liniowy.

Wreszcie, pochodzę ze spektroskopii wibracyjnej, w której złamane osie są dość regularnie używane. Uważam to za jeden z niewielu przykładów, w których łamanie osi nie jest mylące. Jednak nie mamy zmian w porządku wielkości. Po prostu mamy niedoinformujący region 30 - 40% naszego zakresu x: Oto przykład: widmo Dla tej próbki część między 1800 - 2800 / cm nie może zawierać żadnych użytecznych informacji.
Nieinformacyjny zakres widmowy jest zatem usuwany (co również wskazuje zakresy widmowe, których faktycznie używamy do modelowania chemometrycznego): usunięto część informacyjną spektrum

Ale do interpretacji danych potrzebujemy dokładnych odczytów pozycji x. Ale generalnie nie potrzebujemy wielokrotności obejmujących różne zakresy (tzn. Istnieją takie relacje, ale większość połączeń jest bardziej skomplikowana. Np .: Sygnał przy 3050 / cm, więc mamy nienasyconą lub aromatyczną substancję. Ale nie ma silnego sygnału przy 1000 / cm , więc nie ma mono, meta ani 1,3,5-podstawionego pierścienia aromatycznego ...)
Dlatego lepiej jest przedstawić x w większej skali (w rzeczywistości często używamy prowadnic podobnych do arkusza milimetrowego lub oznaczamy dokładne lokalizacje). Więc łamiemy oś i otrzymujemy większe skalowanie x: widmo - złamana oś

W rzeczywistości jest to bardzo podobne do fasetowania: wersja fasetowana
ale złamana oś IMHO podkreśla, że skala osi x w obu częściach jest taka sama. Tj. Interwały w obrębie wykreślonych regionów są takie same.

Aby podkreślić małe natężenia (oś y), używamy powiększonych wypustek:
wprowadź opis zdjęcia tutaj
[ ... Aby uzyskać szczegółowe informacje, zobacz powiększony (x 20) obszar νCH na niebiesko .... ]

Jest to z pewnością możliwe również na przykładzie na powiązanych działkach.

— cbeleites obsługuje Monikę
źródło

2

Dwa pomysły, do których nawiązano, ale które nie zostały wyraźnie opisane, gdy spojrzałem na doskonałe odpowiedzi i komentarze, dotyczyły używania wykresu słupkowego „w sposób niezgodny z etykietowaniem” i znormalizowanych / bezwymiarowych danych.

Rodzaj działki:

Wykres w stylu gwiazdy / pająka / radaru (link) (link) jest często bardzo dobry do porównywania kilku różnych rzeczy wzdłuż wielu współrzędnych. Istnieje wiele bardzo przydatnych wątków, które (niestety) są rzadkie w prezentacjach biznesowych, prawdopodobnie dlatego, że przywódcy wolą wykorzystywać wnioski do podejmowania decyzji, niż wykorzystywać informacje do zrozumienia, a następnie wykorzystywać je do podejmowania decyzji. W biznesie budowanie konsensusu jest czasami bardzo trudne, dlatego podejście oparte wyłącznie na wynikach może przynieść wyższą wydajność w środowisku opartym na pierwszym konsensusie, a następnie na decyzji. To informuje o popularności wykresu słupkowego / kolumnowego. Proszę rozważyć przykłady innych typów wykresów, które są przydatne do zrozumienia (link) .

Transformacja:

Jeśli podzielisz wartości na wykresie przez wartość „charakterystyczną”, możesz przekształcić skalowanie, aby poprawić czytelność bez utraty informacji. Płynni dynamicyści preferują liczby bezwymiarowe ze względu na ich przewidywalność i elastyczność w stosowaniu. Patrzą na takie rzeczy jak twierdzenie Buckingham Pi jako źródła kandydujących form bezwymiarowych (link) . Popularne i przydatne, bezwymiarowe liczby obejmują liczbę Reynoldsa, liczbę Macha, liczbę Biot, liczbę Grashof, Pi, liczbę Raleigha, liczbę Stokesa i liczbę Sherwooda. (połączyć) Nie musisz być fizykiem, aby pokochać liczby bezwymiarowe, ponieważ są one przydatne w zastosowaniach niefizycznych. Miary takie jak gęstość, jednorodność, okrągłość i współpłaszczyznowość mogą definiować obrazy, pola pikseli lub wielowymiarowe rozkłady prawdopodobieństwa. Nie bierz tylko pod uwagę logarytmu lub względnej odległości od znanej wartości - możesz również rozważyć odwrócenie liczb, biorąc ich pierwiastki kwadratowe.

Powodzenia. Daj nam znać, jak się sprawy potoczą.

— EngrStudent - Przywróć Monikę
źródło

1

Większość organów ds. Danych zdecydowanie sprzeciwia się stosowaniu map radarowych. Trudno je interpretować. Znacznie lepszą alternatywą jest równoległa mapa współrzędnych .

— Jon Peltier

@JonPeltier - Zgadzam się, ale Excel nie miał (w momencie, kiedy odpowiedziałem) czystego sposobu na utworzenie równoległej mapy współrzędnych, więc jest prawdopodobne, że jego odbiorcy będą mieli ogromne trudności ze zrozumieniem.

— EngrStudent - Przywróć Monikę

1

Rozwiązanie z łamaną osią działa najlepiej, gdy na wykresie jest wyraźne załamanie, a rzędna jest oznaczona, aby przerwa była oczywista. Zaletą tego jest to, że skala jest zachowana w dwóch zestawach wartości. Wykresy panelowe o różnych skalach mogą nie odzwierciedlać względnej zmienności w grupach niskich i wysokich. Podoba mi się pomysł powiększenia, który zaprogramowałem dla wykresów rozrzutu, ale nie pomyślałem o użyciu dla wykresów słupkowych.

— użytkownik4983
źródło