Formatowanie wykresów: kiedy należy zastosować wypełnienie pod wykresem liniowym?

13

To pytanie dotyczące wizualizacji danych - mam nadzieję, że zadawanie tego pytania jest w porządku.

Kiedy należy zastosować wypełnienie pod wykresem liniowym dla szeregów czasowych, takich jak poniższy wykres? (który pokazuje czasy pingów w ciągu dnia)

Wykres liniowy z wypełnieniem pod spodem

Wydaje mi się, że bardziej powszechne jest stosowanie zwykłej linii bez wypełnienia poniżej, ale czy można używać wypełnienia dla różnorodności wizualnej?

Byłbym szczególnie zainteresowany wiedzą o wszelkich badaniach percepcyjnych na ten temat lub o poradnikach dotyczących stylu.

data-visualization

— Richard
źródło

1

Jeśli 0snaturalna dolna granica jest pokazana, to dlaczego nie?

— ttnphns

1

Zapytaj w inny sposób - po co wypełniać, jeśli nie jest to konieczne? Wyobraź sobie, że chcesz dodać kolejną linię trendu, a sprawy stają się niepotrzebnie skomplikowane. Oddzieliłbym także jednostki (y) osi Y i skalę.

— martin

11

Jest trochę sztuki równoważenia estetycznych i informacyjnych aspektów grafiki. Wybitni konsultanci / autorzy wizualizacji, tacy jak Edward Tufte i Stephen Few, wybierają minimalną estetykę, która pozwala uniknąć odwracania uwagi od informacyjnych części wykresu. Jednak dla niektórych odbiorców niewielki rozkwit jest uzasadniony - patrz na przykład dziennikarskie zastosowanie wizualizacji danych przez Alberto Cairo.

Kąt percepcyjnego badania polega na tym, że każdy element graficzny przekazuje komunikat, z którego nie jesteśmy świadomi, ponieważ zajmuje się nim nasza kora wzrokowa („ przetwarzanie uważne ”). Dodatkowe elementy, nawet zbędne, mogą spowodować dodatkowe przetwarzanie. Odpowiedni wykres zależy od przekazu, który ma zostać przekazany, i odbiorców.

Do konkretnego pytania połączona linia podkreśla trend (i odchylenie od trendu). Wypełniony obszar podkreśla odchylenie od linii podstawowej. Wykres słupkowy lub igłowy podkreśliłby odrębne zdarzenia odbiegające od linii podstawowej.

Ważny jest także kontekst grafiki. Jeśli masz siatkę ciasno upakowanych wykresów, wypełnienie pomoże powiązać każdą linię z linią bazową.

Wreszcie, kolejną kwestią przy dodawaniu zbędnych elementów graficznych / elementów dekoracyjnych jest to, że trudniej jest rozszerzyć wykres o elementy bardziej informacyjne. Na przykład możesz chcieć wyróżnić specjalne wartości, nałożyć inne linie trendu lub nałożyć pasma, na przykład w poniższej makiecie.

wprowadź opis zdjęcia tutaj

— Xan
źródło

1

Zgadzam się z tym. O ile wykres nie musi być kolorowy, ponieważ jest to okładka czasopisma / książki (a marketingowcy chcą, aby był kolorowy), do poinformowania należy użyć koloru. Jeśli wykres wygląda na „nudny”, winowajcą jest fakt, że podstawowe informacje w ogóle nie są bardzo interesujące lub niezbyt interesujące w formacie wykresu liniowego. W takich przypadkach może być bardziej przydatny na wykresie kołowym, wykresie radarowym lub czymś innym.

— rocinante

1

Sugeruję, aby nie używać wykresu kołowego. Trudniej jest dostrzec różnice długości łuku i pola klinowego niż różnice wysokości. Jeśli mi nie wierzysz, porównaj wykres kołowy w proporcjach 32:34:33 z tym samym wykresem słupkowym. Który z nich jest łatwiejszy do odczytania?

— shadowtalker

2

Mówiłem ogólnie, nie specjalnie dla powyższego wykresu. Każdy typ wykresu ma swoje zalety. Określony typ wykresu nie jest odpowiedni we wszystkich sytuacjach.

— rocinante

4

Jeszcze kilka punktów do rozważenia:

Jak wspomniano w komentarzu, niedopełnienie jest w dużej mierze nieodpowiednie, jeśli oś x nie znajduje się w naturalnym punkcie zero. Może to być spowodowane tym, że oś y jest skalowana tak, aby zaczynała się od liczby innej niż zero, lub dlatego, że używane jednostki nie mają interpretacji naturalnego zera (np. Kelvin ma naturalne zero, a Celsjusz nie.)

Po drugie, przypadek, w którym niepełne wypełnienie jest szczególnie ważne, polega na tym, że same dane można uznać za niedopełnione. Na przykład wykres liniowy wysokości góry ma sens, że jest niewystarczająco wypełniony, kolor wypełnienia reprezentuje ziemię, a niewypełniony - powietrze.

Powiązanym przykładem mogą być dane zliczania. Gdybyśmy ułożyli wszystkie osobniki w każdym punkcie x, otrzymalibyśmy wykres słupkowy. Jeśli interpolacja między słupkami ma sens, otrzymalibyśmy wykres liniowy z niedopełnieniem.

Ten obraz z „wizualnego wyświetlania informacji ilościowych” może wyjaśnić to nieco lepiej. Pokazuje, które jednostki wojskowe były w Europie podczas drugiej wojny (tak mi się wydaje). Układanie jednostek w każdym punkcie czasowym daje niedopełniony wykres słupkowy. Narysowanie linii nad górą danych daje niewystarczająco wypełniony wykres liniowy.

— timcdlucas
źródło

2

... jednostki amerykańskie były w Europie podczas pierwszej wojny światowej (daty 1917 i 1918 opowiadają historię).

— Nick Cox

@nickCox Oczywiście. Nie mam pojęcia, dlaczego tego nie widziałem.

— timcdlucas

4

Dwie poprzednie odpowiedzi dotyczą głównych ważnych punktów, ale jest kilka rzeczy, o których należy jeszcze wspomnieć.

Po pierwsze, powinienem powiedzieć, że nie zgadzam się z ekstremistycznym minimalistycznym podejściem do grafik - że cały nadmiarowy atrament musi zniknąć. Rozpraszające, pozbawione znaczenia odmiany powinny odejść. Ale jednolity obszar w porównaniu z pojedynczą linią może lepiej przyciągać wzrok i lepiej komunikować się na pierwszy rzut oka. I, jak mówisz, może dodać „różnorodność wizualną”.

Jednak, jak wskazuje @xan, to szybkie spojrzenie interpretuje obszar inaczej niż linię, w sposób częściowo podświadomy.

Wykres obszarowy oznacza łączną ilość gromadzącą się w miarę przemieszczania się wzdłuż osi x. Jeśli porównasz dwa wykresy, a jeden ma wypełniony większy obszar, twoje spojrzenie powie ci, że ma większą sumę niezależnie od wartości początkowej i końcowej.

Natomiast wykres liniowy pokazuje zmieniającą się wartość. Nacisk kładziony jest na zmianę pozycji z jednego punktu do następnego, a nie na łączną sumę.

Kiedy więc należy użyć wykresu powierzchniowego?

gdy wartości reprezentują wyraźną wielkość z określonym punktem zerowym pokazanym na wykresie;
gdy wartość reprezentuje kwotę dodaną (lub usuniętą) w każdym punkcie, taką jak normalne dzienne opady lub miesięczny zysk / strata;
gdy wartość reprezentuje rozkład populacji, co oznacza, że całkowity obszar pod krzywą reprezentuje całkowity rozmiar próbki, taki jak krzywa dzwonowa liczby uczniów o różnych stopniach (w zasadzie wygładzony histogram).

Chodzi o to, że podczas czytania wykresu, jeśli weźmiesz dwa punkty na osi x, pokazany między nimi obszar powinien reprezentować rzeczywistą ilość czegoś gromadzącego się w tym zakresie. Z tego powodu, jeśli wartości zawierają wartości ujemne, zalecam użycie przeciwnych kolorów dla obszarów ujemnych i dodatnich, aby podkreślić, że sumują się one w sumie.

Kiedy należy nie używać wykres okolicy?

gdy punkt zerowy jest arbitralny (jak w temperaturze bezwzględnej, jak powiedział @ Timcdlucas), nieważny (jak w pomiarach, które są stosunkiem dwóch wartości, takich jak kurs wymiany), lub nie jest pokazany na wykresie ze względu na miejsce;
gdy wartości pokazane przez wysokość linii stanowią już łączną miarę, taką jak łączne opady do tej pory (dla miesiąca / roku) lub zadłużenie / oszczędności;
gdy wartości reprezentują pozycję / wartość pojedynczej zmieniającej się jednostki, a nie akumulację;
gdy chcesz porównać wiele linii na tym samym wykresie (jeśli nie widzisz całego obszaru, tracisz znaczenie - zamiast tego porównuj wykresy obszarów obok siebie).

Mając na uwadze te wytyczne, wykres ping można interpretować na dwa sposoby.

Z jednej strony, jeśli myślisz o szybkości pingowania jako o pojedynczej zmiennej, która zmienia się w ciągu dnia, najbardziej odpowiedni byłby prosty wykres liniowy.

Z drugiej strony, jeśli porównujesz codzienne wzorce prędkości ping dla dwóch różnych sieci (lub tej samej sieci w różnych dniach / okresach), być może zechcesz podkreślić całkowity czas potrzebny na zadania sieciowe. Na przykład, jeśli twój wykres miał wiele pików, zamiast jednego, wykres liniowy podkreślałby zmienność prędkości, podczas gdy wykres powierzchniowy podkreślałby całkowite opóźnienie.

Porównaj:
Wykres liniowy Ten sam wykres z wypełnionym obszarem
Łączna suma jest nieco większa w pierwszej połowie wykresu (na lewo od czerwonej linii) niż w drugiej, nawet jeśli szczyty osiągają wyższe wartości maksymalne po prawej stronie. Wypełnienie podkreśla ten solidny blok po lewej stronie, dzięki czemu lepiej równoważy się ze szczytami.

(Wybacz słabą jakość obrazu - nie mogłem wymyślić, jak skłonić R do wykonania wykresu powierzchniowego! Musiałem eksportować i edytować osobno.)

— AmeliaBR
źródło