Edycja III: Znalazłem niesamowicie wspaniały przykład wielowymiarowej wizualizacji danych ilościowych i musiałem ją dodać. Znajdziesz go pod nagłówkiem „Edycja III (laureaci Nagrody Nobla)”.
Edycja II: nastąpiło małe nieporozumienie, a ja zredagowałem, aby wyjaśnić, w jaki sposób interpretuję zamierzone wykorzystanie danych. Zamieniłem dwa obrazy i dodałem sekcję „Czy chcesz z tym frytki?”
Grafika ujawnia dane.
Edward Tufte:
Zaśmiecenie i zamieszanie to niepowodzenia projektu, a nie atrybuty informacji. Clutter wymaga rozwiązania projektowego, a nie redukcji treści. Dość często im bardziej szczegółowy detal, tym większa jasność i zrozumienie, ponieważ znaczenie i rozumowanie są bezwzględnie KONTEKSTOWE. Mniej to nuda.
Dlaczego wizualizujemy dane?
- Narzędzia do myślenia
- Aby pokazać wynik intensywnego widzenia
- Aby zrozumieć problem, podjąć decyzję
- Pokaż porównania, pokaż przyczynowość
- Podaj powody, by wierzyć
W jaki sposób?
- pokaż dane
- skłaniają widza do myślenia o treści, a nie o metodologii, projektowaniu graficznym, technologii produkcji graficznej lub czymś innym
- unikaj zniekształcania danych
- przedstawić wiele liczb na małej przestrzeni
- spójność dużych zbiorów danych
- zachęcaj oko do porównywania różnych danych
- ujawniają dane na kilku poziomach szczegółowości, od szerokiego przeglądu po drobną strukturę.
- służą względnie jasnemu celowi: opisowi, eksploracji, zestawieniu lub dekoracji.
- być ściśle zintegrowane ze statystycznymi i ustnymi opisami zbioru danych.
Kilka definicji:
Dane:
jest ogólnie uważany za „rzeczy posortowane w bazach danych”. Mogą to być oczywiście liczby, obrazy, dźwięk, wideo itp. Dane są gromadzone, często ilościowe. W najbardziej surowej formie jest trudny do strawienia; tylko ściany cyfr. Wiesz; matryca . Ogólnie rzecz biorąc, nie mamy ogromnych baz danych składających się z zer, dla wszystkich rzeczy, których nie mamy, nawet jeśli czasami rzeczy, których nie mamy, są tymi, które są najbardziej pouczające . Tak więc, aby zobaczyć to, czego nie ma, musimy uzmysłowić, co nie mają.
Informacja:
to, co możesz wyciągnąć z danych . W jakiś sposób wyświetlając dane, możemy gromadzić informacje . Jednym z przykładów, których często używam, jest to, że jeśli podam wam listę krajów świata i powiem, że brakuje dwóch, jest bardzo mało prawdopodobne, że znajdziecie je na podstawie tej listy. Jeśli jednak pokażę to, kolorując wszystkie kraje, które mam na mapie, natychmiast zobaczysz, że pominąłem Republikę Środkowoafrykańską i Nową Kaledonię. Jest to „redukcja hałasu” i opowiadanie historii w najbardziej efektywny możliwy sposób.
Infografiki i wizualizacje danych:
Waham się, aby nazwać twój przykładowy infografikę. Wiem, że jest to często postrzegane jako synonim wizualizacji danych, projektowania informacji lub architektury informacji, ale nie zgadzam się. Infografiki - dla mnie - to seria wykresów, diagramów i ilustracji, które mogą zawierać wiele stronniczych stwierdzeń dotyczących sposobu odczytywania danych. Jest mniej obiektywny, bardziej podatny na pomijanie danych, które nie leżą w „interesie” twórcy: kierujesz się wnioskiem, który ktoś wcześniej zdefiniował. Mają wartość rozrywkową i często przytłaczają ilustracje, które odwracają uwagę od danych. W porządku, ale myślę, że powinniśmy trochę rozróżnić.
Przykłady
Duże dane:
Pamiętaj, że duże zbiory danych to nie to samo, co złożone dane. Wiele danych może być po prostu takich samych, takich jak ta mapa LinkedIn: podstawowe dane są takie same, ale są filtry (przez tagowanie). Istnieją dwie zmienne: geografia i pewnego rodzaju znacznik definiujący ludzi do zawodów / zainteresowań / relacji. Szalona ilość danych; ale tylko dwie zmienne.
Wielowymiarowy:
Oto przykład wielowymiarowej wizualizacji danych. To wykres Charlesa Minarda z 1869 r., Pokazujący liczbę mężczyzn w rosyjskiej armii kampanii Napoleona z 1812 r., Ich ruchy, a także temperaturę, jaką napotkali na drodze powrotnej.
Duża wersja tutaj.
Złamanie kodu zajmuje trochę czasu, ale kiedy to zrobisz, jest to wspaniałe. Omawiane zmienne to:
- wielkość armii (liczba żywych / martwych)
- Lokalizacja geograficzna
- kierunek (wschód - zachód)
- temperatura
- czas (daty)
- związek przyczynowy (zmarł w bitwach i przeziębieniu)
To niesamowita ilość informacji na prostej, dwukolorowej mapie. Część geograficzna jest stylizowana, aby dać miejsce innym zmiennym, ale nie mamy problemu z jej uzyskaniem.
Oto trudniejszy. Będzie to o wiele łatwiejsze do odczytania, jeśli znasz podstawowe wizualizacje ewolucyjne, kladogramy, filogenikę i zasady biogeografii. Pamiętaj, że jest przeznaczony dla osób obeznanych z tym, więc jest to specjalistyczna, naukowa mapa. Oto, co pokazuje: filogeograficzny obraz linii trujących żab z Ameryki Południowej. Mapy po lewej pokazują główne regiony biogeograficzne, które zmieniają się w czasie, a obraz po prawej stronie pokazuje linie żab w kontekście ich pochodzenia biogeograficznego. (Autorzy: Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R i wsp. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], za pośrednictwem Wikimedia Commons). Kiedy „łamiesz kod”, jest to niezwykle pouczające.
Małe wielokrotności, wykresy przebiegu w czasie:
Nie mogę tego wystarczająco podkreślić: nigdy nie lekceważ wartości powtarzania informacji lub dzielenia ich na osobne identyczne wizualizacje. Tak długo, jak można stosunkowo łatwo porównać jeden wykres z drugim, jest to całkowicie w porządku. Jesteśmy maszynami poszukującymi wzorów. Jest to często określane jako małe wielokrotności. Mamy kilka problemów z dość szybkim analizowaniem tych obrazów, a wtłoczenie wszystkiego w jeden duży wykres jest często bezcelowe, gdy dziesięć małych będzie działać jeszcze lepiej:
Inny:
I który wykorzystuje inną, ale powtarzającą się grafikę:
Wykresy przebiegu w czasie to termin ukuty przez Edwarda Tufte'a, który rozwinął się również w
pełni funkcjonalną, w pełni konfigurowalną bibliotekę javascript. Są to w zasadzie małe wykresy, które można wstawiać do tekstu, jako część tekstu, a nie jako „zewnętrzny” obiekt. Oto jak wyglądają domyślne:
Edycja III (laureaci Nagrody Nobla)
Musiałem tylko dodać tę wizualizację danych, którą znalazłem, jest po prostu zbyt dobra: pokazuje laureatów Nagrody Nobla. Jaki uniwersytet, jaki wydział, przedmiot, rok, wiek, miasta, czy to było wspólne, stopień naukowy. Rzeczywiście piękny dowód. Są to wszystkie dane kwantyfikowalne. Więcej tutaj.
Twoje dane
Wszystkie pytania postawione przez Javi są niezwykle ważne.
To, co próbujesz zrobić, to stworzyć wizualne narzędzie do myślenia. Aby to zrobić, musisz wyodrębnić najlepszą jakość stosunku sygnału do szumu. Walczysz z tym, jak skorelować dane, które mają różne zmienne, w informacje . Oto pytanie: co powinno być w przybliżeniu właściwe, a co dokładnie właściwe? Jaki jest cel
Zakładam, że chcesz wyświetlać dane bez zbytniego odchylenia: chcesz, aby czytelnik sam odnalazł korelacje, jeśli istnieje jakakolwiek korelacja. Twoim celem nie jest mówienie ludziom, że hamburgery są dla nich złe lub że kobiety jedzą mniej hamburgerów niż mężczyzn, ale pozwolenie im „zobaczyć” to, jeśli tak zawierają dane (wyobraź sobie, że te trzy osoby byłyby rodziną. huśtawka na nasz widok całego wykresu jedzenia burgera).
Twój zestaw danych jest tak mały, że możesz po prostu umieścić to wszystko w tabeli i byłoby dobrze. Ale oczywiście chodzi o ogólny pomysł:
Mały szczegół: czas (wiek) to coś, co postrzegamy jako horyzontalne od lewej do prawej (linie czasu). Zrób coś w górę iw dół, więc zmiana x - y byłaby dobrym pomysłem.
1. Jakie są unikalne, stałe byty?
2. jakie są zmienne (eh ..) zmienne?
- waga (kg)
- Wiek (lata)
- Liczba hamburgerów (liczba całkowita)
- Rodzaj burgerów (liczba całkowita)
Uwaga: twoje dane składają się wyłącznie z jednostek. Policzalne, policzalne, każdy na osobnej skali mentalnej. Kilogram, wiek, waga i liczby. A w mowie bazy danych ich nazwy są kluczami. Kiedy zaczynasz robić wizualizacje czasoprzestrzenne, staje się to prawdziwym bólem głowy. Wyobraź sobie, że powinieneś dodać miejsce urodzenia, obecny dom itp.
Jedyne dwa, które mają tutaj korelację, to liczba hamburgerów i więcej, czy nie, to kombinacja. Wszystkie pozostałe zmienne są niezależne i tylko jedna jest stała (nazwa). W pewnym momencie, przy dużych zestawach danych, nawet imiona stają się nieciekawe i zastępowane są przez dane demograficzne, wiek, płeć itp.
Za pomocą tego niewielkiego zestawu danych możesz uzyskać wszystko na jednym wykresie, na przykład w następujący sposób:
Możesz też zmienić oś i zawartość bąbelków nazw:
Uwaga osobista: Myślę, że jest to lepsza z tych dwóch cech, ponieważ xiy zawierają „fizyczne” właściwości istoty ludzkiej. Zmienną w bąbelkach tutaj jest liczba burgerów.
Możesz również dodać wykresy kołowe oprócz wykresu, a nawet mieć tylko wykresy kołowe. Osobiście miałbym oba, jak wspomniano o małych wielokrotnościach:
Chcesz do tego frytki?
Moje założenie było takie, że chcieliśmy również poznać stosunek burgera do posiłku. Każdy posiłek zawiera burgera. Nie wszystkie posiłki są kombinacjami.
- czy chcemy tylko wiedzieć, czy dana osoba czasami je kombi?
- czy chcemy wiedzieć, ile posiłków z burgerami jest również kombinacjami?
Jeśli 1., logiczna wartość zastosowana do nazwy / klucza / identyfikatora byłaby wystarczająca.
Jane czasami je kombi? Prawda fałsz.
Jeśli 2., możemy zastosować wartość logiczną do każdego posiłku:
1 cheeseburger, combomeal = true
1 cheeseburger, combomeal = true
1 cheeseburger, combomeal = false
1 cheeseburger, combomeal = false
1 cheeseburger, combomeal = false
1 cheeseburger, combomeal = false
1 cheeseburger, combomeal = false
1 wołowina, kombinacja = prawda
1 wołowina, kombinacja = prawda
1 wołowina, kombinacja = fałsz
Jest to bardzo nużące, dlatego możemy to rozbić na:
Jane zjada 10 hamburgerów. Trzy z nich to kombinacje („czy chcesz z tym frytki?”).
Jednym z nich jest menu wołowiny.
Dwie z nich to menu cheeseburgera.
Reszta to single burgery. 5 serów, dwie wołowiny.
Ten piechart był próbą zwizualizowania tego. W tej wersji zachowałem plasterki ciasta, aby było wyraźniej. Chodzi o to, że nie byłoby przeskoku, aby rozpocząć stosowanie dużych zestawów danych i%:
Ale myślę, że najlepszym sposobem jest ponowne przemyślenie.
Innym sposobem patrzenia na to jest naprawdę bardzo proste. Tutaj łatwiej jest zobaczyć, jakie grupy wiekowe, jakie grupy wagowe i wszystkie dane , których „nie masz”, mogą nam powiedzieć. Dane, które posiadasz, nie są związane z przestrzenią, są to tylko jednostki (kg, lata, liczby + klucz / identyfikator / nazwa):
(Edycja: Jajko na mojej twarzy: Zastąpiłem te obrazy bardziej poprawnymi, jeśli chodzi o „wszystkie posiłki to hamburgery, nie wszystkie posiłki są kombinacją”)
Byłoby to dość łatwe do rozszerzenia przy większej liczbie osób:
Lub nawet lepiej, jeśli porównasz grupy wiekowe 10, 20 i 30-latków, możesz zrobić dość prostą do odczytania wizualizację statystyczną:
..I po prostu tak jasno, jak to możliwe; oto przykład tego sposobu myślenia. Ta tabela pokazuje ocalałych z Titanica, stosunek załogi, klasy, mężczyzn, kobiet.
Będzie wiele innych rozwiązań, to tylko kilka myśli.
Mógłbym iść dalej i dalej, ale teraz wyczerpałem się i prawdopodobnie wszyscy inni.
Narzędzia do zabawy:
gephi
Gapminder Zobacz
fenomenalną prezentację TED Hansa Roslinga - uwielbiam tego faceta
Wykresy Google
somvis
Raphaël
MIT Exhibit (wcześniej o nazwie Similie)
d3
Highcharts
Dalsza lektura:
PJ Onori; W obronie twardego
Edward Tufte: Piękny dowód
Edward Tufte: Przewidywanie informacji
Edward Tufte: Wizualne wyświetlanie informacji ilościowych
Objaśnienia wizualne: obrazy i ilości, dowody i narracja
Mężczyzna, Alan., 2007 Ilustracja teoretyczna i kontekstowa perspektywa Lozanna, Szwajcaria; Nowy Jork, NY: AVA Academia
Isles, C. & Roberts, R., 1997. W świetle widzialnym, fotografii i klasyfikacji w sztuce, nauce i życiu codziennym, Muzeum Sztuki Nowoczesnej w Oksfordzie.
Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Readings in Information Visualization: Using Vision to Think 1st ed., Morgan Kaufmann.
Grafton, A. i Rosenberg, D., 2010. Kartografie czasu: historia osi czasu, Princeton Architectural Press.
Lima, M., 2011. Złożoność wizualna: mapowanie wzorców informacji, Princeton Architectural Press.
Bounford, T., 2000. Diagramy cyfrowe: Jak projektować i prezentować informacje statystyczne Skutecznie 0 ed., Watson-Guptill.
Steele, J. i Iliinsky, N. eds., 2010. Piękna wizualizacja: patrząc na dane oczami ekspertów 1. edycja, O'Reilly Media.
Gleick, J., 2011. Informacje: historia, teoria, powódź, panteon