Skalowanie danych o różnych rzędach wielkości do wydruku


9

Patrząc na następujący zestaw danych:

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

Zostałem poproszony o wykreślenie tego na wykresie, używając Data ma oś X, a resztę danych na osi Y. Problem polega na tym, że skala danych jest zupełnie inna. gdzie Odwiedziny są w tysiącach, a Zamówienia utworzone w dziesiątkach, dane nie są drukowane dobrze na wykresie.

Zastanawiałem się, co zrobiłby statystyk w tym scenariuszu, mogłem podzielić wizyty przez 1000, a następnie wpisać opis (wizyty (K)), ale potem mam ten sam problem z utworzonymi koszykami, ponieważ są one w setkach, a wszystko inne jest w dziesiątkach.

Jakie działania są wykonywane w tym scenariuszu?

Odpowiedzi:


14

Na początku nie jest nierozsądne rysowanie wykresów liniowych jako serii małych wielokrotności, z różnymi skalami dla osi Y, ale z wyrównaną osią X (datami). wprowadź opis zdjęcia tutaj

Myślę, że to dobry początek, ponieważ pozwala badać surowe dane i umożliwia porównywanie trendów między różnymi wykresami liniowymi. IMO najpierw powinieneś przyjrzeć się surowym danym, a potem pomyśleć o konwersji lub sposobach normalizacji wykresów, aby były porównywalne po zbadaniu surowych danych.

Jak już wspomniał King, wygląda na to, że twoje zmienne mają naturalny porządek oparty na nazwach i liczbach i zakładając, że jest to właściwe, stworzyłem trzy nowe zmienne na podstawie wartości procentowej przeliczonej w każdym stanie. Nowe zmienne to;

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

Określanie wartości procentowych jest sposobem na zbliżenie serii do wspólnej skali, ale nawet wtedy umieszczenie wszystkich linii na jednym wykresie (jak poniżej) nadal trudno jest skutecznie wizualizować serię. Poziom i różnorodność tworzonych zamówień i wozów przekształcały krasnoludy serii w inne serie. Nie widzisz żadnych zmian w tworzonych seriach wózków w tej skali (i podejrzewam, że najbardziej interesuje Cię to). wprowadź opis zdjęcia tutaj

Więc znowu IMO lepszym sposobem na sprawdzenie tego jest użycie różnych skal. Poniżej znajduje się tabela procentowa z użyciem różnych skal.

wprowadź opis zdjęcia tutaj

W przypadku tych grafik nie wydaje mi się, aby istniała jakaś znacząca korelacja między seriami, ale masz wiele interesujących wariantów w każdej serii (zwłaszcza przeliczona proporcja). Co się dzieje z 2011-11-13? Miałeś znacznie mniejszy odsetek utworzonych zamówień, ale każde utworzone zamówienie było skonwertowanym koszykiem. Czy miałeś / aś jakieś interwencje, które mogą tłumaczyć trendy w odwiedzinach w witrynie lub w procentach lub procentach koszyka?

To wszystko jest tylko eksploracyjna analiza danych i aby podjąć dalsze kroki, potrzebowałbym więcej wglądu w dane (mam jednak nadzieję, że to dobry początek). Możesz znormalizować wykresy liniowe na inne sposoby, aby móc wykreślić je na porównywalnej skali, ale jest to trudne zadanie, i myślę, że można to zrobić poprzez efektywne wybieranie dowolnych skal opartych na informacjach, w przeciwieństwie do wybierania niektórych domyślne schematy normalizacji. Inną ciekawą aplikacją do jednoczesnego wyświetlania wielu wykresów liniowych są wykresy horyzontalne , ale jest to więcej do przeglądania wielu różnych wykresów liniowych jednocześnie.


Dziękuję za szczegóły w twojej odpowiedzi, pierwotnie miałem wiele wykresów. Mój szef zdecydował, że polubi wszystkie serie na wykresie (myślę, że to chyba zbyt wiele serii, ale to nie ja będę na to patrzył :)) Myślę, że zastanowię się nad normalizacją danych, może na 0 - 1. Chcą tylko używać wykresu do przeglądania trendów, dane tabeli są zwykle wyświetlane pod wykresem.
Mike

@Mike, jest to uzasadniona prośba. Normalizacja serii nie powinna zmieniać trendu (tylko poziom i wariację każdej serii). Mamy nadzieję, że uzyskasz bardziej wnikliwe odpowiedzi na temat normalizacji serii na kilka skutecznych, ale wciąż znaczących sposobów. Tylko słowo ostrzeżenia, zwykle chcesz wykreślić 3-5 linii na jednym wykresie, znacznie więcej jest bardzo trudnych do wykonania wszystkich tych porównań (jednak małe wielokrotności to obejście tego problemu).
Andy W

1
@Mike Tak, w tym przypadku (tylko wizualizacja danych bez liczb) możesz po prostu wyrazić swoje dane w skali min / max, jak to ma miejsce w równoległych wyświetlaczach . Dobrym pomysłem jest również wyświetlanie liczb pod tabelą .
chl

1
Jeszcze jedna uwaga na temat normalizacji do skali min / max, jak sugerował @chl. Dobrze jest najpierw zobaczyć surowe dane, jeśli masz dużą wartość odstającą, możesz rozważyć pominięcie tej wartości w procesie normalizacji (chociaż powinno to być oczywiste, jeśli robisz to na wykresie znormalizowanym, np. Jeśli masz wykres liniowy z jedną wysoką / niską wartością, a reszta jest płaska). Myślę, że Michael Friendly zgodziłby się również z dołączeniem tabeli poniżej wykresu.
Andy W

2

Możesz utworzyć 2 oddzielne osie y, Wizyty (k) i Wozy utworzone w jednym, a pozostałe 2 w innym (lub w inny sposób zgodny z Twoim celem).

To zdecydowanie nie jest elegancka metoda, ale pamiętam, że robiłem to lata temu, kiedy chciałem po prostu porównywać trendy w czasie.

LUB

Możesz po prostu wykreślić procentową zmianę w czasie, jeśli odpowiada to twojemu celowi.


Rozważałem trasę, o której wspominałeś z 2 różnymi osiami Y, ale nie podobało mi się to: jeśli wprowadzono by nową serię, która nie pasowałaby do jednej z dwóch osi Y, prawdopodobnie utknąłem. dziękuję za sugestię, a może innym razem rozważę to więcej :)
Mike

A co z drugą sugestią na temat używania procentu? tj. indeksowanie wszystkiego według wartości 100 w dniu początkowym (lub w zależności od tego, która data czyni twój wykres ładnym). Możesz dodać tyle nowych serii, ile chcesz!
Król,

To jest opcja, obecnie doskonalę się, próbując dowiedzieć się, jak normalizować te dane i czy to działa. w przeciwnym razie dam pomysł procentowy :)
Mike

2

Ostatecznie postanowiłem znormalizować dane, dzieląc każdą wartość przez wartość maksymalną, a następnie mnożąc przez 100.

  1. Znajdź maksymalną wartość:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. Podziel każdą liczbę przez maksimum, a następnie pomnóż przez 100:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. Następnie narysowałem to na wykresie, oczywiście pokazuje to tylko trend, a użytkownik ma tabelę danych na dole strony.


0

Takie byłoby również moje podejście - - dostosowanie różnych wymiarów do tej samej skali przez podzielenie przez X, ale użyłbym wartości średniej, a nie wartości maksymalnej lub minimalnej. Powodem jest to, że - w miarę dodawania danych z czasem wartość maksymalna lub minimalna prawdopodobnie ulegnie zmianie, a tym razem to, co było na 100% na ostatnim wykresie, jest czymś innym - wykres nie jest tak łatwy do uzgodnienia z wcześniejszymi wykresami - - jeśli używasz avg, wtedy zmiany nie są tak drastyczne.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.