Badanie związków między zmiennymi jest dość niejasne, ale wydaje mi się, że są dwa bardziej ogólne cele badania takich wykresów rozrzutu;
- Zidentyfikuj ukryte grupy bazowe (zmiennych lub przypadków).
- Zidentyfikuj wartości odstające (w przestrzeni jedno-, dwuwymiarowej lub wielowymiarowej).
Oba zmniejszają dane do bardziej przejrzystych podsumowań, ale mają różne cele. Zidentyfikuj ukryte grupy, w których zwykle zmniejsza się wymiary danych (np. Za pomocą PCA), a następnie bada, czy zmienne lub przypadki łączą się w tej ograniczonej przestrzeni. Patrz na przykład Friendly (2002) lub Cook i in. (1995).
Identyfikacja wartości odstających może oznaczać dopasowanie modelu i wykreślenie odchyleń od modelu (np. Wykreślenie resztek z modelu regresji) lub zmniejszenie danych do jego głównych składników i jedynie wyróżnienie punktów, które odbiegają od modelu lub głównej części danych. Np. Wykresy pudełkowe w jednym lub dwóch wymiarach zazwyczaj pokazują tylko pojedyncze punkty poza zawiasami (Wickham i Stryjewski, 2013). Rysowanie reszt ma dobrą właściwość, że powinno spłaszczyć wykresy (Tukey, 1977), więc każdy dowód relacji w pozostałej chmurze punktów jest „interesujący”. To pytanie dotyczące CV zawiera kilka doskonałych sugestii identyfikujących wartości odstające na wielu odmianach.
Częstym sposobem eksploracji tak dużych SPLOMÓW jest nie wykreślanie wszystkich pojedynczych punktów, ale pewnego rodzaju uproszczone podsumowanie, a następnie być może punkty, które znacznie odbiegają od tego podsumowania, np. Elipsy zaufania, podsumowania skagnostyczne (Wilkinson i Wills, 2008), dwuwymiarowe wykresy pudełkowe, wykresy konturowe. Poniżej znajduje się przykład rysowania elips, które definiują kowariancję i nakładania mniejszej wygładzenia w celu opisania liniowego powiązania.
(źródło: statmethods.net )
Tak czy inaczej, prawdziwie udany, interaktywny wykres z tak wieloma zmiennymi prawdopodobnie wymagałby inteligentnego sortowania (Wilkinson, 2005) i prostego sposobu filtrowania zmiennych (oprócz możliwości szczotkowania / łączenia). Również każdy realistyczny zestaw danych musiałby mieć możliwość przekształcania osi (np. Wykreślania danych w skali logarytmicznej, przekształcania danych przez zapuszczanie korzeni itp.). Powodzenia i nie trzymaj się tylko jednej fabuły!
Cytowania
- Cook, Dianne, Andreas Buja, Javier Cabrera i Catherine Hurley. 1995. Wielka trasa koncertowa i pogoń za projekcją. Journal of Obliczeniowe i graficzne statystyki 4 (3): 155-172.
- Przyjazny, Michael. 2002. Corrgrams: Wyświetlacze eksploracyjne dla macierzy korelacji. The American Statistician 56 (4): 316-324. Przedruk PDF .
- Tukey, John. 1977. Analiza danych eksploracyjnych. Addison-Wesley. Czytanie, msza.
- Wickham, Hadley i Lisa Stryjewski. 2013. 40 lat fabuły .
- Wilkinson, Leland i Graham Wills. 2008. Rozkłady scagnostyczne. Journal of Obliczeniowe i graficzne statystyki 17 (2): 473–491.
- Wilkinson, Leland. 2005. Gramatyka grafiki . Skoczek. Nowy Jork, NY.