@Ondrej i @Michelle podali tutaj kilka dobrych informacji. Zastanawiam się, czy mogę przyczynić się, zajmując się niektórymi punktami niewymienionymi gdzie indziej. Nie biłbym się za to, że nie jestem w stanie dużo zebrać danych w formie tabelarycznej, tabele ogólnie nie są zbyt dobrym sposobem prezentacji informacji (por. Gelman i in., Przekształcanie tabel w wykresy ). Z drugiej strony, prośba o narzędzie, które automatycznie wygeneruje wszystkie właściwe wykresy, które pomogą ci odkryć nowy zestaw danych, jest prawie jak prośba o narzędzie, które zrobi za ciebie myślenie. (Nie bierz tego w niewłaściwy sposób, rozumiem, że twoje pytanie wyjaśnia, że nie posuwasz się tak daleko; mam na myśli, że tak naprawdę nigdy nie będzie takiego narzędzia.) Można znaleźć miłą, związaną z tym dyskusję. tutaj .
Powiedziawszy to, chciałem trochę porozmawiać o działkach, które możesz wykorzystać do eksploracji danych. Działki wymienione w pytaniu byłyby dobrym początkiem, ale możemy być w stanie to nieco zoptymalizować. Na początek tworzenie „dużej liczby wykresów” skorelowanych par zmiennych może nie być idealne. Wykres rozrzutu wyświetla tylko marginalną zależność między dwiema zmiennymi. Ważne relacje często można ukryć w kombinacji wielu zmiennych. Tak więc pierwszym sposobem na rozwinięcie tego podejścia jest utworzenie macierzy rozrzutuktóry wyświetla jednocześnie wszystkie pary wykresów rozrzutu. Matryce wykresów rozrzutu można ulepszać na różne sposoby: np. Można je łączyć z jednowymiarowymi wykresami gęstości jądra dla rozkładu każdej zmiennej, różne markery / kolory mogą być używane do kreślenia różnych grup, a możliwe relacje nieliniowe można ocenić poprzez nałożenie mniejszego dopasowania. scatterplot.matrix
Funkcja w pakiecie samochodowym w badania można zrobić wszystkie te rzeczy ładnie (przykładem mogą być postrzegane w połowie drogi w dół strony połączone powyżej).
Jednak chociaż matryce wykresów rozrzutu są dobrym początkiem, nadal wyświetlają jedynie projekcje krańcowe. Istnieje kilka sposobów wyjścia poza to. Jednym z nich jest eksploracja trójwymiarowych wykresów za pomocą pakietu rgl w R. Innym podejściem jest użycie wykresów warunkowych; koploty mogą pomóc w relacjach między 3 lub 4 zmiennymi jednocześnie. Szczególnie przydatnym podejściem jest interaktywne stosowanie macierzy wykresów rozrzutu(choć będzie to wymagać więcej wysiłku, aby się uczyć), np. poprzez „szczotkowanie”. Pędzel pozwala podświetlić punkt lub punkty w jednej ramce matrycy, a punkty te zostaną jednocześnie podświetlone we wszystkich innych ramkach. Przesuwając pędzel, możesz zobaczyć, jak wszystkie zmienne zmieniają się razem. AKTUALIZACJA: Inną możliwością, o której zapomniałem wspomnieć, jest użycie wykresu współrzędnych równoległych . Ma to tę wadę, że nie rozróżnia zmiennej odpowiedzi, ale może być przydatne na przykład w badaniu korelacji między zmiennymi X.
Chciałbym również pochwalić za zbadanie danych posortowanych według zebranych dat. Chociaż dane są zawsze gromadzone w miarę upływu czasu, ludzie nie zawsze to robią. Wykreślenie wykresu liniowego jest przyjemne, ale sugerowałbym uzupełnienie go o wykresy autokorelacji i autokorelacji częściowej . W R, funkcje te są acf
i pacf
odpowiednio.
Rozumiem, że to wszystko nie do końca odpowiada na twoje pytanie w sensie dostarczenia narzędzia, które automatycznie utworzy dla ciebie wszystkie fabuły, ale jedną z implikacji jest to, że tak naprawdę nie musiałbyś tworzyć tylu fabuł, ile się boisz. , np. macierz wykresu rozrzutu jest tylko jednym wierszem kodu. Ponadto w języku R powinno być możliwe napisanie dla siebie funkcji / kodu wielokrotnego użytku, który częściowo zautomatyzowałby niektóre z nich (np. Mogę sobie wyobrazić funkcję, która pobiera listę zmiennych i porządkuje datę, sortuje je wyskakuje nowe okno dla każdego z wykresami linii, acf i pacf).