Współczesny następca eksploracyjnej analizy danych Tukeya?
52
Czytałem książkę Tukeya „Analiza danych eksploracyjnych”. Książka, napisana w 1977 r., Podkreśla metody papierowe / ołówkowe. Czy istnieje bardziej „nowoczesny” następca, który bierze pod uwagę, że możemy teraz błyskawicznie wykreślić duże zbiory danych?
Nie jest dla mnie jasne, czy to powinien być CW. Nie może być dobrych odpowiedzi; może być jedna wyraźna zaległa odpowiedź; możemy wygenerować długą listę skutecznych odpowiedzi. Zobaczmy co się stanie.
To dobre pytanie, zamrażarka biologiczna. Chciałem tylko zauważyć, że istnieją ścisłe analogie do innych metod pracy. Moje ulubione to pióro i papier EDA to współczesne statystyki, podobnie jak narzędzia ręczne do nowoczesnej obróbki drewna. („Nowoczesna” obróbka drewna wykorzystuje wiele elektronarzędzi, takich jak piły stołowe i routery, które pozwalają nawet początkującym użytkownikom uzyskać zadowalające wyniki w znacznie krótszym czasie. Jednak narzędzia te odpowiadają również za tysiące brakujących cyfr i kończyn każdego roku. Ludzie, którzy uczą się obsługi narzędzi ręcznych ogólnie uczą się pracować lepiej i wydajniej, nawet jeśli używają elektronarzędzi.)
Interaktywna grafika do analizy danych: lubię zasady i przykłady ; opis książki mówi, że „omawia eksploracyjną analizę danych (EDA) oraz w jaki sposób interaktywne metody graficzne mogą pomóc w uzyskaniu wglądu, a także w generowaniu nowych pytań i hipotez z zestawów danych”.
Warto tutaj wspomnieć o eksploracji danych w inżynierii, naukach i medycynie Ronalda Pearsona . Wydaje się, że głównym celem czytelników są naukowcy, którzy nie boją się matematyki, którzy chcieliby wiedzieć więcej statystyk. To dość duża grupa i dobrze tu reprezentowana. Jest trochę dziwaczny i niecodzienny, ale obejmuje wiele gruntów i zawiera wiele rozsądnych rad. Nie jest ponownie odwiedzany przez Tukeya w tym sensie, że oferuje wiele nowych pomysłów, ale studiowanie może być satysfakcjonujące, nawet jeśli uważasz, że jest to trochę niewłaściwe.
Wydaje się, że ta książka przyciągnęła bardzo mało uwagi, być może dlatego, że jest bardzo droga, oczywiście nie nadaje się jako tekst kursu, a jak dotąd jest dostępna tylko w twardej oprawie. Ale jest inteligentny i czytelny i wolny od śmieci współczesnych podręczników wprowadzających (strony i strony podstawowych ćwiczeń, głupie ikony, bezpłatne zdjęcia szczęśliwych młodych ludzi, wybredny układ z pudełkami, cokolwiek, itp.).
Zawiera dwa rozdziały publicznie dostępne w Internecie, które opisują proces analizy danych i obsługę brakujących wartości. Niedługo pojawi się nowa książka Antony Unwin.
Kolejnymi dobrymi książkami do przeczytania są Piękna wizualizacja i Piękne dane. Są to zredagowane książki, są zadziwiająco dobre przykłady eksploracji danych za pomocą wykresów i niektóre absolutnie przerażające rozdziały.
Kolejną książką, która ma kilka dobrych przykładów użycia ggplot2, jest nowa książka Winstona Changa
Chcę tylko dwukrotnie sprawdzić, Di, na wypadek, gdyby wkradła się subtelna literówka: czy może chciałeś napisać „pociągający” zamiast „przerażający”? Chociaż oba mają sens w tym kontekście, pojawienie się tego drugiego - bez dalszych wyjaśnień - jest raczej niespodzianką!
Jestem zaskoczony tymi zaleceniami. Obie książki były dla mnie najbardziej rozczarowujące (długo na guff, mało na grafice). Niestety O'Reilly, z którym po raz pierwszy spotkałem się jako wydawca spektakularnie dobrych książek uniksowych, wydaje się mieć bardzo nierównomierną kontrolę jakości książek na wszystko, nawet zdalnie statystycznych.
Lubię obie książki i naprawdę uważam, że stanowią one znaczący wkład. Winston Chang ma wiele podstawowych szczegółów na temat kreślenia z ggplot2. Jest to dobre odniesienie dla początkujących. Nie mówi ci wiele o tym, dlaczego miałbyś tworzyć te fabuły, ale większość ma sens w tym celu, z fragmentów, które przeczytałem. Piękna wizualizacja zawiera kilka bardzo imponujących rozdziałów, zajmujących się trudnymi problemami, takimi jak wizualizacja wikipedii, ogromnych danych, wielu złożoności, i przechodzi przez proces myślenia / decyzje podjęte w celu sporządzenia fabuły.
Myślę o zrozumieniu solidnej i eksploracyjnej analizy Hoaglina, Mostellera i Tukeya oraz towarzyszącego mu tomu dotyczącego eksploracji tabel i kształtów danych jako technicznej kontynuacji EDA. Widzę także analizę danych i regresję, drugi kurs statystyki Mostellera i Tukeya jako kontynuację EDA. Różne wyżej wymienione książki Cleveland to skarby.
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.