Współczesny następca eksploracyjnej analizy danych Tukeya?


52

Czytałem książkę Tukeya „Analiza danych eksploracyjnych”. Książka, napisana w 1977 r., Podkreśla metody papierowe / ołówkowe. Czy istnieje bardziej „nowoczesny” następca, który bierze pod uwagę, że możemy teraz błyskawicznie wykreślić duże zbiory danych?


czy powinna to być wiki społeczności?
richiemorrisroe

Nie jest dla mnie jasne, czy to powinien być CW. Nie może być dobrych odpowiedzi; może być jedna wyraźna zaległa odpowiedź; możemy wygenerować długą listę skutecznych odpowiedzi. Zobaczmy co się stanie.
whuber

4
To dobre pytanie, zamrażarka biologiczna. Chciałem tylko zauważyć, że istnieją ścisłe analogie do innych metod pracy. Moje ulubione to pióro i papier EDA to współczesne statystyki, podobnie jak narzędzia ręczne do nowoczesnej obróbki drewna. („Nowoczesna” obróbka drewna wykorzystuje wiele elektronarzędzi, takich jak piły stołowe i routery, które pozwalają nawet początkującym użytkownikom uzyskać zadowalające wyniki w znacznie krótszym czasie. Jednak narzędzia te odpowiadają również za tysiące brakujących cyfr i kończyn każdego roku. Ludzie, którzy uczą się obsługi narzędzi ręcznych ogólnie uczą się pracować lepiej i wydajniej, nawet jeśli używają elektronarzędzi.)
whuber

4
Tak, obróbka drewna jest dobrą analogią (brakujące cyfry, brakujące cyfry). Zobacz także software-carpentry.org .
den

Odpowiedzi:






4

Warto tutaj wspomnieć o eksploracji danych w inżynierii, naukach i medycynie Ronalda Pearsona . Wydaje się, że głównym celem czytelników są naukowcy, którzy nie boją się matematyki, którzy chcieliby wiedzieć więcej statystyk. To dość duża grupa i dobrze tu reprezentowana. Jest trochę dziwaczny i niecodzienny, ale obejmuje wiele gruntów i zawiera wiele rozsądnych rad. Nie jest ponownie odwiedzany przez Tukeya w tym sensie, że oferuje wiele nowych pomysłów, ale studiowanie może być satysfakcjonujące, nawet jeśli uważasz, że jest to trochę niewłaściwe.

Wydaje się, że ta książka przyciągnęła bardzo mało uwagi, być może dlatego, że jest bardzo droga, oczywiście nie nadaje się jako tekst kursu, a jak dotąd jest dostępna tylko w twardej oprawie. Ale jest inteligentny i czytelny i wolny od śmieci współczesnych podręczników wprowadzających (strony i strony podstawowych ćwiczeń, głupie ikony, bezpłatne zdjęcia szczęśliwych młodych ludzi, wybredny układ z pudełkami, cokolwiek, itp.).



0

Kolejnymi dobrymi książkami do przeczytania są Piękna wizualizacja i Piękne dane. Są to zredagowane książki, są zadziwiająco dobre przykłady eksploracji danych za pomocą wykresów i niektóre absolutnie przerażające rozdziały.

Kolejną książką, która ma kilka dobrych przykładów użycia ggplot2, jest nowa książka Winstona Changa


1
Chcę tylko dwukrotnie sprawdzić, Di, na wypadek, gdyby wkradła się subtelna literówka: czy może chciałeś napisać „pociągający” zamiast „przerażający”? Chociaż oba mają sens w tym kontekście, pojawienie się tego drugiego - bez dalszych wyjaśnień - jest raczej niespodzianką!
whuber

2
przerażające było poprawne - to mieszana torba - często wydawane są tomy
Dianne Cook

Jestem zaskoczony tymi zaleceniami. Obie książki były dla mnie najbardziej rozczarowujące (długo na guff, mało na grafice). Niestety O'Reilly, z którym po raz pierwszy spotkałem się jako wydawca spektakularnie dobrych książek uniksowych, wydaje się mieć bardzo nierównomierną kontrolę jakości książek na wszystko, nawet zdalnie statystycznych.
Nick Cox,

Lubię obie książki i naprawdę uważam, że stanowią one znaczący wkład. Winston Chang ma wiele podstawowych szczegółów na temat kreślenia z ggplot2. Jest to dobre odniesienie dla początkujących. Nie mówi ci wiele o tym, dlaczego miałbyś tworzyć te fabuły, ale większość ma sens w tym celu, z fragmentów, które przeczytałem. Piękna wizualizacja zawiera kilka bardzo imponujących rozdziałów, zajmujących się trudnymi problemami, takimi jak wizualizacja wikipedii, ogromnych danych, wielu złożoności, i przechodzi przez proces myślenia / decyzje podjęte w celu sporządzenia fabuły.
Dianne Cook

Na wszelki wypadek mój komentarz jest niejednoznaczny: miałem na myśli książki „Piękne”. Książka Winstona Changa jest miła i pomocna.
Nick Cox,

0

Myślę o zrozumieniu solidnej i eksploracyjnej analizy Hoaglina, Mostellera i Tukeya oraz towarzyszącego mu tomu dotyczącego eksploracji tabel i kształtów danych jako technicznej kontynuacji EDA. Widzę także analizę danych i regresję, drugi kurs statystyki Mostellera i Tukeya jako kontynuację EDA. Różne wyżej wymienione książki Cleveland to skarby.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.