Statystyczna intuicja / wyczucie danych


20

Jestem studentem drugiego roku, studiuję matematykę, i rozmawiałem z jednym z moich profesorów o różnicy między zdolnościami matematycznymi a zdolnościami statystycznymi. Jedną z kluczowych różnic, które poruszał, był „wyczucie danych”, które wyjaśnił jako połączenie zdolności technicznych podczas działania w ramach tego, co nieformalnie nazywam „ograniczeniami rozsądku”, tj. Nie tracąc z oczu rzeczywistości problemu pośród dużo teorii. Oto przykład tego, o czym mówiłem, który pojawił się na blogu Gowersa:

W kilku częściach Wielkiej Brytanii policja zgromadziła statystyki dotyczące tego, gdzie miały miejsce wypadki drogowe, zidentyfikowała czarne punkty, umieściła tam fotoradary i zebrała więcej statystyk. Zdecydowana tendencja do zmniejszenia liczby wypadków w tych czarnych punktach po zainstalowaniu fotoradarów. Czy to pokazuje jednoznacznie, że fotoradary zwiększają bezpieczeństwo na drodze?

Ta sama osoba, która opowiadała się za losową strategią w grze negocjacyjnej, w zasadzie znała już odpowiedź na to pytanie. Powiedział „nie”, ponieważ jeśli wybierzesz skrajne przypadki, możesz spodziewać się, że będą mniej ekstremalne, jeśli ponownie przeprowadzisz eksperyment. Postanowiłem szybko przejść od tego pytania, ponieważ nie było nic więcej do powiedzenia. Ale opowiedziałem ludziom o moim planie, który polegał na przeprowadzeniu fałszywego eksperymentu telepatycznego. Nakłoniłbym ich, aby odgadli wyniki 20 rzutów monetą, które spróbowałem wysłać im telepatycznie. Następnie wybrałem trzech najlepszych wykonawców i trzy najgorsze i ponownie rzuciłem monety, tym razem prosząc tych najlepszych, aby pomogli mi przekazać odpowiedzi na najgorsze. Ludzie mogli łatwo zobaczyć, że wyniki będą się poprawiać i że nie będzie to miało nic wspólnego z telepatią.

Pytam o to, jak dowiedzieć się więcej o tym „wyczuciu danych” , poprzez publikacje na ten temat, jeśli istnieją, lub przez to, co inni użytkownicy uznali za pomocni w rozwijaniu tej umiejętności. Przepraszam, jeśli to pytanie wymaga wyjaśnienia; jeśli tak, proszę zamieścić swoje pytania! Dzięki.


Jak leżeć ze statystykami to świetne miejsce na rozpoczęcie.
MånsT

Drunkard's Walk umieszcza również statystyki w dostępnej, zdrowej ramach.
Marcus Morrisey,

Odpowiedzi:


10

Najpierw powiedziałbym, że nie powinniśmy lekceważyć matematyki. Jest to ważne narzędzie w rozwoju teorii statystycznej, a metody statystyczne są uzasadnione teorią. Teoria mówi ci również, co jest nie tak i jakie techniki mogą być lepsze (np. Bardziej wydajne). Uważam więc, że wiedza matematyczna i myślenie są ważne (prawie konieczne), aby być dobrym statystykiem. Ale to zdecydowanie nie wystarczy. Myślę, że książki wymienione w komentarzach są dobre. Pozwól, że dam jeszcze kilka.

Sens danych: praktyczny przewodnik po analizie danych eksploracyjnych i eksploracji danych

Sense of Data II: Praktyczny przewodnik po wizualizacji danych, zaawansowanych metodach eksploracji danych i aplikacjach

Myślenie statystyczne: poprawa wydajności biznesowej

Rola statystyki w biznesie i przemyśle

Kariera w statystyce: poza liczbami

Książki Hahna i Snee są szczególnie cenne i interesujące, ponieważ są znanymi statystykami przemysłowymi z umiejętnościami matematycznymi i praktycznym doświadczeniem.


7
Dzięki za linki i komentarze. Myślę, że ogólnie odpowiedzi można poprawić, korzystając ze [manuscript title](uri) znacznika linku . Po długim dniu odkrywanie, że odpowiedzi z długimi hiperłączami mogą podświadomie denerwować, i niestety może zniechęcać czytelnika do skądinąd dobrej odpowiedzi.
jthetzel

@ jthetzel Rozumiem, dlaczego lepiej jest mieć nazwę zastępującą adres URL w linku. Kiedy będę miał czas, nauczę się to robić. Wiem, że to łatwe. Ale podałem trzy lub cztery linki. kliknięcie linku i zobaczenie, co to jest, nie zajmuje prawie czasu. więc tak naprawdę nie rozumiem, dlaczego tak wielu członków społeczności robi coś wielkiego.
Michael R. Chernick,

6

W przytoczonym przykładzie głównym problemem jest wnioskowanie przyczynowe. Dobrym miejscem do rozpoczęcia wnioskowania przyczynowego jest ta recenzja potrójnej książki Andrew Gelmana i recenzowane w niej książki. Oprócz poznania wnioskowania przyczynowego należy dowiedzieć się o wartości analizy danych eksploracyjnych, opisu i prognoz.

Nauczyłem się niesamowitej ilości, słysząc, jak naukowcy społeczni krytykują swoje badania w publikowanych pracach, blogach , seminariach i osobistych rozmowach - istnieje wiele sposobów uczenia się. Obserwuj tę stronę i blog Andrew Gelmana.

Oczywiście, jeśli chcesz wyczuwać dane, potrzebujesz praktyki w pracy z prawdziwymi danymi. Istnieją ogólne umiejętności rozpoznawania danych, ale istnieje również wyczucie danych, które jest specyficzne dla obszaru problemu, a nawet bardziej szczegółowo, wyczucie danych specyficzne dla określonego zestawu danych.


5

Ładnym, bezpłatnym zasobem jest Wiki Chance News . Zawiera wiele przykładów zaczerpniętych z prawdziwych przykładów oraz omówienie dobrych i złych punktów w interpretacji danych i statystyk przez ludzi. Często pojawiają się również pytania do dyskusji (motywacją dla wzroku jest podanie nauczycielom statystyki prawdziwych przykładów do dyskusji z uczniami).


5

+1 za świetne pytanie! (I +1 do wszystkich dotychczas odpowiadających.)

Wydaje mi się, że bardzo dużo jest czegoś takiego jak wykrywanie danych, ale nie sądzę, żeby było w tym coś mistycznego. Chciałbym użyć analogii do prowadzenia samochodu. Jadąc drogą, wiesz, co się dzieje z innymi samochodami. Na przykład wiesz, że facet przed tobą z boku szuka znaku ulicy, w którym powinien skręcić, nawet jeśli nie używa swojego kierunkowskazu. Automatycznie identyfikujesz powolnego, nadmiernie ostrożnego kierowcę i przewidujesz, jak zareagują w różnych sytuacjach. Możesz dostrzec nastolatka, który po prostu chce ścigać się tak szybko, jak tylko może. Masz wyczucie, co robią wszystkie samochody. Jest to dokładnie to samo, co wykrywanie danych. Wiele wynika z doświadczeniadoświadczenia. Jeśli znasz wystarczającą teorię, musisz po prostu zacząć grać z prawdziwymi zestawami danych. Możesz być zainteresowany odkrywaniem strony takiej jak DASL . Jednym warunkiem jest jednak to, że nie powinieneś po prostu zdobywać doświadczenia w ładowaniu zestawu danych, przeprowadzaniu testu i uzyskiwaniu wartości p. Będziesz musiał zbadać dane, prawdopodobnie wykreślić je na różne sposoby, dopasować niektóre modele i pomyśleć o tym, co się dzieje. (Zwróć uwagę, że EDA była tutaj wspólnym tematem.)

Jednym z prawdopodobnie nieoczywistych faktów na temat tego procesu jest to, że wykrywanie danych może być zlokalizowane w danym obszarze tematycznym. Na przykład możesz mieć duże doświadczenie w pracy z danymi eksperymentalnymi i ANOVA, ale niekoniecznie dobrze rozumiesz, co się dzieje, gdy patrzysz na dane szeregów czasowych lub dane dotyczące przeżycia.

Pozwolę sobie dodać jeszcze jedną strategię, która okazała się niezwykle pomocna: Myślę, że warto poświęcić czas na naukę programowania (statystycznego). Nie musisz być w tym wyjątkowo dobry (jestem znany z pisania kodu „komicznie nieefektywnego”). Jednak po napisaniu podstawowego kodu proceduralnego (powiedzmy w R) możesz przeprowadzić symulację . Trudno byłoby mi przecenić, jak bardzo pomaga przeprowadzanie nawet bardzo prostych symulacji. Jedną z rzeczy, z których możesz skorzystać, jest to, że w trakcie studiów czytasz o pewnej nieruchomości, którą możesz odkryć. Na przykład, jeśli wiesz (abstrakcyjnie), że trudno jest empirycznie ustalić, czy model logit czy probit jest lepszy dla zestawu danych, możesz zakodować proste symulacje tegoi baw się z nimi, aby lepiej zrozumieć ten pomysł. Zapewni to również doświadczenie, ale nieco innego rodzaju, a także pomoże rozwinąć wyczucie danych.


+1 Za podkreślenie wartości uczenia się z symulacji.
whuber
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.