Czego się nauczyć po Caselli i Berger?


22

Jestem studentem matematyki z niewielkim doświadczeniem w matematyce stosowanej. Od ostatniej jesieni chodzę na zajęcia z książki Caselli i Bergera i ukończyłem setki (230+) stron z problemami z ćwiczeniami w książce. W tej chwili jestem w rozdziale 10.

Ponieważ jednak nie studiowałem statystyki ani nie planowałem być statystykiem, nie sądzę, że będę w stanie regularnie inwestować czas, aby kontynuować naukę analizy danych. Moje dotychczasowe doświadczenie mówi mi, że aby być statystykiem, trzeba znosić wiele żmudnych obliczeń obejmujących różne rozkłady (Weibull, Cauchy, , ...). Przekonałem się, że choć podstawowe idee są proste, wdrożenie (na przykład LRT w testowaniu hipotez) wciąż może być trudne ze względu na szczegóły techniczne.tfa

Czy moje rozumowanie jest prawidłowe? Czy jest jakiś sposób, aby nauczyć się prawdopodobieństwa i statystyki, która nie tylko obejmuje bardziej zaawansowany materiał, ale może również pomóc w przypadku, gdy potrzebuję analizy danych w prawdziwym życiu? Będę musiał spędzić 20 godzin tygodniowo na nim jak kiedyś?

Chociaż wierzę, że nie ma królewskiej drogi w nauce matematyki, często nie mogę przestać się zastanawiać - przez większość czasu nie wiemy, jaki jest rozkład rzeczywistych danych, więc jaki jest cel, aby skupić się wyłącznie na różnych rodzinach dystrybucji ? Jeśli wielkość próby jest niewielka i nie ma zastosowania centralne twierdzenie graniczne, jak możemy właściwie analizować dane oprócz średniej próby i wariancji, jeśli rozkład jest nieznany?

Mój semestr zakończy się za miesiąc i nie chcę, aby moja wiedza wyparowała po tym, jak zacznę koncentrować się na badaniach doktoranckich. Więc postanowiłem zapytać. Uczę się języka R i mam pewne doświadczenie w programowaniu, ale mój poziom jest mniej więcej taki sam jak małpa kodowa.

Odpowiedzi:


24

Nie sądzę, że będę w stanie regularnie inwestować w naukę analizy danych

Nie sądzę, że Casella i Berger to miejsce, w którym można dużo nauczyć się analizy danych . To miejsce do nauki niektórych narzędzi teorii statystycznej.

Moje dotychczasowe doświadczenie, które mówi mi, że jestem statystą, wymaga znużenia obliczeń obejmujących różne dystrybucje (Weibull, Cauchy, t, F ...).

Spędziłem dużo czasu jako statystyk przeprowadzając analizę danych. Rzadko (prawie nigdy) wymaga to ode mnie żmudnych obliczeń. Czasami wymaga trochę prostej algebry, ale typowe problemy są zwykle rozwiązywane i nie muszę poświęcać żadnego wysiłku na ich powtarzanie za każdym razem.

Komputer wykonuje wszystkie żmudne obliczenia.

Jeśli jestem w sytuacji, w której nie jestem przygotowany na przyjęcie rozsądnego standardowego przypadku (np. Nie jestem przygotowany do użycia GLM), ogólnie nie mam wystarczających informacji, aby założyć inny rozkład, więc pytanie o obliczenia w LRT jest zwykle dyskusyjny (mogę to zrobić, kiedy trzeba), albo albo są już rozwiązane, albo pojawiają się tak rzadko, że jest to interesująca dywersja).

Często wykonuję wiele symulacji; Często też próbuję zastosować resampling w jakiejś formie, obok lub zamiast założeń parametrycznych.

Czy będę musiał wydać na to ponad 20 godzin tygodniowo, tak jak kiedyś?

To zależy od tego, co chcesz robić i od tego, jak szybko chcesz być w tym dobry.

Analiza danych to umiejętność, która wymaga praktyki i dużej bazy wiedzy. Będziesz miał trochę wiedzy, której potrzebujesz.

Jeśli chcesz być dobrym praktykiem w wielu różnych sprawach, zajmie to dużo czasu - ale moim zdaniem jest to o wiele więcej zabawy niż algebry i wykonywania ćwiczeń Caselli i Bergera.

Powiedzmy, że niektóre umiejętności, które zbudowałem na podstawie problemów regresji, są pomocne w szeregach czasowych, ale potrzeba wielu nowych umiejętności. Nauka interpretacji wykresów rezydualnych i QQ jest przydatna, ale nie mówią mi, jak bardzo muszę się martwić o niewielką nierówność wykresu PACF i nie dają mi narzędzi takich jak przewidywanie o jeden krok do przodu błędy.

Na przykład nie muszę poświęcać wysiłku na zastanawianie się, jak zrobić rozsądnie ML dla typowych modeli gamma lub Weibull , ponieważ są one wystarczająco standardowe, aby rozwiązać problemy, które zostały już w dużej mierze dostosowane do dogodnej formy.

Jeśli przyjeżdżasz na badania , potrzebujesz znacznie więcej umiejętności, które zdobywasz w miejscach takich jak Casella i Berger (ale nawet przy takich umiejętnościach powinieneś także przeczytać więcej niż jedną książkę).


Niektóre sugerowane rzeczy:

Zdecydowanie powinieneś rozwinąć umiejętności regresji, nawet jeśli nie robisz nic więcej.

Istnieje wiele całkiem dobrych książek, ale być może Draper & Smith Applied Regression Analysis oraz Fox i Weisberg An R Companion to Applied Regression ; Sugeruję również, aby rozważyć zastosowanie Strategii modelowania regresji Harrella

(Możesz zastąpić dowolną liczbę dobrych książek Draper i Smith - znajdź jedną lub dwie, które Ci odpowiadają.)

Druga książka zawiera wiele dodatkowych rozdziałów online, które są bardzo warte przeczytania (i własny pakiet R)

-

Dobrym druga porcja byłoby Venables & Ripley'a Nowoczesne Applied Statystyki z S .

To jest pewne uzasadnienie w dość szerokiej gamie pomysłów.

Może się okazać, że potrzebujesz pewnych podstawowych materiałów na niektóre tematy (nie znam twojego pochodzenia).

Następnie powinieneś zacząć zastanawiać się, jakich obszarów statystyki potrzebujesz / potrzebujesz - statystyki bayesowskie, szeregi czasowe, analiza wielowymiarowa itp.


6

Moja rada, pochodząca z przeciwnej perspektywy (doktorant Stats), to przejrzenie podręcznika regresji. Wydaje się to naturalnym punktem wyjścia dla kogoś, kto ma solidne podstawy teoretyczne bez żadnego stosowanego doświadczenia. Wiem, że wielu doktorantów spoza naszego wydziału rozpoczyna kurs regresji.

Dobrym przykładem jest stosowana regresja liniowa Sanforda Weisberga . Wierzę, że jest w czwartej wersji. Prawdopodobnie można znaleźć stosunkowo tanie starsze wersje.

http://users.stat.umn.edu/~sandy/alr4ed/

Jedną fajną rzeczą w tym podręczniku, szczególnie biorąc pod uwagę twój względny brak doświadczenia z R, jest starter R dostępny poprzez powyższy link. Zapewnia wystarczającą instrukcję do odtworzenia wszystkiego, co zrobiono w książce. W ten sposób możesz faktycznie nauczyć się regresji (oprócz niektórych podstaw GLM), bez konieczności powstrzymywania się przed brakiem programowania w języku R (prawdopodobnie po drodze poznasz wiele podstaw R).

Jeśli chcesz kompleksowego wprowadzenia do R, lepiej jest przejrzeć Foxa i Weisberga An R Companion for Applied Regression , ale wygląda na to, że wolisz uczyć się statystyki niż programowania (jeśli o tych dwóch kwestiach można pomyśleć osobno).

Jeśli chodzi o poświęcenie czasu, tak naprawdę nie sądzę, byś uznał ten podręcznik lub materiał za zbyt trudny. W przeciwieństwie do Caselli-Berger, dowodów i pochodnych nie będzie wiele. Ogólnie jest to dość proste.

Nawiasem mówiąc, wydaje się, że istnieją rozwiązania, które krążą w Internecie (lub były w pewnym momencie), więc możesz próbować rozwiązywać problemy, sprawdzać rozwiązania i pewną prędkość poruszać się po książce.


4

Staram się na okrągło być statystą, ale przede wszystkim jestem psychologiem, który akurat ma jakieś zainteresowania ilościowe i metodologiczne. Aby właściwie wykonywać pracę psychometryczną, studiowałem zaawansowane (dla psychologa) metody, których nie marzyłbym o obliczaniu ręcznym (a co dopiero, gdybym wiedział). Byłem zaskoczony, jak dostępne i wygodne stały się te metody dzięki wysiłkom programistów pakietu R w ciągu ostatniej dekady. Przeprowadzam analizę z życia za pomocą nowych metod, których nauczyłem się używać w czasie krótszym niż 20 godzin na metodę ... Mogę poświęcić tyle czasu na nową metodę, zanim będę gotowy opublikować wynik korzystania z niego, ale z pewnością nie ma potrzeby wykonywania pracy w niepełnym wymiarze godzin, aby studiować, aby robić postępy tak jak ja. Rób, co możesz, kiedy znajdziesz na to czas; to nie jest pogoń za „wszystko albo nic”, jeśli nie jest to konieczne.

Z pewnością nie skupiłem się wyłącznie na żadnym temacie, nie mówiąc już o rodzinach dystrybucji; Wątpię, aby każdy statystyk uczciwy wobec dobroci uczył się tak wąsko. W ciągu ostatniego tygodnia kilkakrotnie zajmowałem się teoretycznymi dystrybucjami przez godzinę dziennie; to było wiele, aby okazać się przydatne w aplikacjach danych rzeczywistych. O ile wiem, pomysł nie polega na ścisłym klasyfikowaniu dystrybucji; rozpoznaje kształty rozkładu, które przypominają teorie, i wykorzystuje je do podjęcia decyzji w sprawie odpowiednich analiz i zrozumienia podstawowej dynamiki. Podzieliłem się podobnymi przemyśleniami na temat mojej ostatniej odpowiedzi na „ Czy lepiej jest wybrać rozkłady oparte na teorii, dopasowaniu czy czymś innym?

Nie powiedziałeś, jaką analizę chcesz przeprowadzić w tym, co zakładam, twoim hipotetycznym najgorszym scenariuszu, ale istnieją sposoby na zbadanie wrażliwości każdej analizy na błąd próbkowania. Jeśli CLT nie ma zastosowania, nadal istnieje kilka pytań statystycznych, które możesz zadać, jeśli wiesz jak. Metody nieparametryczne na ogół przyjmują bardzo ograniczone założenia dotyczące rozkładów, więc wcześniejsza znajomość kształtu rozkładu populacji niekoniecznie stanowi poważny problem.

Wiedza w ogóle nie wyparowuje tak szybko ani całkowicie, ale jeśli jej nie użyjesz, trudniej będzie ci ją swobodnie przywoływać. Znacznie dłużej zyskasz przewagę rozpoznawczą, co może się przydać, jeśli będziesz musiał studiować tematy, które studiowałeś kilka lat wcześniej ... ale jeśli chcesz zachować biegłość w tym, czego się nauczyłeś, nie przestawaj go używać i kontynuuj naukę! R jest zdecydowanie dobrym miejscem do zainwestowania dowolnego wolnego czasu na naukę. Powinien również pomóc w czystej matematyce: zobacz inną z moich ostatnich odpowiedzi na „ Najlepsze oprogramowanie do wizualizacji danych open source do użycia z programem PowerPoint ”.


3

Natknąłem się na to w 2019 roku. Moje dwa centy.

Jestem profesorem statystyki z tendencją do przeprowadzania różnego rodzaju analiz danych (dlatego wybrałem statystyki!). Aby zdobyć praktyczną wiedzę, polecam Jamesowi, Witten, Hastie i Tibshirani „Wprowadzenie do nauki statystycznej”. Na tej podstawie mają nawet MOOC. Książka wykorzystuje wiele przykładów „rzeczywistych danych”, a także jest oparta na języku R.


Czy masz coś do zaproponowania poza „elementami statystycznego uczenia się”? Myślę, że znam teraz (podstawowe części) książkę.
Bombyx mori

2

Odpowiedzi dla innych, którzy później odpowiedzą na to pytanie…


analiza danych rzeczywistych

Naucz się baz danych (SQL), dplyr / pandas, narzędzi unixowych (sed, grep), skrobania, skryptowania, czyszczenia danych i testowania oprogramowania. Różne wyspecjalizowane dystrybucje mają niewielką wartość w przemyśle.

Zastosowana książka regresyjna, jak Angrist i Pischke, Faraway lub Weisberg, będzie bardziej praktycznym rodzajem teorii.

przez większość czasu nie wiemy, czym jest dystrybucja rzeczywistych danych, więc jaki jest cel, aby skupić się wyłącznie na różnych rodzinach dystrybucji

Stąd zainteresowanie statystyką nieparametryczną. Ale jednocześnie nieparametryczny bez żadnych założeń jest zbyt luźny. Aby odpowiedzieć na twoje pytanie, wyspecjalizowane rodziny mogą być traktowane jako odpowiedzi na proste pytania, na które możesz się natknąć. Na przykład myślę o Gaussie jako o „gładkim” oszacowaniu punktowym. Poisson odpowiada na kolejne proste pytanie. Kiedy ludzie budują modele matematyczne, te specjalne mogą być użytecznymi punktami podparcia. (Ale naukowcy często podejmują poszukiwania dystrybucji głównej w niewłaściwy sposób).

OP: Mam nadzieję, że dobrze się bawiłeś z badaniami doktoranckimi!

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.