(Bardzo) krótka historia
Krótko mówiąc, w pewnym sensie statystyki są jak każda inna dziedzina techniki: nie ma szybkiej ścieżki .
Długa historia
Studia licencjackie w dziedzinie statystyki są stosunkowo rzadkie w Stanach Zjednoczonych. Jednym z powodów, dla których uważam, że to prawda, jest to, że dość trudno jest spakować wszystko, co jest konieczne, aby uczyć się statystyki dobrze w programie studiów licencjackich. Dotyczy to szczególnie uniwersytetów, które mają istotne wymagania w zakresie kształcenia ogólnego.
Rozwijanie niezbędnych umiejętności (matematycznych, obliczeniowych i intuicyjnych) wymaga dużo wysiłku i czasu. Statystyki można zacząć rozumieć na dość przyzwoitym poziomie „operacyjnym”, gdy uczeń opanuje rachunek różniczkowy i przyzwoitą ilość algebry liniowej i macierzowej. Jednak każdy zastosowany statystyk wie, że dość łatwo jest znaleźć się na terytorium, które nie jest zgodne z programem do cięcia plików cookie lub opartym na przepisach podejściem do statystyki. Prawdziwe zrozumienie tego, co dzieje się pod powierzchnią, wymaga jako warunek wstępnydojrzałość matematyczna i, w dzisiejszym świecie, obliczeniowa dojrzałość, które są naprawdę osiągalne dopiero w późniejszych latach kształcenia na poziomie licencjackim. Jest to jeden z powodów, dla których prawdziwe szkolenie statystyczne rozpoczyna się głównie na poziomie stwardnienia rozsianego w USA (Indie, z ich dedykowanym ISI to trochę inna historia. Podobny argument można wysunąć na temat edukacji opartej na Kanadzie. Nie jestem wystarczająco zaznajomiony z Edukacja statystyczna licencjackich szkół europejskich lub rosyjskich w celu uzyskania świadomej opinii).
Prawie każda (interesująca) praca wymagałaby wykształcenia na poziomie MS, a naprawdę interesujące (moim zdaniem) prace zasadniczo wymagają wykształcenia na poziomie doktora.
Ponieważ masz doktorat z matematyki, choć nie wiemy w jakiej dziedzinie, oto moje sugestie dotyczące czegoś bliższego edukacji na poziomie stwardnienia rozsianego. Dołączam uwagi w nawiasach, aby wyjaśnić wybór.
- D. Huff, Jak kłamać ze statystykami . (Bardzo szybki, łatwy do odczytania. Pokazuje wiele pojęć koncepcyjnych i pułapek, w szczególności przy przedstawianiu statystyk laikowi.)
- Mood, Graybill i Boes, Introduction to Theory of Statistics , 3rd ed., 1974. (Wprowadzenie do statystyki teoretycznej na poziomie MS. Dowiesz się o rozkładach próbkowania, estymacji punktowej i testowaniu hipotez w klasycznym, częstym systemie. Mój opinia jest taka, że jest to na ogół lepsze i nieco bardziej zaawansowane niż współczesne odpowiedniki, takie jak Casella i Berger lub Rice.)
- Seber & Lee, Linear Regression Analysis , 2. wyd. (Przedstawia teorię estymacji punktów i testowania hipotez dla modeli liniowych, co jest prawdopodobnie najważniejszym tematem do zrozumienia w zastosowanych statystykach. Ponieważ prawdopodobnie masz dobre tło algebry liniowej, powinieneś być w stanie natychmiast zrozumieć, co dzieje się geometrycznie , który zapewnia wiele intuicji. Ma również dobre informacje związane z kwestiami oceny w wyborze modelu, odstępstw od założeń, prognoz i solidnych wersji modeli liniowych).
- Hastie, Tibshirani i Friedman, Elements of Statistics Learning , 2nd ed., 2009. (Ta książka ma znacznie bardziej praktyczne zastosowanie niż poprzednia i ogólnie obejmuje wiele współczesnych tematów uczenia maszynowego. Główny wkład ma tutaj zapewnienie interpretacji statystycznych wielu pomysłów na uczenie maszynowe, które opłaca się w szczególności w obliczaniu niepewności w takich modelach. Jest to coś, co zwykle nie jest omawiane w typowych książkach o uczeniu maszynowym. Tutaj legalnie dostępne za darmo .)
- A. Agresti, Categorical Data Analysis , wyd. 2 (Dobra prezentacja sposobu postępowania z dyskretnymi danymi w ramach statystycznych. Dobra teoria i dobre przykłady praktyczne. Być może pod pewnymi względami tradycyjna.)
- Boyd i Vandenberghe, Optymalizacja wypukła . (Wiele najpopularniejszych współczesnych problemów z estymacją statystyczną i testowaniem hipotez można sformułować jako wypukłe problemy z optymalizacją. Dotyczy to również wielu technik uczenia maszynowego, np. Maszyn wirtualnych. Mając szersze zrozumienie i zdolność rozpoznawania takich problemów, jak programy wypukłe wydaje mi się, że jest bardzo cenny. Tutaj legalnie dostępny za darmo .)
- Efron i Tibshirani, Wprowadzenie do paska startowego . (Powinieneś przynajmniej znać pasek startowy i powiązane techniki. W przypadku podręcznika jest to szybki i łatwy do przeczytania).
- J. Liu, Monte Carlo Strategies in Scientific Computing lub P. Glasserman, Monte Carlo Methods in Financial Engineering . (To ostatnie wydaje się być bardzo ukierunkowane na konkretny obszar zastosowań, ale myślę, że da dobry przegląd i praktyczne przykłady wszystkich najważniejszych technik. Zastosowania inżynierii finansowej doprowadziły do sporej liczby badań Monte Carlo w ciągu ostatniej dekady .)
- E. Tufte, Wizualne wyświetlanie informacji ilościowych . (Dobra wizualizacja i prezentacja danych jest [wysoce] niedoceniana, nawet przez statystyk.)
- J. Tukey, Analiza danych eksploracyjnych . (Standardowo. Staruszek, ale skarbie. Niektórzy mogą powiedzieć, że są przestarzałe, ale nadal warto na nie spojrzeć.)
Uzupełnienia
Oto kilka innych książek, w większości nieco bardziej zaawansowanych, teoretycznych i / lub pomocniczych, które są pomocne.
- FA Graybill, teoria i zastosowanie modelu liniowego . (Staroświecki, straszny skład, ale obejmuje cały ten sam teren Seber & Lee itp.) Mówię staroświecki, ponieważ bardziej nowoczesne metody leczenia prawdopodobnie wykorzystywałyby SVD do ujednolicenia i uproszczenia wielu technik i dowodów.)
- FA Graybill, Matryce z aplikacjami w statystyce . (Tekst dodatkowy do powyższego. Bogactwo dobrych wyników algebry macierzowej przydatnych tutaj w statystykach. Świetne źródło informacji).
- Devroye, Gyorfi i Lugosi, Probabilistyczna teoria rozpoznawania wzorów . (Rygorystyczny i teoretyczny tekst na temat kwantyfikacji wydajności w problemach klasyfikacyjnych.)
- Brockwell i Davis, Szeregi czasowe: teoria i metody . (Klasyczna analiza szeregów czasowych. Traktowanie teoretyczne. W przypadku bardziej zastosowanych teksty Box, Jenkins i Reinsel lub Ruey Tsay są przyzwoite.)
- Motwani i Raghavan, Randomized Algorytmy . (Metody probabilistyczne i analiza dla algorytmów obliczeniowych.)
- D. Williams, Prawdopodobieństwo i Martingales i / lub R. Durrett, Prawdopodobieństwo: teoria i przykłady . (W przypadku, gdy widziałeś teorię miary, powiedzmy, na poziomie DL Cohna, ale może nie teorię prawdopodobieństwa. Oba są dobre do szybkiego przyspieszenia, jeśli już znasz teorię miary.)
- F. Harrell, Strategie modelowania regresji . (Nie tak dobry jak elementy uczenia statystycznego [ESL], ale ma inne i interesujące podejście. Obejmuje bardziej „tradycyjne” tematy statystyki stosowanej niż ESL i na pewno warto o tym wiedzieć).
Bardziej zaawansowane teksty (na poziomie doktoratu)
Lehmann i Casella, Theory of Point Estimation . (Traktowanie estymacji punktów na poziomie doktora. Częścią wyzwania tej książki jest przeczytanie jej i ustalenie, co jest literówką, a co nie. Gdy zobaczysz, jak szybko je rozpoznajesz, zrozumiesz, że rozumiesz. Jest mnóstwo praktyki tego typu tam, szczególnie jeśli nurkujesz w problemach).
Lehmann i Romano, Testowanie hipotez statystycznych . (Leczenie testowania hipotez na poziomie doktora. Nie tak wiele literówek jak TPE powyżej.)
A. van der Vaart, Statystyka asymetryczna . (Piękna książka o asymptotycznej teorii statystyki z dobrymi wskazówkami na temat obszarów zastosowania. Nie jest to jednak książka stosowana. Moją jedyną sprzeczką jest to, że używa się dość dziwnej notacji, a szczegóły są czasami szczotkowane pod dywan.)