Sens teorii i aplikacji statystycznych


13

Niedawno ukończyłem studia magisterskie z zakresu modelowania medycznego i biologicznego wraz z matematyką inżynierską jako tłem. Mimo że mój program edukacyjny obejmował znaczną liczbę kursów statystyki matematycznej (lista poniżej), którymi zarządzałem z dość wysokimi ocenami, często kończyłem się całkowitym zagubieniem się zarówno w teorii, jak i zastosowaniach statystyki. Muszę powiedzieć, że w porównaniu do „czystej” matematyki statystyki naprawdę nie mają dla mnie sensu. Zwłaszcza notacje i język używany przez większość statystyków (w tym moich poprzednich wykładowców) jest denerwująco zawiłe i prawie żaden z zasobów, które do tej pory widziałem (w tym wikipedia) nie zawierał prostych przykładów, z którymi można łatwo się powiązać i powiązać z podaną teorią. ..

To jest tło; Zdaję sobie również sprawę z gorzkiej rzeczywistości, że nie mogę pracować jako badacz / inżynier bez ścisłego opanowania statystyki, szczególnie w dziedzinie bioinformatyki.

Miałem nadzieję, że uda mi się uzyskać wskazówki od bardziej doświadczonych statystyk / matematyków. Jak mogę rozwiązać problem, o którym wspomniałem powyżej? Czy znasz jakieś dobre zasoby; takie jak książki, e-książki, otwarte kursy (np. iTunes lub OpenCourseware) itp.

EDYCJA: Jak już wspomniałem, jestem dość stronniczy (negatywnie) w stosunku do większości literatury pod ogólnym tytułem statystyki, a ponieważ nie mogę kupić wielu dużych (i drogich) podręczników na gałąź statystyki, czego potrzebowałbym pod względem książki jest czymś podobnym do tego, czym Tipler & Mosca jest dla fizyki, ale zamiast tego dla statystyk.

Dla tych, którzy nie wiedzą o Tiplerze; jest to duży podręcznik, który obejmuje większość tematów, które można napotkać podczas wyższych studiów, i przedstawia je każdy od podstawowego wprowadzenia do nieco głębszego w szczegółach. Zasadniczo idealna książka referencyjna, kupiona podczas pierwszego roku studiów, wciąż z niej korzystam.


Kursy, które wziąłem na temat statystyki:

  • duży kurs wprowadzający,
  • stacjonarne procesy stochastyczne,
  • Procesy Markowa,
  • Metody Monte Carlo
  • Analiza przeżycia

Odpowiedzi:


4

Mogę całkowicie zrozumieć twoją sytuację. Mimo że jestem doktorantem, czasami trudno mi powiązać teorię i zastosowanie. Jeśli chcesz zanurzyć się w zrozumieniu teorii, jest to zdecydowanie satysfakcjonujące, gdy myślisz o problemach ze światem rzeczywistym. Ale proces ten może być frustrujący.

Jednym z wielu odniesień, które lubię, jest analiza danych Gelmana i Hilla przy użyciu modeli hierarchicznych / wielopoziomowych . Unikają teorii, w której mogą wyrażać podstawową koncepcję za pomocą symulacji. Z pewnością przyniesie ci to korzyści, ponieważ masz doświadczenie w MCMC itp. Jak mówisz, pracujesz w bioinformatyce, prawdopodobnie strategie modelowania regresji Harrella są również świetnym odniesieniem.

Uczynię to społecznością wiki i pozwolę innym się do niej dodawać.


Dziękuję za uwagę w tej sprawie. Miło jest widzieć, że nie jestem jedynym, który wprawia mnie w zamieszanie. To powiedziawszy, myślę, że przeceniłeś moją sytuację; podczas gdy wziąłem udział w wielu kursach i znam istnienie wielu różnych metod analizy statystycznej; nigdy nie zostają ze mną po kursach. Kilka miesięcy po egzaminach zastanawiam się; „Gdzieś to widziałem / słyszałem, ale jak to naprawdę działa?” To mi sugeruje, że muszę to wszystko zniszczyć i zacząć budować na mocniejszym fundamencie.
posdef

Dodałbym głośne „zgodzić się” na tekst Harrella (pisownia notatek). Jest doskonały, podobnie jak towarzysząca mu dwupakowa kombinacja kodu R. Myślę też, że „Modern Applied Statistics with S” Venables i Ripley byłoby dobrym nabytkiem. Miałem doświadczenie na poziomie magisterskim (z dyplomem z fizyki) przed użyciem MASY do nauki R. W tym tekście jest bogactwo mądrości aplikacyjnej.
DW

Książka regresji Gelmana jest cudowna, wyjaśnia wszystko bardzo dobrze i zapewnia kod R, który jest naprawdę przydatny, aby sprawdzić twoje rozumienie materiału.
richiemorrisroe

2

Czy znasz Bayesian Data Analysis (autorstwa Gelmana, Carlina, Sterna i Rubina)? Może tego potrzebujesz.


2

Wszystkie problemy ze statystykami zasadniczo sprowadzają się do następujących 4 kroków (które pożyczyłem od @whuber odpowiedzi na inne pytanie ):

  1. Oszacuj parametr.

  2. Oceń jakość tego oszacowania.

  3. Przeglądaj dane.

  4. Oceń dopasowanie.

Możesz zamienić parametr słowa na model słowa .

Książki statystyczne zwykle przedstawiają pierwsze dwa punkty dla różnych sytuacji. Problem polega na tym, że każda aplikacja w świecie rzeczywistym wymaga innego podejścia, a więc innego modelu, dlatego duża część książek kończy się katalogowaniem tych różnych modeli. Ma to niepożądany efekt, że łatwo zatracić się w szczegółach i przegapić duży obraz.

Wielką książką obrazkową, którą szczerze polecam, są statystyki asymptotyczne . Daje rygorystyczne podejście do tematu i jest matematycznie „czysty”. Choć w tytule wspomniano o statystykach asymptotycznych, wielką nieopowiedzianą tajemnicą jest to, że większość klasycznych metod statystycznych opiera się w zasadzie na wynikach asymptotycznych.


2

Myślę, że najważniejsze jest tutaj rozwinięcie intuicji na temat statystyki i niektórych ogólnych pojęć statystycznych. Być może najlepszym sposobem na to jest posiadanie domeny, którą możesz „posiadać”. Może to zapewnić pozytywną pętlę zwrotną, gdy zrozumienie domeny pozwoli lepiej zrozumieć podstawowe statystyki, co pomoże lepiej zrozumieć domenę itp.

Dla mnie tą domeną były statystyki baseballowe. Zrozumiałem, że pałkarz, który otrzymuje 3 za 4 w grze, nie jest „prawdziwym” uderzeniem .750. Pomaga to zrozumieć bardziej ogólny punkt, w którym przykładowe dane nie są takie same jak podstawowy rozkład. Wiem też, że prawdopodobnie jest bliższy przeciętnemu graczowi niż hitterowi .750, więc pomaga to zrozumieć pojęcia takie jak regresja do średniej. Stamtąd mogę przejść do pełnego wnioskowania bayesowskiego, w którym mój wcześniejszy rozkład prawdopodobieństwa miał średnią wartość średniego gracza w baseball, a teraz mam 4 nowe próbki, za pomocą których mogę zaktualizować mój rozkład późniejszy.

Nie wiem, czym jest ta domena, ale wydaje mi się, że byłaby bardziej pomocna niż zwykły podręcznik. Przykłady pomagają zrozumieć teorię, która pomaga zrozumieć przykłady. Podręcznik z przykładami jest fajny, ale jeśli nie możesz zrobić tych przykładów „swoimi”, to zastanawiam się, czy dostaniesz od nich wystarczająco dużo.



1

Każdy uczy się inaczej, ale myślę, że bezpiecznie jest powiedzieć, że przykłady, przykłady, przykłady bardzo pomagają w statystykach. Moją propozycją byłoby nauczyć się języka R (wystarczy podstawa, aby bardzo pomóc), a następnie możesz wypróbować każdy przykład, aż oczy zaczną krwawić. Możesz to posortować, dopasować, wykreślić, nazwać. A ponieważ R jest nastawiony na statystyki, w miarę jak uczysz się R, będziesz uczył się statystyki. Te książki, które wymieniłeś, mogą zostać zaatakowane z „pokaż mi”.

Ponieważ R jest bezpłatny, a wiele materiałów źródłowych jest darmowe, wystarczy zainwestować swój czas.

http://www.mayin.org/ajayshah/KB/R/index.html

http://math.illinoisstate.edu/dhkim/rstuff/rtutor.html

http://www.cyclismo.org/tutorial/R/

http://www.stat.pitt.edu/stoffer/tsa2/R_time_series_quick_fix.htm

http://www.statmethods.net/about/books.html

Istnieje wiele dobrych książek na temat R, które można kupić, oto jedna, z której korzystałem:

http://www.amazon.com/Introductory-Statistics-R-Peter-Dalgaard/dp/0387954759

Edytuj ============

Zapomniałem dodać kilka linków. Jeśli korzystasz z systemu Windows, dobrym edytorem do zasilania R jest Tinn-R (ktoś inny może dodawać linki do edytorów na Macu lub Linuksie).

http://www.sciviews.org/Tinn-R/

http://cran.r-project.org/web/packages/TinnR/


dzięki za linki, postaram się je przejrzeć w miarę możliwości w nadchodzących tygodniach ... Już raz byłem narażony na R, w kursie analizy przeżycia, w którym przeprowadziliśmy wiele regresji wielowymiarowej (Cox i Aelen modele) i wiele innych rzeczy, których tak naprawdę nie pamiętam. Moje wrażenie R jako osoby, która bardzo przyzwyczaiła się do MATLAB-a, było dość negatywne, ale zrobiłem to wiele z tego, że byliśmy mniej więcej wrzuceni do głębokiego końca basenu, a potem oczekiwaliśmy, że nauczymy się pływamy na własną rękę, co oczywiście doprowadziło mnie do nienawiści oprogramowania od tego czasu :) Czas to zmienić
posdef

1

Osobiście podobało mi się to, które miało naprawdę dobre połączenie teorii i zastosowania (z wieloma przykładami). To było dobre połączenie z casella i berger dla bardziej teoretycznego podejścia. I dla szerokiego przeglądu tego pędzla .


Obie książki wydają się mieć dobre recenzje na Amazon, czy ktoś może dodać na ich temat jakieś opinie (być może bardziej szczegółowe)? btw; przez casella & berger masz na myśli „wnioskowanie statystyczne”?
posdef

Tak „wnioskowanie statystyczne”. Dla mnie dużym krokiem było zrozumienie modeli prawdopodobieństwa, aby zrozumieć, jak używać danych do testowania modeli i szacowania parametrów modeli. Szczególnie książka Davisona naprawdę koncentruje się na tym punkcie.
zawsze
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.