Jakie są interesujące i dobrze napisane artykuły dotyczące statystyki stosowanej?

28

Jakie są dobre artykuły opisujące zastosowania statystyk, które byłyby zabawne i pouczające? Żeby było jasne, tak naprawdę nie szukam prac opisujących nowe metody statystyczne (np. Artykuł o regresji kątowej), ale raczej prac opisujących sposoby rozwiązywania rzeczywistych problemów.

Na przykład jeden papier, który pasowałby do tego, czego szukam, to papier klimatyczny z drugiego Cross-Validated Journal Club . Poszukuję raczej artykułów statystycznych, a nie maszynowych, ale myślę, że to trochę niewyraźne rozróżnienie (dokumenty Netflix Prize sklasyfikowałbym jako trochę na granicy, a artykuł na temat analizy sentymentów jako coś ja nie szukam).

Pytam, ponieważ większość zastosowań statystyk, które widziałem, to albo małe fragmenty, które widziałeś w podręcznikach, albo rzeczy związane z moją własną pracą, więc chciałbym trochę rozwinąć.

references application

— raegtin
źródło

4

Czy masz jakieś ogólne zainteresowania, które chciałbyś wymienić? To może pomóc w uzyskaniu wskazówek. Zastosowania statystyki stały się dość powszechne w niezwykle szerokim zakresie dziedzin.

— kardynał

1

@ cardinal, nie, nie ma szczególnych zainteresowań - celem było oderwanie się od tego, co zwykle czytam, więc staram się nie ograniczać żadnych odpowiedzi. (Może to sprawia, że pytanie jest nieco zbyt ogólne, ale wydaje mi się, że szukam osobistych list „najlepszych”).

— raegtin

1

Klasyczna lektura obowiązkowa, szczególnie dlatego, że wszystkie wprowadzone modele prawdopodobieństwa są motywowane „fizycznym” rozumowaniem problemu, a nie wyciągane z kapelusza, to: F. Mosteller, DL Wallace (1963): Wnioskowanie na temat autorstwa: Porównawcze badanie metod dyskryminacji zastosowanych do autorstwa spornych artykułów federalistycznych , J. Am. Stat. Doc. 58 (302), s. 275–309. Również pod tym linkiem .

— pglpm

12

Trochę trudno jest mi zobaczyć, który papier może Cię zainteresować, więc pozwól mi zaproponować następujące z literatury psychometrycznej:

Borsboom, D. (2006). Atak psychometrów . Psychometrika , 71 , 425–440.

do ubierania sceny (dlaczego musimy stosować modele statystyczne, które lepiej odzwierciedlają podstawowe hipotezy powszechnie spotykane w badaniach psychologicznych?), oraz

Borsboom, D. (2008). Perspektywy psychometryczne w systemach diagnostycznych . Journal of Clinical Psychology , 64 , 1089-1108.

dla zastosowanej perspektywy medycyny diagnostycznej (przejście od oceny tak / nie stosowanej w DSM-IV do podejścia „wymiarowego” przeznaczonego dla DSM-V). Większy przegląd modeli zmiennych utajonych w badaniach biomedycznych, które lubię to:

Rabe-Hesketh, S. i Skrondal, A. (2008). Klasyczne modele zmiennych utajonych do badań medycznych . Metody statystyczne w badaniach medycznych , 17 (1) , 5-32.

— chl
źródło

@ chl (+1) te dokumenty Borsboom były wspaniałe, naprawdę poszerzyły moje myślenie o pomiarze

— richiemorrisroe

+1, lubię też Borsboom. Dla osób zainteresowanych artykułem The Attack zainteresowałbym się także „The Concept of Validity”, rhowell.ba.ttu.edu/borsboomValidity2004.pdf . Chociaż jest to trochę bardziej szczegółowe, więc nie jest tak łatwe do naśladowania, jak artykuł o ataku.

— Andy W

10

Oto pięć najczęściej cytowanych artykułów z ostatnich 40 lat Journal of the Royal Statistics Society, Series C: Applied Statistics, z wyraźnym zastosowaniem w tytule, które przykuło moją uwagę podczas skanowania w wynikach wyszukiwania Web of Knowledge:

Sheila M. Gore, Stuart J. Pocock i Gillian R. Kerr (1984). Modele regresji i zagrożenia nieproporcjonalne w analizie przeżycia raka piersi. Vol. 33, nr 2, s. 176–195. (Cytowano 100 razy) ( bezpłatny plik PDF )
John Haslett i Adrian E. Raftery (1989). Modelowanie czasoprzestrzeni z zależnością od długiej pamięci: ocena irlandzkiego zasobu energii wiatrowej. Vol. 38, nr 1 s. 1-50 (cytowano 156 razy)
Stuart G. Coles i Jonathan A. Tawn (1994). Metody statystyczne dla ekstremów wielowymiarowych: aplikacja do projektowania strukturalnego. Vol. 43, nr 1, s. 1–48. (Cytowano 99 razy)
Nicholas Lange i Scott L. Zeger (1997). Nieliniowa analiza szeregów czasowych Fouriera do mapowania ludzkiego mózgu za pomocą funkcjonalnego rezonansu magnetycznego. Vol. 46, nr 1, s. 1–29. (Cytowany 94 razy)
James P. Hughes, Peter Guttorp i Stephen P. Charles (1999). Niejednorodny ukryty model Markowa dla występowania opadów. Vol. 48, nr 1, s. 15–30. (Cytowano 103 razy)

— onestop
źródło

9

Na szerszym poziomie poleciłbym artykuł [„Modelowanie statystyczne: dwie kultury”] [1] autorstwa Leo Breimana w 2001 r. (Cytowany 515). Wiem, że ostatnio był on objęty przez klub czasopism i uważam, że jest naprawdę interesujący. Mam c & p streszczenie.

Abstrakcyjny. Istnieją dwie kultury w stosowaniu modelowania statystycznego do wyciągania wniosków z danych. Zakłada się, że dane są generowane przez dany stochastyczny model danych. Drugi używa modeli algorytmicznych i traktuje mechanizm danych jako nieznany. Społeczność statystyczna zobowiązała się do niemal wyłącznego korzystania z modeli danych. To zobowiązanie doprowadziło do nieistotnej teorii, wątpliwych wniosków i powstrzymało statystyków od pracy nad wieloma interesującymi bieżącymi problemami. Modelowanie algorytmiczne, zarówno w teorii, jak i praktyce, szybko rozwinęło się w dziedzinach poza statystyką. Może być stosowany zarówno w dużych złożonych zestawach danych, jak i jako dokładniejsza i informacyjna alternatywa dla modelowania danych w mniejszych zestawach danych. Jeśli naszym celem jako pola jest wykorzystanie danych do rozwiązywania problemów,

[1]: https://doi.org/10.1214/ss/1009213726 (otwarty dostęp)

— Parbury
źródło

8

Z perspektywy epidemiologii genetycznej poleciłbym teraz następującą serię artykułów na temat badań asocjacyjnych obejmujących cały genom :

Cordell, HJ i Clayton, DG (2005). Badania asocjacji genetycznych . Lancet 366, 1121-1131.
Cantor, RM, Lange, K. i Sinsheimer, JS (2010). Priorytetyzacja wyników GWAS: przegląd metod statystycznych i zaleceń dotyczących ich stosowania . The American Journal of Human Genetics 86, 6–22.
Ioannidis, JPA, Thomas, G., Daly, MJ (2009). Sprawdzanie poprawności, rozszerzanie i udoskonalanie sygnałów asocjacyjnych całego genomu . Nature Reviews Genetics 10, 318-329.
Balding, DJ (2006). Samouczek na temat metod statystycznych do badań asocjacyjnych populacji . Nature Reviews Genetics 7, 781-791.
Green, AE i in. (2008). Wykorzystanie danych genetycznych w neuronauce kognitywnej: od narastających bólów po autentyczne spostrzeżenia . Nature Reviews Neuroscience 9, 710-720.
McCarthy, MI i in. (2008). Badania asocjacyjne obejmujące cały genom dla złożonych cech: konsensusu, niepewności i wyzwań . Nature Reviews Genetics 9, 356-369.
Komitet Koordynacyjny Psychiatrycznego Konsorcjum GWAS (2009). Badania Stowarzyszenia Genomewide: historia, uzasadnienie i perspektywy zaburzeń psychicznych . American Journal of Psychiatry 166 (5), 540-556.
Sebastiani, P. i in. (2009). Badania asocjacyjne obejmujące cały genom i genetyczne rozwarstwienie złożonych cech . American Journal of Hematology 84 (8), 504-15.
The Wellcome Trust Case Control Consortium (2007). Badanie asocjacyjne obejmujące cały genom 14 000 przypadków siedmiu powszechnych chorób i 3000 wspólnych kontroli . Nature 447, 661-678.
The Wellcome Trust Case Control Consortium (2010). Badanie asocjacyjne całego genomu CNV w 16 000 przypadków ośmiu powszechnych chorób i 3000 wspólnych kontroli . Nature 464, 713-720.

— chl
źródło

3

Artykuły przeglądowe Jima Bergera: http://www.stat.duke.edu/~berger/papers.html

Możesz zacząć od Could Fisher, Jeffreys i Neyman zgodzili się na testy?

— John D. Cook
źródło

2

Artykuł o wczesnym wpływie na badania statystyczne w dziedzinie bioinformatyki:

Jelizarów i in . Nadoptymizm w bioinformatyce: ilustracja . Bioinformatyka, 2010

To sprawia, że ciekawa dyskusja na temat źródeł stronniczości, nadmiernego dopasowania i poszukiwania znaczenia.

— Borlaug
źródło