Podręcznik dotyczący statystyk z R - czy istnieje i co powinien zawierać?


25

tło

Jest wiele dyskusji na ten temat, więc pomyślałem, że mogę znaleźć odpowiedź z wcześniejszych kroków na StackExchange i wściekle googlować. Po pół dnia próbowania znalezienia tylko jednego podręcznika dla (bio) statystyk z R., byłem całkowicie zdezorientowany i musiałem się poddać. Może łączony darmowy materiał jest w rzeczywistości lepszy niż którakolwiek z książek, które można obecnie kupić. Dowiedzmy się.

Internet jest pełen dobrej darmowej literatury na temat języka R , więc naprawdę nie ma sensu płacić za mierną książkę, która ostatecznie jest wykorzystywana jako dekoracja biura. Strona główna R zawiera listę książek związanych z R. Jest ich wiele. Mówiąc ściślej: 115. Tylko jeden z nich jest reklamowany słowami „ samodzielny podręcznik statystyk ”. Ma teraz 8 lat i może być nieaktualny. Czwarta edycja Modern Applied Statistics z S jest jeszcze starsza. R Book jest często przegryzany jako zbyt podstawowy i nie jest zalecany z powodu braku odniesień, źle sformatowanego kodu i niechlujnego wykończenia.

Jednak szukam jednej książki , która mogłaby być samodzielnym odniesieniem do praktycznych statystyk (przede wszystkim) z R (wtórnym). Książka powinna mieszkać na biurku, gromadząc adnotacje, plamy kawy i tłuste odciski palców zamiast kurzu na półce z książkami. Powinien zastąpić zbiór darmowych plików PDF, z których korzystałem do tej pory, nie zapominając, że R ma doskonałą bibliotekę referencyjną. „ Jakie jest właściwe podejście? ”,„ Dlaczego? „i„ technicznie, jak to działa? ”to często bardziej palące pytania niż„ jak to zrobić z R?

Ponieważ jestem ekologiem, najbardziej interesują mnie zastosowania w biostatystyce. Ponieważ jednak te rzeczy są często powiązane, interdyscyplinarne odniesienie ogólne byłoby dla mnie najbardziej cenne.

Zadanie

Jeśli taka książka istnieje (wątpię w to), proszę podać nazwę książki (tylko jedna na odpowiedź) i krótką recenzję książki wyjaśniającą, dlaczego należy ją nazwać książką referencyjną dla tematu. Ponieważ to pytanie nie różni się zbytnio od istniejących, użyj tego bieżnika, aby uzyskać odpowiedź. Możesz także wymienić wady książki, abyśmy mogli wymienić je jako cechy idealnego podręcznika.

Moje pytanie brzmi: co powinien zawierać podręcznik do statystyk (najczęściej używanych rodzajów) z R?

Niektóre wstępne przemyślenia są następujące ogólne funkcje (proszę zaktualizować):

  • Gruby jak cegła
  • Zwięzłe, ale zrozumiałe
  • Wypełnione cyframi (z podanym kodem R)
  • Łatwe do zrozumienia tabele i diagramy opisujące najważniejsze szczegóły z tekstu
  • Łatwy do zrozumienia, opisowy tekst o statystykach / metodach zawierający najważniejsze równania.
  • Dobre przykłady dla każdego podejścia (z kodem R)
  • Szeroka i aktualna lista referencji
  • Minimalna liczba literówek

Spis treści

Ponieważ nie jestem statystykiem i potrzebowałbym tej (nieistniejącej?) Książki, aby odpowiedzieć na pytanie, trudno mi pisać o treści. Ponieważ Księga R wyraźnie zamierza być książką odniesienia dla statystyk z R, ale często jest krytykowana, skopiowałem spis treści z książki jako punkt wyjścia do spisu treści dla samodzielnego podręcznika statystyki R. Zadanie dodatkowe: proszę podać uzupełnienia, sugestie, usunięcia itp. Dla spisu treści.

  1. Pierwsze kroki
  2. Podstawy języka R.
  3. Wprowadzanie danych
  4. Ramki danych
  5. Grafika
  6. Stoły
  7. Matematyka
  8. Testy klasyczne
  9. Modelowanie statystyczne
  10. Regresja
  11. Analiza wariancji
  12. Analiza kowariancji
  13. Uogólnione modele liniowe
  14. Policz dane
  15. Policz dane w tabelach
  16. Dane dotyczące proporcji
  17. Zmienne odpowiedzi binarnej
  18. Uogólnione modele addytywne
  19. Modele z mieszanymi efektami
  20. Regresja nieliniowa
  21. Modele drzew
  22. Analiza szeregów czasowych
  23. Statystyka wielowymiarowa
  24. Statystyka przestrzenna
  25. Analiza przeżycia
  26. Modele symulacyjne
  27. Zmiana wyglądu grafiki
  28. Referencje i dalsze czytanie
  29. Indeks

Co zostało powiedziane wcześniej?

StackExhange zawiera kilka stopni zadających statystyki i sugestie dotyczące książek R. Książki do nauki języka R pytają o książkę informacyjną uczącą się języka R bez aspektu statystycznego. Programowanie Art of R zostało uznane za najlepszą pojedynczą sugestię. Book to Learn Statistics za pomocą R prosi o idealną książkę wprowadzającą do statystyki, która tak naprawdę nie jest tym samym, co podręcznik. Podręczniki statystyczne Open Source klasyfikują statystyki wielowymiarowe, a R jest najlepszą alternatywą. Jaką książkę poleciłbyś naukowcom niepaństwowym? pyta o najlepszą książkę ze statystykami bez określania wybranego programu.Odnośnik lub książka na temat symulacji eksperymentalnych danych projektowych w punktach R, być może najbliższych mojemu pytaniu. Wprowadzenie do programowania naukowego i symulacji Korzystanie z języka R jest najbardziej zalecaną książką tutaj i może być zbliżone do tego, czego szukam. Jednak ta książka albo nie wystarczy jako pojedyncza książka odniesienia do statystyk z R.

Kilka sugestii do podręcznika i ich wady

R in Action otrzymał lepsze recenzje niż R Book, ale wydaje się, że jest raczej wprowadzający .

Projekt i analiza biostatystyczna z wykorzystaniem R: praktyczny przewodnik może być blisko tego, czego szukam. Otrzymał dobrą recenzję , ale najwyraźniej także ta zawiera wiele literówek. Ponadto książka ta nie koncentruje się na wyjaśnianiu statystyki, ale raczej zawiera analizy statystyczne jako gotowe przepisy do wykorzystania przez naukowców.

Modele ekologiczne i dane w R pomijają poziom wprowadzający. Jest to bardzo przydatna funkcja, ponieważ słowo „wprowadzenie” powoduje 43 przypadki na liście książek R , ale być może nie jest w pełni satysfakcjonujące, jeśli szukamy informacji o statystykach…?

Wprowadzenie do programowania naukowego i symulacji Korzystanie z R zostało bardzo pozytywnie ocenione , ale ogranicza się do symulacji danych.

Richiemorrisroe to sugeruje Modern Applied Statistics with S jest wystarczająca do samodzielnego podręcznika statystyk z R. Ta książka otrzymała doskonałe recenzje ( 1 , 2 ) i jest obecnie prawdopodobnie najlepszym kandydatem do tytułu? Najnowsza wersja pojawiła się 10 lat temu, co jest dość długim okresem, jeśli chodzi o rozwój programu.

Dimitriy V. Masterov sugeruje analizę danych przy użyciu regresji i modeli wielopoziomowych / hierarchicznych . Nie sprawdziłem jeszcze tej książki.


Po przeczytaniu wielu recenzji książek wydaje się oczywiste, że idealna książka, o którą tu zapytano, jeszcze nie istnieje. Być może jednak można wybrać taki, który jest dość blisko. Ten bieżnik ma służyć jako wiki społeczności dla użytkowników statystyk, aby znaleźć najlepszą istniejącą książkę referencyjną, a także jako motywacja dla nowych i starych autorów książek do ulepszenia swojej pracy.


3
(+1) za dobrą recenzję! Wydaje się jednak, że odpowiedziałeś na swoje pytanie w ramach własnego pytania ...
ocram

1
Jeśli spędziłeś tyle czasu, zastanawiając się nad tym, wymyślając własną listę, a nawet zarys takiej książki, być może powinieneś ją napisać. Jest to zalecenie, które często daję na temat statystyk i list ekonometrii, gdy ktoś prosi o dobry artykuł przeglądowy na temat [BLAH] i omawia, co mu się nie podoba w pięciu lub dziesięciu istniejących artykułach przeglądowych - napisz na nim swój własny artykuł.
StasK

Odpowiedzi:


12

Osobiście uważałem, że Modern Applied Statistics z S-Plus zaznacza wszystkie zaznaczone przez ciebie pola. Każdy przykład ma kod R, dają dobre odniesienia do innych źródeł, a Venables i Ripley mają cudownie zwięzły i objaśniający styl pisania, który naprawdę doceniłem. Mam tendencję do ponownego czytania książki co jakiś czas i za każdym razem, gdy czerpię z niej więcej. Oczywiście twój przebieg może się różnić.


2
Zgadzam się. Mam wiele książek statystycznych opartych na języku R, a MASS4 jest prawdopodobnie najbliższy temu, czego szukasz, ale w niektórych miejscach „zwięzły” staje się nieczytelnie zwięzły i wymaga większej wiedzy statystycznej niż ja. To powiedziawszy, mam książkę prawie 10 lat i wracam do niej i uczę się nowych rzeczy. Nie pozwoliłbym, aby jego wiek cię zniechęcił. Aha, a teraz robię statystyki doktora :-)
Sean

Wracam też do MASS, co brzmi jak ujawniona preferencja dla niego jako podręcznika.
Peter Ellis

Czy wersja MASS z 1998 roku różni się znacznie od 2003? Zastanawiasz się, czy różnica w zawartości jest wystarczająca, aby wydać na nią o 50 funtów więcej.
przypuszcza

6

Dzięki za tak dobre pytanie, a zwłaszcza za skompilowanie wszystkich tych informacji. Niestety opisywana książka nie istnieje i, szczerze mówiąc, nie mogła istnieć. Jeśli przede wszystkim potrzebujesz książki odniesienia do statystyki, zacznę od naprawdę dobrej książki o modelach liniowych. Moje zalecenie to Kutner i in, spełnia kryteria bycia większą niż cegła zarówno pod względem objętości, jak i masy, jest bardzo kompleksowy, jasny i zawiera wiele przykładów. W rzeczywistości, jeśli wyeliminujesz wymaganie R, to prawie odznacza całą twoją listę. Często się do tego odwołuję. Jednak na ~ 1500 stronach w zasadzie obejmuje tylko modele liniowe - tj. Regresję i ANOVA - jest kilka krótkich rozdziałów na kilka innych tematów, ale naprawdę potrzebujesz innych książek na ten temat. Następnie dostanę najwyższej klasy statystyczny podręcznik referencyjny, na poziomie odpowiednim dla ciebie, dla wszelkich innych technik, których możesz potrzebować do pracy (np. Analiza przeżycia, analiza przestrzenna itp.). Jeśli te książki nie używają R w swoich przykładach, możesz chcieć dostać książkę R specyficzną, na przykład jedną z use-R! książki, ale między dokumentacją, winietami, listami dyskusyjnymi R-help, StackOverflow i CV, może nie być konieczne. Jeśli chcesz nauczyć się programować we właściwy sposób, powinieneś także zdobyć jedną z tych książek. W tym momencie masz co najmniej 4 książki. Przepraszam, ale tak już jest. Nikt, kto intensywnie pracuje ze statystykami, nie ma tylko jednej książki, która obejmuje wszystko.


5

Nie sądzę, żeby taka książka istniała. Myślę, że najbliższa jest książka analiza danych Gelmana i Hilla za pomocą regresji i modeli wielopoziomowych / hierarchicznych .

Cons:

  • Ma około 5 lat i jest skierowany do naukowców.

  • Nie ma wszystkiego na liście TOC (nic przestrzennego, w zasadzie nic w szeregach czasowych itp.)

Plusy:

  • Dobrze napisane

  • Pod linkiem znajduje się lista errata i spis treści

  • Obejmuje kluczowe rzeczy, takie jak brakujące dane, których nie ma na liście numerowanej.

  • Uderza w większość przedmiotów na twojej liście wypunktowanej.

  • Dużo wykresów i kodu R (niektóre kody błędów dla wielopoziomowego).

  • Wszystkie dane / kod są dostępne do pobrania.


4

Pracuję przez elementy uczenia statystycznego . Ta książka obejmuje niesamowity zakres technik (tak jak ponad 700 stron), ale każde podejście jest wyjaśnione w bardzo praktyczny, a nie wysoce teoretyczny sposób. Nie zawiera jawnie niczego na temat R, jednak wszystkie wykresy i wykresy są wyraźnie wykonane przy użyciu R, a CRAN zawiera pakiety dla wszystkich omawianych tematów. Wszyscy autorzy byli zaangażowani w rozwój R (a także spory kawałek nowoczesnych technik uczenia maszynowego).


2
Dla tej książki jest nawet pakiet R: ElemStatLearn :-)
chl

3

Zgodziłem się z najczęściej głosowaną odpowiedzią, że MASS4 jest całkiem dobrym rozwiązaniem dla tej prośby i mam takie samo doświadczenie jak inny respondent z trudnością spełniający jej wymóg dość wysokiego poziomu zaawansowania statystycznego. MASS3 był w rzeczywistości moim pierwszym „Rbookiem” i pod tym względem służył mi całkiem nieźle. Kupiłem „Księgę R” Crawleya i uznałem ją za niezadowalającą zarówno z powodu niedokładnego opisu języka R, jak i niewiele więcej niż zestawu sprawdzonych przykładów, które wydawały się pozbawione głębi teorii statystycznej.

Jednak z biegiem czasu odkryłem, że Harrell's „Regression Modeling Strategies” (RMS) lepiej pasuje do „biostatystycznego” ukierunkowania tego pytania, a także ma dobrą głębię. To nie jest tekst wprowadzający na temat R. Aby to zrobić, należy szukać gdzie indziej i dlatego polecam wprowadzenie do programowania naukowego i symulacji przy użyciu R [ http://www.crcpress.com/product/isbn/9781420068726] lub (pomimo jego nazwa) „R for Dummies” napisany przez kilku długoletnich współpracowników w tagach R StackOverflow. Mam RMS w jego pierwszym wydaniu, kiedy był bardziej skoncentrowany na S, ale od tego czasu Harrell przeszedł na R i w pełni obsługujerms/HmiscDuet z pakietem R. Uważam, że spełnia on sugestię @ gung dotyczącą pokrycia specjalizacji w kilku wymienionych domenach, choć nie w przypadku analizy przestrzennej lub modeli mieszanych.


1
Gorąco polecam zarówno RMS, jak i MASS. Nie zajmuję się biostatystyką, ale większość porad w Harrella jest przydatna bardziej ogólnie. Często proszę przyszłych studentów badań o przeczytanie Harrella, a przynajmniej rozdziału 4, a następnie często polecam MASS jako dobrą książkę ogólną, aby upewnić się, że się z nimi zapoznali.
Glen_b

Do ogólnego samokształcenia nominuję Coxa i Hinkleya „Statystyka teoretyczna” i tom Fellera 2 „Wprowadzenie do teorii prawdopodobieństwa”. Ale to oczywiście nie dotyczy części R tego pytania.
DWin

[Studenci, których nadzoruję, znajdują się w obszarach poza statystykami, mimo że ich praca wymaga ich całkiem sporo ... MASS i RMS są dla nich częściej pomocne niż Cox i Hinkley i Feller Vol 2, chociaż obaj - wraz z Kendall i Stuart - byli bardzo cenni dla mojego własnego pochodzenia]
Glen_b

2

Jeśli chcesz przetłumaczyć ... (to książka towarzysząca książce teoretycznej o wielkości 4900 stron):

Big R Book

Ta książka (której jestem współautorką) jest kompilacją 15-letniego doświadczenia konsultingowego i nauczania na poziomie licencjackim i magisterskim i pokazuje tylko przykłady rzeczy w języku R, dla których szczegóły matematyki (dowody) podane są na moich 4900 stronach księgi towarzyszące, w których obliczenia są również wykonywane ręcznie z wartościami liczbowymi (+500 stron, które będą dostępne w następnym wydaniu). Ta książka daje również możliwość sprawdzenia, czy oprogramowanie podaje odpowiednie wartości i jest o wiele bardziej zabawne niż wykonywanie obliczeń ręcznie lub w MS Excel dotyczących przedmiotów, które normalnie są nauczane na kursach dla absolwentów w szkołach europejskich. Celem tej książki jest również pokazanie, że możesz użyć 1 oprogramowania zamiast wielu, aby uzyskać te same wyniki bez ponoszenia kosztów (zamiast jednoczesnego korzystania z JMP + Minitab + SPSS + SAS + MATLAB). Ta książka pokazuje także słabości R (nie można zagwarantować konserwacji pakietu). Jest to również kompendium bardzo cennych pytań na różnych forach i blogach R. Jest bezpłatny i kolorowy!


1
Czy możesz również podać żądaną „krótką recenzję”? Dlaczego polecasz tę książkę? Jakie są w tym dobre (i złe) rzeczy?
whuber

Jestem jednym ze współautorów ... niezbyt neutralny dla krótkiej recenzji ...
Vincent ISOZ

1
W porządku - bylibyśmy wdzięczni, gdybyśmy usłyszeli od Ciebie, jakie są mocne strony Twojej książki lub opis, kto by z niej skorzystał. Ujawniając swoje połączenie z książką (co jest niezbędne ), umożliwiasz czytelnikom uwzględnienie tego w ocenie tego, co mówisz. Podejrzewam, że wielu czytelników zrozumie, że posiadasz głęboką wiedzę na temat tej książki i doceniłbyś to, co mówisz. Bez podania jakiejś recenzji Twoja odpowiedź musiałaby zostać przeniesiona do zwykłego komentarza, który przyciągnąłby stosunkowo mało uwagi.
whuber
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.