Lubię książkę G van Belle'a na temat statystycznych reguł kciuka oraz, w mniejszym stopniu, typowych błędów w statystyce (i jak ich uniknąć) autorstwa Phillipa I Gooda i Jamesa W. Hardina. Odnoszą się do typowych problemów podczas interpretacji wyników badań eksperymentalnych i obserwacyjnych oraz dostarczają praktycznych zaleceń dotyczących wnioskowania statystycznego lub analizy danych eksploracyjnych. Uważam jednak, że nieco brakuje „nowoczesnych” wytycznych, zwłaszcza w związku z coraz większym wykorzystaniem obliczeniowych i rzetelnych statystyk w różnych dziedzinach lub wprowadzeniem technik od społeczności uczących się maszynowo, np. W biostatystyce klinicznej lub epidemiologii genetycznej.
Oprócz sztuczek obliczeniowych lub typowych pułapek w wizualizacji danych, które można by rozwiązać w innym miejscu, chciałbym zapytać: jakie są najważniejsze zasady, które poleciłbyś w celu wydajnej analizy danych? ( jedna zasada na odpowiedź, proszę ).
Mam na myśli wytyczne, które możesz przekazać koledze, badaczowi bez silnego doświadczenia w modelowaniu statystycznym lub studentowi na kursie od średniego do zaawansowanego. Może to dotyczyć różnych etapów analizy danych, np. Strategii próbkowania, wyboru cech lub budowy modelu, porównania modeli, szacowania końcowego itp.