Kurs projektowania eksperymentalnego dla górników danych

11

Jestem informatykiem zajmującym się eksploracją danych. Nie jest tajemnicą stwierdzenie, że informatycy są dość słabi w systematycznym projektowaniu i ocenie eksperymentalnej - stosowanie wartości p i szacunków ufności uważa się za zaawansowane :).

Co chciałbym wiedzieć, czy istnieją dobre kursy / materiały do nauczania informatyków o dobrym projekcie eksperymentalnym. Aby uczynić to bardziej szczegółowym, dodam następujące informacje:

Kurs powinien być skierowany do doktorantów, którzy mogą mieć uzasadnione zrozumienie prawdopodobieństwa, ale mają ograniczone doświadczenie w statystyce.
Kurs powinien koncentrować się na projektowaniu eksperymentalnym w „niekontrolowanych nienaturalnych warunkach”: innymi słowy, nie ma ani fizycznej podstawy prawdy gruntowej ani sposobu kontrolowania procesu gromadzenia danych (jak w przypadku ludzi). Oczywiście dobry kurs będzie koncentrował się na podstawach, ale powinien radzić sobie z tym scenariuszem w znaczący sposób.
Element obliczeniowy byłby bonusem, ale nie jest obowiązkowy. Mamy do czynienia z dużą ilością danych, ale w razie potrzeby sami możemy rozwiązać problemy obliczeniowe.

references experiment-design

— Suresh Venkatasubramanian
źródło

1

Wszystkie warunki opisanego eksperymentu przypominają mi testy A / B ... zbieg okoliczności? :)

— steffen

Zobacz także stats.stackexchange.com/questions/401239/… , stats.stackexchange.com/questions/422186/… ,

— kjetil b halvorsen

5

[Noah Smith] [1] i [David Smith] [2] zaproponowali kurs w JHU z podobnymi motywacjami.

Zarys:

Wykład 1: wprowadzenie, przegląd statystyki, testowanie hipotez, próbkowanie
Wykład 2: statystyki zainteresowań: średnie, kwantyle, wariancja
Wykłady 3–4: eksperymenty z runtime i „przestrzenią”
Wykład 5: analiza danych eksploracyjnych
Wykład 6: modelowanie parametryczne, regresja i klasyfikacja
Wykład 7: Debugowanie statystyczne i profilowanie
Wykład 8: podsumowanie i przegląd

Aby uzyskać szczegółowe informacje, patrz Empirical Research Methods in Computer Science (600.408) http://www.cs.jhu.edu/~nasmith/erm/

— Delip
źródło

4

Mógłbym zasugerować dwie książki zamiast kursów

Obliczeniowa analiza tekstu dla genomiki funkcjonalnej i bioinformatyki autorstwa Soumyi Raychaudhuri.
The Oxford Handbook of Functional Data Analysis pod redakcją Frederic Ferraty i Yves Romain.

Pierwszy, jako aplikacja do bioinformatyki, a drugi do dowolnej dyscypliny

— friveroll
źródło

1

Sprawdź również ten post stats.stackexchange.com/questions/1815/…

— friveroll

3

Dobre pytanie. Zależy mi na odpowiedziach.

Ze statystycznego punktu widzenia należy zająć się dwiema kwestiami: większość statystyk i projektów statystycznych omawia statystykę małych próbek, a większość metod stosowanych przez inżynierów nie jest „nowoczesną” statystyką.

Nie mam bezpośredniej sugestii dla pierwszego problemu poza dobrym szkoleniem w eksploracji / eksploracji danych i znaczeniem statystycznie odmiennym w obliczu analizy statystyk populacji (lub dużej próby).

Jednak dwie interesujące książki dotyczące wprowadzenia studentów do statystyki pochodzą od Rand Wilcox (psycholog):

Wilcox, RR (2012). Wprowadzenie do niezawodnego szacowania i testowania hipotez, wydanie trzecie. Prasa akademicka.

Wilcox, RR (2010). Podstawy współczesnych metod statystycznych: znacząca poprawa potęgi i dokładności, Springer, wyd. 2.

— Jason Morrison
źródło

2

Wydaje mi się, że pierwszy numer dotyczy badań i może nie mieć jeszcze „najlepszych praktyk”. Może się zdarzyć, że solidne wprowadzenie do podstawowych testów i wiercenia w problemie wielu hipotez może być najlepszym miejscem do rozpoczęcia.

— Suresh Venkatasubramanian