Moje pytanie pochodzi z następującego faktu. Czytam posty, blogi, wykłady oraz książki na temat uczenia maszynowego. Mam wrażenie, że praktycy uczenia maszynowego wydają się być obojętni na wiele rzeczy, którymi interesują się statystyki / ekonometria. W szczególności praktycy uczenia maszynowego kładą nacisk na dokładność przewidywania w porównaniu do wnioskowania.
Jeden z takich przykładów miał miejsce, kiedy brałem Andrew Learning na Machinera na Coursera. Omawiając prosty model liniowy, nie wspomniał nic o NIEBIESKIEJ właściwości estymatorów ani o tym, jak heteroskedastyczność „unieważnia” przedział ufności. Zamiast tego skupia się na implementacji spadku gradientu i koncepcji walidacji krzyżowej / krzywej ROC. Tematy te nie były omawiane na moich zajęciach z ekonometrii / statystyki.
Kolejny przykład miał miejsce, gdy brałem udział w zawodach Kaggle. Czytałem kod i myśli innych ludzi. Duża część uczestników po prostu wrzuca wszystko do SVM / random forest / XGBoost.
Jeszcze inny przykład dotyczy stopniowego wyboru modelu. Ta technika jest szeroko stosowana, przynajmniej online i na Kaggle. Obejmuje to także wiele klasycznych podręczników do uczenia maszynowego, takich jak Wprowadzenie do uczenia statystycznego. Jednak zgodnie z tą odpowiedzią (co jest dość przekonujące), stopniowy wybór modelu napotyka wiele problemów, szczególnie jeśli chodzi o „odkrycie prawdziwego modelu”. Wydaje się, że istnieją tylko dwie możliwości: albo praktycy uczenia maszynowego nie znają problemu krok po kroku, albo wiedzą, ale ich to nie obchodzi.
Oto moje pytania:
- Czy to prawda, że (ogólnie) praktycy uczenia maszynowego koncentrują się na prognozowaniu, a tym samym nie dbają o wiele rzeczy, na których troszczą się statystycy / ekonomiści?
- Jeśli to prawda, jaki jest tego powód? Czy to dlatego, że wnioskowanie jest w pewnym sensie trudniejsze?
- Istnieje mnóstwo materiałów na temat uczenia maszynowego (lub prognozowania) online. Jeśli jednak jestem zainteresowany nauką wnioskowania, jakie zasoby online mogę sprawdzić?
Aktualizacja : Właśnie zdałem sobie sprawę, że słowo „wnioskowanie” może potencjalnie oznaczać wiele rzeczy. Co mam na myśli przez „wnioskowanie” odnosi się do takich pytań jak
Skoro „wszystkie modele są złe”, w jaki sposób „zły” jest nasz model z modelu prawdziwego?
Biorąc pod uwagę informacje o próbie, co możemy powiedzieć o populacji i jak pewni możemy to powiedzieć?
Ze względu na moją bardzo ograniczoną wiedzę statystyczną nie jestem nawet pewien, czy pytania te należą do dziedziny statystyki, czy nie. Ale są to pytania, na które nie zwracają uwagi praktycy uczenia maszynowego. Być może statystycy też to nie obchodzą? Nie wiem
fortunes
pakietu CRAN. To by powiedzieć, że nie jesteś sam z wrażeniem, że matematyka nie zawsze jest głównym problemem w uczeniu maszynowym.