IMHO nie ma formalnych różnic, które odróżniają uczenie maszynowe i statystyki na podstawowym poziomie dopasowania modeli do danych. Mogą istnieć różnice kulturowe w wyborze modeli, celach dopasowania modeli do danych, a w niektórych rozszerzeniach interpretacji.
W typowych przykładach, o których zawsze mogę myśleć
- kolekcja modeli dla dla niektórych zestawów indeksów ,Mii∈II
- i dla każdego nieznana składowa (parametry mogą być nieskończony wymiarowe) modelu .iθiMi
Dopasowywanie do danych jest prawie zawsze matematycznym problemem optymalizacji polegającym na znalezieniu optymalnego wyboru nieznanego komponentu aby dopasować do danych, mierzone przez jakąś ulubioną funkcję.MiθiMi
Wybór spośród modeli jest mniej standardowy i dostępny jest szereg technik. Jeśli cel dopasowania modelu jest czysto predykcyjny, wybór modelu odbywa się w celu uzyskania dobrej wydajności predykcyjnej, natomiast jeśli głównym celem jest interpretacja modeli wynikowych, łatwiej wybrać inne modele, nawet jeśli ich interpretacja jest łatwiejsza. moc przewidywania będzie gorsza.Mi
To, co można nazwać starą szkołą wyboru modelu statystycznego, opiera się na testach statystycznych, być może w połączeniu ze stopniowymi strategiami selekcji, podczas gdy wybór modelu uczenia maszynowego zazwyczaj koncentruje się na oczekiwanym błędzie uogólnienia, który jest często szacowany za pomocą walidacji krzyżowej. Wydaje się jednak, że obecny rozwój i rozumienie wyboru modeli zbliża się do bardziej powszechnej płaszczyzny, patrz na przykład wybór modelu i uśrednianie modelu .
Wnioskowanie o przyczynowości na podstawie modeli
Sednem sprawy jest to, jak możemy interpretować model? Jeśli uzyskane dane pochodzą ze starannie zaprojektowanego eksperymentu, a model jest wystarczający, prawdopodobne jest, że możemy interpretować wpływ zmiany zmiennej w modelu jako efekt przyczynowy, a jeśli powtórzymy eksperyment i zainterweniujemy w tę konkretną zmienną możemy spodziewać się zaobserwowanego efektu. Jeżeli jednak dane są obserwacyjne, nie możemy oczekiwać, że oszacowane efekty w modelu odpowiadają obserwowanym efektom interwencyjnym. Będzie to wymagało dodatkowych założeń niezależnie od tego, czy model jest „modelem uczenia maszynowego”, czy „klasycznym modelem statystycznym”.
Może się zdarzyć, że osoby przeszkolone w posługiwaniu się klasycznymi modelami statystycznymi, z naciskiem na szacunki parametrów jednowymiarowych i interpretacje wielkości efektu, mają wrażenie, że interpretacja przyczynowa jest bardziej aktualna w tych ramach niż w ramach uczenia maszynowego. Powiedziałbym, że nie.
Obszar wnioskowania przyczynowego w statystykach tak naprawdę nie usuwa problemu, ale czyni założenia, na których spoczywają jednoznaczne wnioski przyczynowe. Są one określane jako nietrwałe założenia . Artykuł Wnioskowanie przyczynowe w statystykach: przegląd autorstwa Judei Pearl to dobry artykuł do przeczytania. Głównym wnioskiem z wnioskowania przyczynowego jest zebranie metod szacowania skutków przyczynowych przy założeniach, w których faktycznie występują nieobserwowane pomieszania, co poza tym stanowi poważny problem. Patrz sekcja 3.3 powyżej w perłowym dokumencie. Bardziej zaawansowany przykład można znaleźć w artykule Marginal Structural Models i wnioskowanie przyczynowe w epidemiologii .
Pytanie dotyczy kwestii, czy istnieją nietrwałe założenia. Są one dokładnie niesprawdzalne, ponieważ nie możemy ich przetestować przy użyciu danych. Aby uzasadnić założenia, wymagane są inne argumenty.
Jako przykład spotkania uczenia maszynowego i wnioskowania przyczynowego, pomysły ukierunkowanego szacowania maksymalnego prawdopodobieństwa przedstawione w Docelowym uczeniu maksymalnego prawdopodobieństwa Mark van der Laan i Daniel Rubin zwykle wykorzystują techniki uczenia maszynowego do szacowania nieparametrycznego, a następnie „targetowanie „w kierunku parametru będącego przedmiotem zainteresowania. Ten ostatni może równie dobrze być parametrem o interpretacji przyczynowej. Pomysł w Super Learnerpolega w dużej mierze na technikach uczenia maszynowego w celu oszacowania interesujących parametrów. Mark van der Laan (komunikacja osobista) podkreśla, że klasyczne, proste i „interpretowalne” modele statystyczne są często błędne, co prowadzi do stronniczych estymatorów i zbyt optymistycznej oceny niepewności szacunków.