Jeśli chodzi o prognozowanie, statystyki i nauki maszynowe zaczęły rozwiązywać głównie ten sam problem z różnych perspektyw.
Zasadniczo statystyki zakładają, że dane zostały wygenerowane przez dany model stochastyczny. Tak więc z perspektywy statystycznej zakłada się model i przy różnych założeniach, błędy są traktowane, a parametry modelu i inne pytania są wywnioskowane.
Uczenie maszynowe pochodzi z perspektywy informatyki. Modele są algorytmiczne i zwykle wymaga bardzo niewielu założeń dotyczących danych. Pracujemy z hipotezy przestrzeni i uczenia się stronniczości. Najlepsza prezentacja uczenia maszynowego, którą znalazłem, znajduje się w książce Toma Mitchella zatytułowanej Machine Learning .
Aby uzyskać bardziej wyczerpujący i kompletny pomysł na temat dwóch kultur, przeczytaj artykuł Leo Breimana zatytułowany Modelowanie statystyczne: dwie kultury
Trzeba jednak dodać, że nawet jeśli te dwie nauki zaczęły się z różnych perspektyw, teraz obie dzielą teraz spore ilości wspólnej wiedzy i technik. Dlaczego, ponieważ problemy były takie same, ale narzędzia były inne. Więc teraz uczenie maszynowe jest traktowane głównie z perspektywy statystycznej (patrz książka Hastie, Tibshirani, Friedman The Elements of Statistics Learning z punktu widzenia uczenia maszynowego z traktowaniem statystycznym, a być może książka Kevina P. Murphy'ego Machine Learning: A perspektywa probabilistyczna , żeby wymienić tylko niektóre z najlepszych dostępnych obecnie książek).
Nawet historia rozwoju tej dziedziny pokazuje zalety takiego połączenia perspektyw. Opiszę dwa wydarzenia.
Pierwszym z nich jest stworzenie drzew CART, które zostały stworzone przez Breimana z solidnym zapleczem statystycznym. Mniej więcej w tym samym czasie Quinlan opracował pakiet drzewa decyzyjnego ID3, C45, See5 i tak dalej, oparty na wiedzy informatycznej. Teraz zarówno te rodziny drzew, jak i metody łączenia, takie jak worki i lasy, stają się dość podobne.
Druga historia dotyczy wzmocnienia. Początkowo zostały opracowane przez Freunda i Shapire'a, kiedy odkryli AdaBoost. Wyborów do projektowania AdaBoost dokonano głównie z perspektywy obliczeniowej. Nawet autorzy nie rozumieli dobrze, dlaczego to działa. Zaledwie 5 lat później Breiman (ponownie!) Opisał model adaboost ze statystycznego punktu widzenia i wyjaśnił, dlaczego to działa. Od tego czasu różni wybitni naukowcy, z obu rodzajów środowisk, rozwijali dalej te pomysły prowadzące do Plejad algorytmów zwiększających, takich jak zwiększanie logistyki, zwiększanie gradientu, łagodne zwiększanie i tak dalej. Trudno teraz myśleć o wzmocnieniu bez solidnego tła statystycznego.
Uogólnione modele liniowe to rozwój statystyczny. Jednak nowe kuracje bayesowskie wprowadzają ten algorytm także na boisko uczenia maszynowego. Uważam więc, że oba twierdzenia mogą mieć rację, ponieważ interpretacja i sposób działania mogą być różne.