Czytając doskonałe modelowanie statystyczne: Dwie kultury (Breiman 2001) , możemy uchwycić całą różnicę między tradycyjnymi modelami statystycznymi (np. Regresja liniowa) a algorytmami uczenia maszynowego (np. Bagging, Random Forest, Boosted trees ...).
Breiman krytykuje modele danych (parametryczne), ponieważ opierają się one na założeniu, że obserwacje są generowane przez znany, formalny model zalecany przez statystykę, który może źle naśladować Naturę. Z drugiej strony algorytmy ML nie zakładają żadnego formalnego modelu i bezpośrednio uczą się związków między zmiennymi wejściowymi i wyjściowymi z danych.
Uświadomiłem sobie, że Bagging / RF i Boosting są również w pewnym stopniu parametryczne: na przykład ntree , mtry w RF, szybkość uczenia się , frakcja torby , złożoność drzew w drzewach Stochastic Gradient Boosted są parametrami dostrajania . Szacujemy również te parametry na podstawie danych, ponieważ używamy danych do znalezienia optymalnych wartości tych parametrów.
Jaka jest różnica? Czy modele parametryczne RF i Boosted Tree?