Według mnie statystyki / uczenie maszynowe podpowiadają, co należy optymalizować, a optymalizacja to sposób, w jaki należy to robić.
Rozważmy na przykład regresję liniową z gdzie i . Statystyki mówią nam, że jest to (często) dobry model, ale nasz faktyczny szacunek , rozwiązując problem optymalizacjiY= Xβ+ εmi( ε ) = 0V.a r ( ε ) = σ2)jaβ^
β^=argminb∈Rp||Y−Xb||2.
Właściwości są nam znane ze statystyk, więc wiemy, że jest to dobry problem optymalizacyjny do rozwiązania. W tym przypadku jest to łatwa optymalizacja, ale nadal pokazuje to ogólną zasadę.β^
Mówiąc bardziej ogólnie, wiele uczenia maszynowego można postrzegać jako rozwiązywanie
gdzie piszę to bez regularyzacji, ale można to łatwo dodać.
f^=argminf∈F1n∑i=1nL(yi,f(xi))
Ogromna liczba badań w statystycznej teorii uczenia się (SLT) badała właściwości tych argminimów, niezależnie od tego, czy są one asymptotycznie optymalne, jak odnoszą się do złożoności i wielu innych podobnych rzeczy. Ale kiedy naprawdę chcesz dostać , często kończy się to trudną optymalizacją i jest to oddzielny zestaw ludzi, którzy badają ten problem. Myślę, że historia SVM jest tutaj dobrym przykładem. Mamy ludzi SLT, takich jak Vapnik i Cortes (i wielu innych), którzy pokazali, że SVM jest dobrym problemem optymalizacyjnym do rozwiązania. Ale potem inni, jak John Platt i autorzy LIBSVM, sprawili, że stało się to wykonalne w praktyce.fFf^
Aby odpowiedzieć na dokładne pytanie, znajomość optymalizacji jest z pewnością pomocna, ale generalnie nikt nie jest ekspertem we wszystkich tych obszarach, więc uczysz się jak najwięcej, ale niektóre aspekty zawsze będą dla ciebie czymś w rodzaju czarnej skrzynki. Być może nie zbadałeś poprawnie wyników SLT stojących za twoim ulubionym algorytmem ML, a może nie znasz wewnętrznych mechanizmów optymalizatora, którego używasz. To podróż na całe życie.