W praktyce powodem, dla którego SVM są odporne na nadmierne dopasowanie, nawet w przypadkach, gdy liczba atrybutów jest większa niż liczba obserwacji, jest to, że stosuje regularyzację. Kluczem do uniknięcia nadmiernego dopasowania jest staranne dostrajanie parametru regularyzacji, , aw przypadku nieliniowych maszyn SVM, ostrożny wybór jądra i dostrajanie parametrów jądra.C
SVM jest przybliżoną implementacją ograniczenia błędu generalizacji, który zależy od marginesu (zasadniczo odległość od granicy decyzji do najbliższego wzorca z każdej klasy), ale jest niezależny od wymiarów przestrzeni cech (dlatego użycie sztuczki jądra do zmapowania danych w przestrzeń o bardzo dużych wymiarach nie jest takim złym pomysłem, jak mogłoby się wydawać). Zatem w zasadzie maszyny SVM powinny być wysoce odporne na nadmierne dopasowanie, ale w praktyce zależy to od starannego wyboru i parametrów jądra. Niestety, nadmierne dopasowanie może również wystąpić dość łatwo przy dostrajaniu hiper-parametrów, co jest moim głównym obszarem badań, patrzC
GC Cawley i NLC Talbot, Zapobieganie nadmiernemu dopasowaniu w wyborze modelu poprzez bayesowską regularyzację hiperparametrów, Journal of Machine Learning Research, tom 8, strony 841-861, kwiecień 2007. ( www )
i
GC Cawley i NLC Talbot, Nadmierne dopasowanie w wyborze modelu i późniejsze odchylenie wyboru w ocenie wydajności, Journal of Machine Learning Research, 2010. Research, vol. 11, s. 2079–2107, lipiec 2010 r. ( Www )
Oba te dokumenty używają regresji grzbietu jądra, a nie SVM, ale ten sam problem pojawia się równie łatwo z SVM (również podobne ograniczenia dotyczą KRR, więc w praktyce nie ma wiele do wyboru). W pewnym sensie maszyny SVM tak naprawdę nie rozwiązują problemu nadmiernego dopasowania, po prostu przenoszą problem z dopasowania modelu do wyboru modelu.
Często jest pokusa, aby ułatwić sobie życie SVM, dokonując najpierw wyboru funkcji. Zasadniczo pogarsza to sytuację, ponieważ w przeciwieństwie do SVM, algorytmy wyboru cech wykazują tendencję do nadmiernego dopasowania w miarę wzrostu liczby atrybutów. O ile nie chcesz wiedzieć, jakie są atrybuty informacyjne, zwykle lepiej jest pominąć krok wyboru funkcji i po prostu użyć regularyzacji, aby uniknąć nadmiernego dopasowania danych.
Krótko mówiąc, nie ma nieodłącznego problemu z użyciem SVM (lub innego modelu regulowanego, takiego jak regresja kalenicy, LARS, Lasso, siatka elastyczna itp.) Na problemie ze 120 obserwacjami i tysiącami atrybutów, pod warunkiem, że parametry regularyzacji są odpowiednio dostrojone .