Odpowiedzi:
Istnieją cztery główne zalety: Po pierwsze, ma on parametr regularyzacji, który sprawia, że użytkownik myśli o unikaniu nadmiernego dopasowania. Po drugie, wykorzystuje sztuczkę jądra, dzięki czemu możesz budować wiedzę ekspercką na temat problemu poprzez inżynierię jądra. Po trzecie, SVM jest zdefiniowany przez wypukły problem optymalizacji (brak lokalnych minimów), dla którego istnieją wydajne metody (np. SMO). Wreszcie, jest to przybliżenie do granicy błędu testowego, a za tym stoi spory zasób teorii, który sugeruje, że powinien to być dobry pomysł.
Wady polegają na tym, że teoria tak naprawdę obejmuje jedynie określenie parametrów dla danej wartości regularyzacji i parametrów jądra oraz wybór jądra. W pewnym sensie SVM przenosi problem nadmiernego dopasowania z optymalizacji parametrów do wyboru modelu. Niestety modele jądra mogą być dość wrażliwe na nadmierne dopasowanie kryterium wyboru modelu, patrz
GC Cawley i NLC Talbot, Nadmierne dopasowanie w wyborze modelu i późniejsze odchylenie wyboru w ocenie wydajności, Journal of Machine Learning Research, 2010. Research, vol. 11, s. 2079–2107, lipiec 2010 r. ( Pdf )
Zauważ jednak, że ten problem nie jest unikalny dla metod jądra, większość metod uczenia maszynowego ma podobne problemy. Utrata zawiasu zastosowana w SVM powoduje rzadkość. Jednak często optymalny wybór parametrów jądra i regularyzacji oznacza, że wszystkie dane są wektorami pomocniczymi. Jeśli naprawdę chcesz mieć rzadką maszynę jądra, użyj czegoś, co zostało zaprojektowane od samego początku jako rzadkie (zamiast być użytecznym produktem ubocznym), na przykład Informacyjnej Maszyny Wektorowej. Funkcja straty używana do regresji wektora podporowego nie ma oczywistej interpretacji statystycznej, często specjalistyczną wiedzę na temat problemu można zakodować w funkcji straty, np. Poissona, Bety lub Gaussa. Podobnie w wielu problemach z klasyfikacją naprawdę chcesz prawdopodobieństwo członkostwa w klasie,
To wszystko, co mogę wymyślić z ręki.