Jeśli interesuje Cię tylko przypadek liniowy, lepszym wyborem jest regresja logistyczna (LR), ponieważ jest ona zarówno wypukła, jak i analityczna (możesz chcieć ją usunąć, jeśli jesteś zainteresowany regularyzacją). Ale kiedy wybierasz nieliniowy, właśnie tam pojawia się trudna część. W przypadkach nieliniowych nie ma rozsądnego sposobu, aby utrzymać rzeczy zarówno wypukłe, jak i analityczne, będziesz musiał poświęcić jedną z dwóch. W sieciach neuronowych poświęcasz wypukłość, aw svms poświęcasz holomorfizm.
ściśle mówiąc, nie ma różnicy między LR i SVM, svms po prostu przewidują, po której stronie linii leży punkt, LR biorą również pod uwagę, jak daleko leżą od granicy (na linii marginesu granicznego sigmoid daje prawdopodobieństwo 0,5 w przypadku LR). Maszyny SVM są zmuszone do tego kompromisu, ponieważ dla jąder nieliniowych intuicja odległości od zakrzywionej hiperpłaszczyzny (odmiana algebraiczna jest lepszym terminem) nie jest taka sama jak w przypadku liniowym, w rzeczywistości problem rozwiązania najkrótszej odległości od hiperpłaszczyzny do określonego punktu jest bardzo trudne (trudniejsze niż sam SVM), ale z drugiej strony Vapnik zdał sobie sprawę, że przewidzenie, po której stronie granicy leży punkt, jest bardzo łatwe jak w czasie O (1). To jest prawdziwy wgląd w SVM, co czyni go jedyną dostępną alternatywą optymalizacji wypukłej w teorii uczenia statystycznego. Ale mam wrażenie, że poświęcasz trochę za dużo, zarówno holomorfizm, jak i natura probabilistyczna zostają utracone. Ale w szczególnych przypadkach, takich jak trymowanie gruntu, maszyny SVM są bardzo niezawodne i są również w pełni możliwymi do sfalsyfikowania modelami naukowymi, w przeciwieństwie do ich niewypukłych alternatyw.
Tldr: tak, twierdzenie o wartości średniej przychodzi na ratunek w przypadku funkcji nieanalitycznych. W przypadkach wypukłych-nieanalitycznych, twierdzenie o wartości średniej zamienia się w nierówność wyznaczającą pewne warunki brzegowe dla sub-gradientów, które służą do wykonania przyzwoitego gradientu