Jaka jest funkcja utraty twardej marży SVM?

23

$\max(0,1-y_i(w^\intercal x_i+b))$

\frac{1}{2} ‖ w ‖^{2} + C \sum_{i} max (0, 1 - y_{i} (w^{⊺} x_{i} + b))

$\frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b))$

‖ w ‖^{2}

$\|w\|^2$

max (0, 1 - y_{i} (w^{⊺} x_{i} + b))

$\max(0,1-y_i(w^\intercal x_i+b))$

Jednak w przypadku SVM z twardym marginesem cała funkcja celu to po prostu

\frac{1}{2} ‖ w ‖^{2}

$\frac{1}{2}\|w\|^2$ Czy to oznacza, że SVM z twardym marginesem minimalizuje tylko regularyzator bez funkcji straty? Brzmi bardzo dziwnie.

Cóż, jeśli $\frac{1}{2}\|w\|^2$ jest funkcją straty w tym przypadku, czy możemy ją nazwać funkcją straty kwadratowej? Jeśli tak, to dlaczego funkcja utraty twardego marginesu SVM staje się regulatorem w miękkim marginesie SVM i dokonuje zmiany z straty kwadratowej na utratę zawiasów?

svm loss-functions

— Roun
źródło

Z tego co rozumiem, twardy margines oznacza, że nie akceptujesz danych na twoim marginesie. W związku z tym max (0, obliczenie) zawsze zwróci 0.

— fxm

26

Warunek utraty zawiasu $\sum_i\max(0,1-y_i(\mathbf{w}^\intercal \mathbf{x}_i+b))$ w miękkim marginesie SVM karze błędne klasyfikacje . W twardym marginesie SVM z definicji nie ma błędnych klasyfikacji.

To rzeczywiście oznacza, że SVM z twardym marginesem próbuje zminimalizować $\|\mathbf{w}\|^2$ . Ze względu na sformułowanie problemu SVM margines wynosi $2/\|\mathbf{w}\|$ . Jako takie, minimalizacja normy $\mathbf{w}$ jest geometrycznie równoważna maksymalizacji marginesu. Dokładnie to, czego chcemy!

Regulararyzacja jest techniką pozwalającą uniknąć nadmiernego dopasowania poprzez karanie dużych współczynników w wektorze rozwiązania. W ciężkiej marży SVM jest zarówno funkcja straty i regularizer. $\|\mathbf{w}\|^2$ $L_2$

W SVM z miękkim marginesem, parametr utraty zawiasu działa również jak regularyzator, ale na zmiennych luzu zamiast i w zamiast . indukuje rzadkość, dlatego standardowa SVM jest rzadka pod względem wektorów wspierających (w przeciwieństwie do SVM o najmniejszych kwadratach). $\mathbf{w}$ $L_1$ $L_2$ $L_1$

— Marc Claesen
źródło

Czy możesz wyjaśnić ostatnie dwa akapity kilkoma szczegółami i matematyką?

— Nain

0

Dla wyjaśnienia, jest zminimalizowany z zastrzeżeniem ograniczenia, że punkty można rozdzielić liniowo (tzn. Można narysować hiperpłaszczyznę, która doskonale oddziela te dwa). Innymi słowy, jedynymi dozwolonymi wartościami w, które możemy rozważyć jako rozwiązania, są te, które oddzielają dwa zestawy punktów.

\frac{1}{2)} ‖ w ‖^{2)}

$\frac{1}{2}\|w\|^2$

Uważa się, że SVM z twardym marginesem „łatwiej się dopasowuje” niż miękki margines. Łatwiej jest to sobie wyobrazić przy użyciu SVM RBF o wystarczająco wysokim współczynniku , który może tworzyć (zbyt) skomplikowane i (potencjalnie) przesadne granice decyzyjne. Im trudniejszy margines (emulowany nieprecyzyjnie z wyższym „C”), tym trudniej będzie szukać granic decyzji, które idealnie sklasyfikują dwa zestawy punktów. $\gamma$

Kiedy przechodzimy do „miękkiego marginesu”, ograniczenia zostają złagodzone i zastąpione ograniczeniem poprzez wprowadzenie „luzu”. Ta zmienna luzu jest definiowana przez „utratę zawiasu”. Po uproszczeniu dochodzi się do zawiasu + l2, jak termin utraty, który wszyscy kojarzą z SVM. FWIW, lubię kadrować SVM jako bardziej problem optymalizacji zamiast wszechobecnego problemu „podążaj za gradientami”.

— Ishan Patel
źródło