Dlaczego podczas korzystania z SVM muszę skalować funkcje?

Zgodnie z dokumentacją obiektu StandardScaler w scikit-learn:

Na przykład wiele elementów wykorzystywanych w funkcji celu algorytmu uczenia się (np. Jądro RBF maszyn wektora wektorowego lub regulatory modeli liniowych L1 i L2) zakłada, że wszystkie funkcje są wyśrodkowane wokół 0 i mają wariancję w tej samej kolejności. Jeśli cecha ma wariancję większą o rzędy wielkości niż inne, może zdominować funkcję celu i uniemożliwić estymatorowi uczenie się z innych cech poprawnie, zgodnie z oczekiwaniami.

Przed klasyfikacją powinienem skalować moje funkcje. Czy jest jakiś prosty sposób, aby pokazać, dlaczego powinienem to zrobić? Odniesienia do artykułów naukowych byłyby jeszcze lepsze. Znalazłem już jeden, ale prawdopodobnie jest wiele innych.

— scallywag
źródło

Odpowiedzi:

Wszystkie metody jądra oparte są na odległości. Funkcja jądra RBF to (używając dla prostota). $\kappa(\mathbf{u},\mathbf{v}) = \exp(-\|\mathbf{u}-\mathbf{v}\|^2)$ $\gamma=1$

Biorąc pod uwagę 3 wektory cech:

x_{1} = [1000, 1, 2], x_{2} = [900, 1, 2], x_{3} = [1050, - 10, 20] .

$\mathbf{x}_1 = [1000, 1, 2], \quad \mathbf{x}_2 = [900, 1, 2], \quad \mathbf{x}_3 = [1050, -10, 20].$

następnie , czyli jest podobno bardziej podobny do niż do . $\kappa( \mathbf{x}_1, \mathbf{x}_2) = \exp(-10000) \ll \kappa(\mathbf{x}_1, \mathbf{x}_3) = \exp(-2905)$ $\mathbf{x}_1$ $\mathbf{x}_3$ $\mathbf{x}_2$

Względne różnice między a: $\mathbf{x}_1$

x_{2} \to [0.1, 0, 0], x_{3} \to [0.05, - 10, 10] .

$\mathbf{x}_2 \rightarrow [0.1, 0, 0],\quad \mathbf{x}_3 \rightarrow [0.05, -10, 10].$

Zatem bez skalowania dochodzimy do wniosku, że jest bardziej podobny do niż do , mimo że względne różnice na funkcję między i są znacznie większe niż w i . $\mathbf{x}_1$ $\mathbf{x}_3$ $\mathbf{x}_2$ $\mathbf{x}_1$ $\mathbf{x}_3$ $\mathbf{x}_1$ $\mathbf{x}_2$

Innymi słowy, jeśli nie skalujesz wszystkich funkcji do porównywalnych zakresów, funkcje o największym zakresie będą całkowicie dominować w obliczeniach macierzy jądra.

Proste przykłady ilustrujące to można znaleźć w następującym artykule: Praktyczny przewodnik po klasyfikacji wektorów (sekcja 2.2).

— Marc Claesen
źródło

warto również omówić regularyzację: skala wag zależy od skali nakładów ...

— seanv507

Efektem regularyzacji jest to, że różne skalowania oznaczają różne optymalne , co jest nieco ortogonalne w stosunku do tego konkretnego problemu.

C

$C$

— Marc Claesen

Ale rzeczywiście może być tak, że bliskość wzdłuż jednego wymiaru jest ważniejsza. Tak więc celem nie jest naprawdę taka sama wariancja we wszystkich funkcjach, ale skalowanie ich w taki sposób, aby odległości wzdłuż każdej funkcji miały takie samo znaczenie dla zadania.

— isarandi

@Marc Claesen, jeśli twoje zmienne mają różne rzędy wielkości, to twoje wagi będą również różnych rzędów wielkości, a norma l2 skoncentruje się na danych wejściowych, które mają małą wariancję i odpowiednio duże wagi. Innymi słowy, regularyzacja norm wagi zapewnia, że „małe” nakłady mają niewielki wpływ. Ma to sens tylko wtedy, gdy ustandaryzowałeś „małe” (na podstawie danych wejściowych), np.

— Poprzez

@ seanv507, który dotyczy tylko liniowego SVM.

— Marc Claesen

Zależy to od używanego jądra. Zdecydowanie najczęściej stosowanym (oprócz liniowym) jest jądro gaussowskie, które ma formę

f = e x p (\frac{- | | x_{1} - x_{2} | |^{2}}{2 σ^{2}})

$f = exp \left ( \frac{- || x{_{1}} - x{_{2}} || ^2 }{2\sigma ^2} \right )$

SVM przyjmuje tę funkcję i używa jej do porównania podobieństwa punktu ( ) do każdego innego punktu w zestawie treningowym poprzez zsumowanie różnic w następujący sposób: $x1$

(x_{1} - l_{1})^{2} + (x_{2} - l_{2})^{2} . . . + (x_{n} - l_{n})^{2}

$(x{_{1}}-l{_{1}})^2+(x{_{2}}-l{_{2}})^2...+(x{_{n}}-l{_{n}})^2$

gdzie jest twoim przykładem, a wartości są punktami orientacyjnymi. $x$ $l$

Jeśli cecha wynosi od 0 do 50 000, podczas gdy cecha mieści się w zakresie od 0 do 0,01, możesz zobaczyć, że zdominuje tę sumę, podczas gdy będzie miało praktycznie żadnego wpływu. Z tego powodu konieczne jest skalowanie funkcji przed zastosowaniem jądra. $x{_{1}}$ $x{_{2}}$ $x{_{1}}$ $x{_{2}}$

Jeśli chcesz dowiedzieć się więcej, polecam moduł 12 (Wspierające maszyny wektorowe) z internetowego kursu Stanforda dotyczącego uczenia maszynowego w Coursera (bezpłatny i dostępny w dowolnym momencie): https://www.coursera.org/course/ml

— ralph346526
źródło