Czy maszyna wektorów wsparcia jest wrażliwa na korelację między atrybutami?

Chciałbym trenować maszynę SVM do klasyfikowania przypadków (PRAWDA / FAŁSZ) na podstawie 20 atrybutów. Wiem, że niektóre z tych atrybutów są wysoce skorelowane. Dlatego moje pytanie brzmi: czy SVM jest wrażliwy na korelację lub nadmiarowość między funkcjami? Jakieś referencje?

svm multicollinearity kernel-trick

— użytkownik7064
źródło

Domyślam się, że nie, ponieważ wygenerowanie separacji na podstawie jednej zmiennej osłabiłoby inne skorelowane zmienne w odniesieniu do dalszych separacji. Może jednak występować pewna niestabilność dotycząca wyboru wybranej zmiennej.

— mandata

Mówisz o liniowym SVM, jądrze RBF, czy ...?

— Dougal

Hmmmm, nie wiem ... czy odpowiedź zależy od tego?

— user7064

Tak, absolutnie. Możesz zaprojektować jądro, aby jawnie radzić sobie z korelacjami, jeśli chcesz.

— Dougal

@Dougal: Jeśli istnieją metody eliminacji efektu korelacji, czy nie oznacza to, że standardowy SVM jest wrażliwy na korelację?

— por

Jądro liniowe: tutaj efekt jest podobny do wielokoliniowości w regresji liniowej. Twój wyuczony model może nie być szczególnie stabilny w stosunku do niewielkich różnic w zestawie treningowym, ponieważ różne wektory ciężaru będą miały podobne wyniki. Prognozy zestawu treningowego będą jednak dość stabilne, podobnie jak prognozy testowe, jeśli pochodzą z tego samego rozkładu.

Jądro RBF: Jądro RBF patrzy tylko na odległości między punktami danych. Wyobraź sobie, że masz 11 atrybutów, ale jeden z nich powtarza się 10 razy (dość ekstremalny przypadek). Wtedy ten powtarzający się atrybut przyczyni się do odległości 10 razy więcej niż jakikolwiek inny atrybut, a na wyuczony model prawdopodobnie będzie miał znacznie większy wpływ na tę cechę.

$d(x, y) = \sqrt{ (x - y)^T S^{-1} (x - y) }$ $S$ $x$ $C x$ $C$ $S^{-1} = C^T C$ $S^{-1}$

— Dougal
źródło

To bardzo interesująca odpowiedź; Chciałbym przeczytać więcej o tym, jak złagodzić tego rodzaju problemy. Czy możesz dodać odniesienie lub dwa?

— Sycorax mówi Przywróć Monikę

Nie znam dobrego jednego z ręki, ale rozejrzę się trochę, może dziś wieczorem.

— Dougal

Niesamowite! Odbierz mnie, jeśli znajdziesz fajny artykuł. Cieszę się, że mój (+1) może dać ci ponad 3k. (-:

— Sycorax mówi: Przywróć Monikę

Kluczem jest odwrotność macierzy kowariancji w odległości Mahalanobisa. Jeśli można to wiarygodnie oszacować, można to uwzględnić.

— Vladislavs Dovgalecs