Interpretowanie odległości od hiperpłaszczyzny w SVM


14

Mam kilka wątpliwości co do intuicyjnego zrozumienia SVM. Załóżmy, że przeszkoliliśmy model SVM do klasyfikacji przy użyciu standardowych narzędzi, takich jak SVMLight lub LibSVM.

  1. Kiedy używamy tego modelu do przewidywania danych testowych, model generuje plik mający wartości „alfa” dla każdego punktu testowego. Jeśli wartość alfa jest dodatnia, punkt testowy należy do klasy 1, w przeciwnym razie należy do klasy 2. Czy możemy powiedzieć, że punkt testowy o większej wartości „alfa” należy do odpowiedniej klasy o „wyższym” prawdopodobieństwie?

  2. Podobne do pierwszego pytania, kiedy mamy przeszkolonego SVM. SV leżą bardzo blisko hiperpłaszczyzny. Czy to oznacza, że ​​SV należy do tej klasy z dużym prawdopodobieństwem? Czy możemy powiązać prawdopodobieństwo punktu należącego do klasy z jego odległością od „hiperpłaszczyzny”? Czy wartość „alfa” oznacza odległość od „hiperpłaszczyzny”?

Dzięki za wkład.


Myślę, że odpowiedź brzmi „nie”, ale nie mam wystarczającej mocy, aby udzielić pełnej odpowiedzi. Moja bezpośrednia odpowiedź jest taka, że ​​kiedy jesteś po wschodniej stronie muru berlińskiego, cóż, jesteś po złej stronie, bez względu na to, jak daleko jesteś od niej.
Arthur

scikits.learn ma predykcję_proba dla SVC i linear_model.SGDClassifier, uważam, że tylko dla klasyfikatorów binarnych; Jednak nie użyłem tego.
denis

Odpowiedzi:


18

Pozwól, że najpierw odpowiem na twoje pytanie. SVM nie jest modelem probabilistycznym. Jednym z powodów jest to, że nie odpowiada to normalizowanemu prawdopodobieństwu. Na przykład, w uregulowanej najmniejszych kwadratów mieć funkcję strat a regularizer wag 2 2 . Wektor masy jest uzyskiwany przez minimalizację sumy tych dwóch. Jest to jednak równoważne z maksymalizacją logarytmu tylnego w przy danych p ( w | ( yiyiw,xib22w22w , który widać jako iloczyn prawdopodobieństwo Gaussa i przeor Gaussa na w ( Zp(w|(y1,x1),...,(ym,xm))1/Zexp(w22)iexp(yiw,xib22)wZupewnia się, że się normalizuje). Do funkcji prawdopodobieństwa Gaussa dochodzisz z funkcji straty przez odwrócenie jej znaku i potęgowanie go. Jeśli jednak zrobisz to z funkcją straty SVM, prawdopodobieństwo logarytmiczne nie będzie znormalizowanym modelem probabilistycznym.

Istnieją próby przekształcenia SVM w jeden. Najbardziej godnym uwagi, który - jak sądzę - jest również zaimplementowany w libsvm, jest:

John Platt: Wyniki probabilistyczne dla wektorów pomocniczych i porównanie ze znormalizowanymi metodami wiarygodności (NIPS 1999): http://www.cs.colorado.edu/~mozer/Teaching/syllabi/6622/papers/Platt1999.pdf

ααiSVαik(x,xi)+byy=iSVαik(x,xi)+b=w,ϕ(x)H+bwywwH=i,jSVαiαjk(xi,xj)


Dziękujemy za wyjaśnienie ... przeczytam artykuł
Amit
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.