Jaki jest model statystyczny za algorytmem SVM?

Nauczyłem się, że w przypadku danych przy użyciu podejścia modelowego pierwszym krokiem jest modelowanie procedury danych jako modelu statystycznego. Następnie kolejnym krokiem jest opracowanie wydajnego / szybkiego wnioskowania / algorytmu uczenia się w oparciu o ten model statystyczny. Chcę więc zapytać, który model statystyczny stoi za algorytmem maszyny wektorowej wsparcia (SVM)?

machine-learning svm modeling

— Huy Nguyen
źródło

Odpowiedzi:

Często możesz napisać model, który odpowiada funkcji straty (tutaj będę mówić o regresji SVM zamiast klasyfikacji SVM; jest to szczególnie proste)

Na przykład w modelu liniowym, jeśli twoja funkcja utraty to to minimalizowanie będzie odpowiadało maksymalnemu prawdopodobieństwu dla . (Tutaj mam liniowe jądro) $\sum_i g(\varepsilon_i) = \sum_i g(y_i-x_i'\beta)$ $f\propto \exp(-a\,g(\varepsilon))$ $= \exp(-a\,g(y-x'\beta))$

Jeśli dobrze pamiętam, regresja SVM ma funkcję utraty:

Odpowiada to gęstości, która jest jednolita pośrodku z wykładniczymi ogonami (jak widzimy, wykładniczo wyrażając jej ujemną lub pewną wielokrotność jej ujemnej).

Jest ich rodzina z 3 parametrami: lokalizacja narożna (próg względnej niewrażliwości) oraz lokalizacja i skala.

To interesująca gęstość; jeśli dobrze pamiętam z patrzenia na ten konkretny rozkład sprzed kilku dekad, dobrym estymatorem dla jego lokalizacji jest średnia dwóch symetrycznie rozmieszczonych kwantyli odpowiadających temu, gdzie są rogi (np. midhinge dałby dobre przybliżenie MLE dla jednego konkretnego wybór stałej w stratach SVM); podobny estymator parametru skali byłby oparty na ich różnicy, podczas gdy trzeci parametr odpowiada w zasadzie określeniu, w jakim percentylu znajdują się rogi (można to wybrać raczej niż szacować, jak to często ma miejsce w przypadku SVM).

Tak więc przynajmniej w przypadku regresji SVM wydaje się to dość proste, przynajmniej jeśli zdecydujemy się uzyskać nasze estymatory z maksymalnym prawdopodobieństwem.

(W przypadku, gdy masz zamiar zapytać ... Nie mam odniesienia do tego konkretnego połączenia z SVM: Właśnie to wymyśliłem. Jest to tak proste, że dziesiątki osób opracują to przede mną, więc bez wątpienia tam są odniesienia do niej - ja po prostu nigdy nie widział w ogóle).

— Glen_b - Przywróć Monikę
źródło

(Odpowiedziałem na to wcześniej gdzie indziej, ale usunąłem to i przeniosłem tutaj, kiedy zobaczyłem, że również o to prosiłeś; umiejętność pisania matematyki i dołączania zdjęć jest tutaj znacznie lepsza - a funkcja wyszukiwania jest również lepsza, więc łatwiej jest ją znaleźć w kilka miesięcy)

— Glen_b

+1, a także waniliowy SVM ma także Gaussa przed swoimi parametrami poprzez -norm.

ℓ_{2}

$\ell_2$

— Firebug

Jeśli OP pyta o SVM, prawdopodobnie interesuje go klasyfikacja (która jest najczęstszą aplikacją SVM). W takim przypadku utratą jest utrata zawiasów, która jest nieco inna (nie masz rosnącej części). Jeśli chodzi o model, na konferencji usłyszałem, jak naukowcy mówili, że maszyny SVM zostały wprowadzone w celu przeprowadzenia klasyfikacji bez konieczności stosowania probabilistycznych ram. Prawdopodobnie dlatego nie możesz znaleźć referencji. Z drugiej strony możesz przekształcić minimalizację strat zawiasów jako empiryczną minimalizację ryzyka - co oznacza ...

— DeltaIV,

To, że nie musisz mieć struktury probabilistycznej ... nie oznacza, że to, co robisz, nie odpowiada żadnemu. Można robić co najmniej kwadraty bez zakładania normalności, ale warto zrozumieć, że dobrze sobie z tym radzi ... a kiedy nie ma cię w pobliżu, może być znacznie gorzej.

— Glen_b

Może icml-2011.org/papers/386_icmlpaper.pdf jest odniesienie do tego (mam tylko odtłuszczone go)?

— Lyndon Biały

Myślę, że ktoś już odpowiedział na twoje dosłowne pytanie, ale pozwól mi wyjaśnić potencjalne zamieszanie.

Twoje pytanie jest nieco podobne do następującego:

Mam tę funkcję i zastanawiam się, jakie równanie różniczkowe jest rozwiązaniem? $f(x) = \ldots$

Innymi słowy, z pewnością ma poprawną odpowiedź (być może nawet unikalną, jeśli narzucisz ograniczenia regularności), ale pytanie to jest dość dziwne, ponieważ nie było to równanie różniczkowe, które dało początek tej funkcji.
(Z drugiej strony, biorąc pod uwagę równanie różniczkowe, to jest naturalne, aby poprosić o jego rozwiązanie, ponieważ to zwykle dlaczego piszesz równanie!)

Oto dlaczego: Myślę, że myślisz o modelach probabilistycznych / statystycznych - w szczególności modelach generatywnych i dyskryminacyjnych , opartych na szacowaniu prawdopodobieństw łącznych i warunkowych na podstawie danych.

SVM nie jest żaden. To zupełnie inny rodzaj modelu - taki, który omija je i próbuje bezpośrednio modelować ostateczną granicę decyzji, prawdopodobieństwo jest przeklęte.

Ponieważ chodzi o znalezienie kształtu granicy decyzyjnej, intuicja, która się za nią kryje, jest geometryczna (a raczej powinna być oparta na optymalizacji), a nie probabilistyczna lub statystyczna.

Biorąc pod uwagę, że prawdopodobieństwa nie są tak naprawdę brane pod uwagę po drodze, raczej nietypowe jest pytanie, jaki mógłby być odpowiedni model probabilistyczny, a zwłaszcza, że głównym celem było uniknięcie konieczności martwienia się o prawdopodobieństwa. Dlatego nie widzisz ludzi mówiących o nich.

— Mehrdad
źródło

Myślę, że dyskontujesz wartość modeli statystycznych leżących u podstaw twojej procedury. Jest to użyteczne dlatego, że mówi ci, jakie założenia kryją się za metodą. Jeśli je znasz, możesz zrozumieć, z jakimi sytuacjami będzie się borykał i kiedy będzie prosperował. Jesteś w stanie uogólnić i rozszerzyć svm w sposób oparty na zasadach, jeśli masz model bazowy.

— probabilislogiczny

@probabilityislogic: „Myślę, że dyskontujesz wartość modeli statystycznych leżących u podstaw procedury”. ... Myślę, że rozmawiamy obok siebie. Próbuję powiedzieć, że za procedurą nie stoi model statystyczny. Ja nie mówiąc, że to nie jest możliwe, aby wymyślić taki, który pasuje mu posteriori, ale staram się wytłumaczyć, że to nie było „za”, to w żaden sposób, ale raczej „pasuje” do niej po fakcie . Ja też nie mówi, że robi coś takiego jest bezużyteczna; Zgadzam się z tobą, że może to mieć ogromną wartość. Proszę pamiętać o tych różnicach.

— Mehrdad

@Mehrdad: Nie mówię, że nie można wymyślić takiego, który pasuje do niego a posteriori, Kolejność, w jakiej zostały zmontowane części tego, co nazywamy maszyną svm (jaki problem pierwotnie próbowali ludzie, którzy ją zaprojektowali) do rozwiązania) jest interesujący z historycznego punktu widzenia. Ale z tego, co wiemy, może istnieć nieznany manuskrypt w jakiejś bibliotece zawierającej opis silnika svm sprzed 200 lat, który atakuje problem pod kątem, który badał Glen_b. Być może pojęcia a posteriori i po fakcie są mniej niezawodne w nauce.

— user603

@ user603: Problemem jest nie tylko historia. Aspekt historyczny to tylko połowa. Druga połowa dotyczy tego, w jaki sposób jest ona faktycznie uzyskiwana w rzeczywistości. Zaczyna się jako problem geometrii, a kończy na problemie z optymalizacją. Nikt nie zaczyna od modelu probabilistycznego w derywacji, co oznacza, że model probabilistyczny nie był w żadnym sensie „za” wynikiem. To tak, jakby twierdzić, że mechanika Lagrangiana jest „za” F = ma. Może może do tego doprowadzić i tak, jest to przydatne, ale nie, nie jest i nigdy nie było jego podstawą. W rzeczywistości celem było uniknięcie prawdopodobieństwa.

— Mehrdad