W jaki sposób SVM = dopasowanie szablonu?

Przeczytałem o maszynach SVM i dowiedziałem się, że rozwiązują one problem optymalizacji, a maksymalny margines był bardzo rozsądny.

Teraz, za pomocą jąder, mogą znaleźć nawet nieliniowe granice separacji, co było świetne.

Jak dotąd naprawdę nie mam pojęcia, w jaki sposób SVM (specjalna maszyna jądra) i maszyny jądra są powiązane z sieciami neuronowymi?

Rozważ komentarze Yanna Lecuna => tutaj :

kernel methods were a form of glorified template matching

i tutaj również :

Na przykład niektórzy ludzie byli oszołomieni metodami jądra z powodu uroczej matematyki, która się z tym wiąże. Ale, jak powiedziałem w przeszłości, maszyny jądra są w końcu płytkimi sieciami, które wykonują „doskonałe dopasowanie szablonów”. Nie ma w tym nic złego (SVM to świetna metoda), ale ma ogromne ograniczenia, o których wszyscy powinniśmy wiedzieć.

Więc moje pytania to:

W jaki sposób SVM jest powiązany z siecią neuronową? Jak to jest płytka sieć?
SVM rozwiązuje problem optymalizacji z dobrze zdefiniowaną funkcją celu, w jaki sposób dopasowuje szablon? Jaki jest tutaj szablon, do którego dopasowuje się dane wejściowe?

Sądzę, że te komentarze wymagają dogłębnego zrozumienia przestrzennych przestrzeni, sieci neuronowych i maszyn jądra, ale do tej pory próbowałem i nie mogłem zrozumieć logiki, która za tym stoi. Ale z pewnością interesujące jest powiązanie dwóch bardzo różnych technik ml.

EDYCJA: Myślę, że zrozumienie SVM z perspektywy neuronowej byłoby świetne. Szukam dokładnej, popartej matematyką odpowiedzi na powyższe dwa pytania, aby naprawdę zrozumieć związek między SVM i sieciami neuronowymi, zarówno w przypadku liniowego SVM, jak i SVM z trikiem jądra.

— Rafael
źródło

SVM są dość łatwe i szybkie w trenowaniu, z odpowiednim jądrem. Niektóre zadania nie wymagają głębokiej sieci neuronowej.

— Vladislavs Dovgalecs

@ xeon cześć, czy możesz spojrzeć na odpowiedź, przypuszczam, że wymaga ona poprawy. dzięki.

— Rafael

W jaki sposób SVM jest powiązany z siecią neuronową? Jak to jest płytka sieć?

SVM jest jednowarstwową siecią neuronową z utratą zawiasu jako funkcją utraty i wyłącznie aktywacją liniową. Koncepcja została wspomniana w poprzednich wątkach, takich jak ten: Jednowarstwowa sieć neuronowa z aktywacją RelU równą SVM?

SVM rozwiązuje problem optymalizacji z dobrze zdefiniowaną funkcją celu, w jaki sposób dopasowuje szablon? Jaki jest tutaj szablon, do którego dopasowuje się dane wejściowe?

Gram Matrix (macierz jądra, jeśli wolisz) jest miarą podobieństwa. Ponieważ SVM pozwala na rzadkie rozwiązania, przewidywanie staje się kwestią porównania próbki z szablonami, tj. Wektorami pomocniczymi.

— Firebug
źródło

dziękuję za odpowiedź, najlepiej wyjaśnij trochę matematyką. To by było naprawdę świetne :)

— Rafael

Mniej więcej rozumiem dopasowanie szablonu, ale nie dostałem oświadczenia: ponieważ SVM pozwala na rzadkie rozwiązania .. co rzadkie rozwiązania mają tutaj do zrobienia? Prognozowanie z definicji odbywa się poprzez podobieństwo ważenia do szablonów, więc nie rozumiem, skąd pochodzi rzadkość. Dodaj także kilka wierszy dotyczących funkcji aktywacji utraty zawiasu. Wielkie dzięki :)

— Rafael