Jaka jest różnica między przeprowadzaniem regresji liniowej za pomocą Gaussian Radial Basis Function (RBF) a wykonywaniem regresji liniowej za pomocą jądra Gaussa?
Jaka jest różnica między przeprowadzaniem regresji liniowej za pomocą Gaussian Radial Basis Function (RBF) a wykonywaniem regresji liniowej za pomocą jądra Gaussa?
Odpowiedzi:
Jedyną prawdziwą różnicą jest zastosowana regularyzacja. Standaryzowana sieć RBF zazwyczaj stosuje karę opartą na kwadratowej normie wag. W przypadku wersji jądra karą jest zazwyczaj kwadratowa norma wag modelu liniowego skonstruowanego domyślnie w przestrzeni cech indukowanej przez jądro. Kluczową różnicą praktyczną jest to, że kara dla sieci RBF zależy od centrów sieci RBF (a zatem od próbki użytych danych), podczas gdy dla jądra RBF indukowana przestrzeń cech jest taka sama, niezależnie od próbki danych, więc kara jest karą dla funkcji modelu, a nie jego parametryzacji .
Innymi słowy, dla obu modeli mamy
W przypadku sieci RBF kryterium szkolenia jest następujące
W przypadku metody jądra RBF mamy oraz . Oznacza to, że kwadratową normę karną za ciężary modelu w indukowanej przestrzeni cech, można zapisać w kategoriach podwójnych parametrów, jako
gdzie jest ewaluacji jądra dla wszystkich wzorców treningowych. Kryterium szkolenia jest zatem
.
Jedyną różnicą między tymi dwoma modelami jest w terminie regularyzacji.
Kluczową teoretyczną zaletą podejścia jądra jest to, że pozwala on interpretować model nieliniowy jako model liniowy po stałej transformacji nieliniowej, która nie zależy od próbki danych. Tak więc każda teoria uczenia statystycznego, która istnieje dla modeli liniowych, automatycznie przechodzi do wersji nieliniowej. Wszystko to jednak się psuje, gdy tylko spróbujesz dostroić parametry jądra. W tym momencie teoretycznie powracamy do tego samego punktu, co w sieci neuronowej RBF (i MLP). Zatem teoretyczna przewaga nie jest może tak duża, jak byśmy tego chcieli.
Czy to może mieć jakikolwiek wpływ na wydajność? Prawdopodobnie niewiele. Twierdzenia o „braku darmowego lunchu” sugerują, że nie ma wyższości żadnego algorytmu a priori nad wszystkimi innymi, a różnica w regularyzacji jest dość subtelna, więc jeśli masz wątpliwości, spróbuj obu i wybierz najlepszy zgodnie np. Z walidacją krzyżową.