Myślę, że kluczem do magii jest gładkość. Moja długa odpowiedź, która następuje, to po prostu wyjaśnienie tej gładkości. To może być odpowiedź, której się nie spodziewasz.
Krótka odpowiedź:
Pozytywny określony jądra istnieje odpowiadający mu przestrzeni funkcji H . Właściwości funkcji są określane przez jądro. Okazuje się, że jeśli k jest jądrem Gaussa, funkcje w H są bardzo płynne. Zatem wyuczona funkcja (np. Funkcja regresji, główne składniki w RKHS jak w jądrze PCA) jest bardzo płynna. Zazwyczaj założenie płynności jest sensowne w przypadku większości zestawów danych, które chcemy rozwiązać. To wyjaśnia, dlaczego jądro Gaussa jest magiczne.kHkH
Długa odpowiedź na pytanie, dlaczego jądro Gaussa zapewnia płynne funkcje:
Dodatni określony jądra określa (pośrednio) wewnętrznego produktu k ( x , y ) = ⟨ φ ( x ) , φ ( y ) ⟩ H
na wektor cech cp ( x ) zbudowane z wejściowego x i
H jest przestrzenią Hilberta. Oznaczenie ⟨ φ ( x ) , φ ( y ) ⟩k(x,y)k(x,y)=⟨ϕ(x),ϕ(y)⟩Hϕ(x)xH⟨ϕ(x),ϕ(y)⟩
oznacza iloczyn wewnętrzny między a ϕ ( y ) . Dla naszego celu możesz wyobrazić sobie H jako zwykłą przestrzeń euklidesową, ale być może o nieskończonej liczbie wymiarów. Wyobraź sobie zwykły wektor, który jest nieskończenie długi, jak ϕ ( x ) = ( ϕ 1 ( x ) , ϕ 2 ( x ) , … ) . W metodach jądra Hϕ(x)ϕ(y)Hϕ(x)=(ϕ1(x),ϕ2(x),…)Hto przestrzeń funkcji zwana przestrzenią jądra Hilberta (RKHS). Przestrzeń ta ma szczególną właściwość o nazwie `` nieruchomość odtwarzania '', który jest, że . Mówi to, że aby ocenić f ( x ) , najpierw konstruujemy wektor cech (nieskończenie długi, jak wspomniano) dla f . Następnie konstruujesz wektor cech dla x oznaczonego przez ϕ ( x ) (nieskończenie długi). Ocena f ( x )f(x)=⟨f,ϕ(x)⟩f(x)fxϕ(x)f(x)jest otrzymywany poprzez wzięcie wewnętrznego iloczynu obu tych czynników. Oczywiście w praktyce nikt nie zbuduje nieskończenie długiego wektora. Ponieważ zależy nam tylko na jego wewnętrznym produkcie, po prostu bezpośrednio oceniamy jądra . Ominięcie obliczeń jawnych funkcji i bezpośrednie obliczenie jego wewnętrznego produktu jest znane jako „sztuczka jądra”.k
Jakie są funkcje?
Ciągle powtarzałem funkcje bez określania, czym one są. Biorąc pod uwagę jądro k , funkcje nie są unikalne. Jednak
⟨ φ ( x ) , φ ( y ) ⟩ jest jednoznacznie określony. Aby wyjaśnić płynność funkcji, rozważmy cechy Fouriera. Załóżmy, że jądro k niezmiennika translacji k , co oznacza k ( x , y ) = k ( x - yϕ1(x),ϕ2(x),…k⟨ϕ(x),ϕ(y)⟩k
tj. jądro zależy tylko od różnicy dwóch argumentów. Jądro Gaussa ma tę właściwość. Niech k oznacza transformaty Fouriera k .k(x,y)=k(x−y)k^k
W tej perspektywie Fouriera funkcje
są przez F : = ( ⋯ , F l / √f. To znaczy, że reprezentacja funkcji twojej funkcjif
jest wyrażona przez jej transformatę Fouriera podzieloną przez transformację Fourera jądrak. Reprezentacja cechyx, która jestϕ(x),
to(⋯,√f:=(⋯,f^l/k^l−−√,⋯)fkxϕ(x)
, gdziei=√(⋯,k^l−−√exp(−ilx),⋯) . Można wykazać, że własność reprodukcyjna zachowuje się (ćwiczenie dla czytelników).i=−1−−−√
f∈H
∥f∥2H=⟨f,f⟩H=∑∞l=−∞f^2lk^l.
Kiedy więc ta norma jest skończona, tj. należy do przestrzeni? Wtedy spada szybciej niż tak że suma jest zbieżna. Teraz transformacja Fouriera jądra gaussowskiegof 2 l K L k ( x , y ) = exp ( - ‖ x - y ‖ 2ff^2lk^l k(x,y)=exp(−∥x−y∥2σ2)
jest kolejnym gaussowskim, gdzie maleje wykładniczo szybko z . Więc jeśli ma być w tej przestrzeni, jego transformata Fouriera musi spaść nawet szybciej niż . Oznacza to, że funkcja będzie miała efektywnie tylko kilka komponentów niskiej częstotliwości o dużych masach. Sygnał zawierający tylko komponenty niskiej częstotliwości nie `` bardzo się porusza ''. To wyjaśnia, dlaczego jądro Gaussa zapewnia płynną funkcję.LMKk^llfk
Dodatkowo: Co z jądrem Laplace?
Jeśli weźmiesz pod uwagę jądro Laplace'a ,
jego transformacja Fouriera jest rozkładem Cauchy'ego, który spada znacznie wolniej niż wykładniczy funkcja w transformacie Fouriera jądra Gaussa. Oznacza to, że funkcja będzie miała więcej komponentów wysokiej częstotliwości. W rezultacie funkcja nadana przez jądro Laplace'a jest `` szorstsza '' niż funkcja nadana przez jądro Gaussa.k(x,y)=exp(−∥x−y∥σ)f
Jaka właściwość jądra Gaussa nie ma innych jąder?
Niezależnie od szerokości Gaussa jedną właściwością jest to, że jądro Gaussa jest `` uniwersalne ''. Intuicyjnie oznacza to, że biorąc pod uwagę ograniczoną funkcję ciągłą (dowolną), istnieje funkcja taka, że i
są bliskie (w znaczeniu do wymaganej dokładności. Zasadniczo oznacza to, że jądro Gaussa udostępnia funkcje, które mogą dowolnie przybliżać funkcje „ładne” (ograniczone, ciągłe). Jądra Gaussa i Laplace'a są uniwersalne. Jądro wielomianowe na przykład nie jest.gf∈Hfg∥⋅∥∞)
Dlaczego nie poddamy normy, powiedzmy, pliku PDF z Cauchy i nie oczekujemy takich samych wyników?
Ogólnie rzecz biorąc, możesz robić cokolwiek zechcesz, o ile wynikowa wartość
jest dodatnia. Pozytywna definitywność jest zdefiniowana jako
dla wszystkich , i wszystkich
(zestaw liczb naturalnych) . Jeśli nie jest określone dodatnio, to nie odpowiada wewnętrznej przestrzeni produktu. Cała analiza psuje się, ponieważ nie masz nawet przestrzeni funkcji
jak wspomniano. Niemniej jednak może działać empirycznie. Na przykład hiperboliczne jądro stycznej (patrz numer 7 na tej stronie )k∑Ni=1∑Nj=1k(xi,xj)αiαj>0αi∈R{xi}Ni=1N∈NkH
k(x,y)=tanh(αx⊤y+c)
który ma naśladować sigmoidalne jednostki aktywacyjne w sieciach neuronowych, jest tylko pozytywnie określony dla niektórych ustawień i . Wciąż zgłaszano, że działa w praktyce.αc
Co z innymi rodzajami funkcji?
Powiedziałem, że funkcje nie są unikalne. W przypadku jądra gaussowskiego inny zestaw funkcji zapewnia rozszerzenie Mercer . Zobacz rozdział 4.3.1 słynnej książki procesu Gaussa . W tym przypadku cechami są wielomiany Hermite'a oceniane przy .ϕ(x)x