Czy proces Gaussa (regresja) ma uniwersalną właściwość aproksymacji?


10

Czy jakakolwiek funkcja ciągła na [a, b], gdzie aib są liczbami rzeczywistymi, może być aproksymowana lub arbitralnie bliska funkcji (w niektórych normach) za pomocą procesów Gaussa (regresja)?


1
Uszczegółów!
Henry.L

1
tak! Właściwie zależy to od funkcji kowariancji, ale dla niektórych z nich tak . Dustin Tran i in. udowodnił także uniwersalne twierdzenie o aproksymacji w ramach Bayesa dla wariacyjnego procesu gaussowskiego , który jest bardziej złożonym modelem ze względu na funkcje wypaczania, ale jest bardzo blisko powiązany. Napiszę odpowiedź, jeśli pytanie zostanie ponownie otwarte. PS zauważają, że uniwersalne przybliżenie, podobnie jak w przypadku sieci neuronowych, obejmuje tylko zwarty zestaw, a nie cały Rp .
DeltaIV

3
Wydaje się, że stwierdzenie „uniwersalne zbliżenie” w tym pytaniu ma niewiele lub nie ma nic wspólnego ze stwierdzeniem w cytowanym artykule w Wikipedii. Rzeczywiście, nie jest nawet jasne, jak można zbliżyć funkcję do procesu . Czy mógłbyś wyjaśnić, o co próbujesz zapytać?
whuber

5
@ whuber Chociaż szczegóły techniczne mogą być nieco luźne, myślę, że pytanie zasadniczo oznacza „W przypadku funkcji wejściowej , czy istnieje realizacja określonego GP, który jest arbitralnie bliski (w niektórych normach)?” A może: „Gdy obserwujemy nieskończenie wiele punktów próbnych z funkcji i przeprowadzamy standardowe GP na podstawie tych danych, czy wyuczona funkcja tylna zbliża się do prawdziwej funkcji (w pewnym sensie)?” Te dwie rzeczy są oczywiście różnymi właściwościami, ale uważam, że są wystarczająco blisko, aby być odpowiedzialnymi (i dlatego oddałem piąty głos na ponowne otwarcie). f fffff
Dougal,

1
Może chcesz udowodnić zbieżność zamiast przybliżenia. W przeciwnym razie dowód jest prosty: możesz przyjąć tę funkcję jak wcześniej dla średniej. To niewiele więcej niż , ale działa. x=x
Karel Macek

Odpowiedzi:


16

Jak zauważa @Dougal, istnieją dwa różne sposoby interpretacji pytania. Są blisko spokrewnieni, nawet jeśli może się to nie wydawać.

Pierwsza interpretacja jest następująca: niech będzie zwartym podzbiorem (zwartość jest fundamentalna dla wszystkich następujących elementów !!!), niech będzie ciągła funkcja kowariancji (lub jądro) zdefiniowana na , i oznacza za pomocą znormalizowaną przestrzeń funkcji ciągłych na , wyposażoną w maksymalną normę . Dla dowolnej funkcji , można zbliżyć do wcześniej określonej tolerancji przez funkcję w RKHS (Reproducing Kernel Hilbert Space) powiązaną zR d k ( x , x ) X × X C ( X ) X | | | | f C ( X ) f ϵ kXRdk(x,x)X×XC(X)X||||fC(X)fϵk? Możesz się zastanawiać, czym jest RKHS i co to wszystko ma wspólnego z regresją procesu Gaussa. RKHS jest zamknięciem przestrzeni wektorowej utworzonej przez wszystkie możliwe skończone liniowe kombinacje wszystkich możliwych funkcji w którym . Jest to bardzo ściśle związane z regresją procesu Gaussa, ponieważ biorąc pod uwagę proces Gaussa przed na przestrzeni , a następnie (zamknięcie) przestrzenią wszystkich możliwych tylnych środków, które można wygenerować za pomocą regresji procesu Gaussa, jest dokładnie RKHS. W rzeczywistości wszystkie możliwe tylne środki mają formęf y ( x ) = k ( x , y ) yX G P ( 0 , k ( x , xK(X)fy(x)=k(x,y)yXGP(0,k(x,x))C(X)

f(x)=i=1ncik(x,xi)

tzn. są skończonymi liniowymi kombinacjami funkcji . Tak więc, że skuteczne z zapytaniem, czy z uwagi na Gaussa procesu przed o , dla każdej funkcji jest jest zawsze funkcją w przestrzeni (zamknięciu) wszystkich funkcji, które mogą być generowane przez GPR, która jest tak bliska, jak to pożądane dla .fxi(x)=k(x,xi)GP(0,k(x,x))C(X)fC(X)ff

Odpowiedź, w przypadku niektórych konkretnych jąder (w tym klasycznego jądra z kwadratem wykładniczym, ale bez jądra wielomianowego) brzmi „ tak” . Można udowodnić, że dla takich jąder jest gęsty w , tj. Dla dowolnego i dla dowolnej tolerancji , istnieje w takie jak że . Zwróć uwagę na założenia: jest zwarty, jest ciągły, a jest ciągłym jądrem posiadającym tak zwaną uniwersalną właściwość aproksymacji. Zobacz tutajC ( X ) f C ( X ) ϵ fK(X)C(X)fC(X)ϵ K ( X ) | | f - f | | < ϵ X f kfK(X)||ff||<ϵXfk dla pełnego dowodu w bardziej ogólnym (skomplikowanym) kontekście.

Ten wynik jest znacznie słabszy niż na pierwszy rzut oka. Nawet jeśli znajduje się w (zamknięciu) przestrzeni tylnych środków, które mogą być generowane przez GPR, nie udowodniliśmy, że jest to szczególna tylna średnia zwrócona przez GPR, dla zestawu treningowego wystarczająco dużego, gdzie oczywiście zestaw treningowy składa się z głośnych obserwacji w punktach . Nie udowodniliśmy nawet, że tylna wartość zwrócona przez GPR w ogóle się zbiega, dla ! To właściwie druga interpretacja zaproponowana przez @Dougal. Odpowiedź na to pytanie zależy od odpowiedzi na pierwsze pytanie: jeśli nie ma żadnej funkcji f x 1 , , x n n f fffx1,,xnnfw RKHS, który jest „dobrym przybliżeniem” do , oczywiście nie możemy mieć nadziei, że tylna wartość zwrócona przez GPR będzie do niej zbieżna. To jednak inne pytanie. Jeśli chcesz również uzyskać odpowiedź na to pytanie, zadaj nowe pytanie.f

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.