Problem zabawki z regresją procesu Gaussa

Próbowałem uzyskać intuicję w regresji procesu Gaussa, więc podjąłem prosty problem z zabawką 1D, aby wypróbować. wziąłem $x_i=\{1,2,3\}$ jako dane wejściowe, oraz $y_i=\{1,4,9\}$ jako odpowiedzi. („Inspirowane” z $y=x^2$ )

Do regresji użyłem standardowej kwadratowej wykładniczej funkcji jądra:

k (x_{p}, x_{q}) = σ_{f}^{2} \exp (- \frac{1}{2 l^{2}} {| x_{p} - x_{q} |}^{2})

$k(x_p,x_q)=\sigma_f^2 \exp \left( - \frac{1}{2l^2} \left|x_p-x_q\right|^2 \right)$

Założyłem, że z odchyleniem standardowym był hałas $\sigma_n$ , dzięki czemu macierz kowariancji stała się:

K_{p q} = k (x_{p}, x_{q}) + σ_{n}^{2} δ_{p q}

$K_{pq} = k(x_p,x_q) + \sigma_n^2 \delta_{pq}$

Hiperparametry $(\sigma_n,l,\sigma_f)$ zostały oszacowane przez maksymalizację logarytmu prawdopodobieństwa danych. Aby dokonać prognozy w punkcie $x_\star$ Znalazłem odpowiednio średnią i wariancję w następujący sposób

μ_{x_{⋆}} = k_{⋆}^{T} (K + σ_{n}^{2} I)^{- 1} y

$\mu_{x_\star} = k_\star^T (\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} y$

σ_{x_{⋆}}^{2} = k (x_{⋆}, x_{⋆}) - k_{⋆}^{T} (K + σ_{n}^{2} I)^{- 1} k_{⋆}

$\sigma_{x_\star}^2 = k(x_\star,x_\star)-k_\star^T(\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} k_\star$

gdzie $k_\star$ jest wektorem kowariancji pomiędzy $x_\star$ i dane wejściowe, oraz $y$ jest wektorem wyników.

Moje wyniki dla $1<x<3$ pokazano poniżej. Niebieska linia jest średnią, a czerwone linie oznaczają standardowe przedziały odchyleń.

Wyniki

Nie jestem jednak pewien, czy to prawda; moje dane wejściowe (oznaczone „X”) nie leżą na niebieskiej linii. Widzę większość przykładów przecinających dane wejściowe. Czy należy się tego spodziewać?

regression gaussian-process

— Comp_Warrior
źródło

Gdybym musiał zgadywać, w przykładach, na które patrzyłeś, nie było błędu resztkowego. W takim przypadku linia przechodzi przez wszystkie punkty.

— facet

@ Dobrze dokładnie.

Odpowiedzi:

Średnia funkcja przechodząca przez punkty danych jest zwykle oznaką nadmiernego dopasowania. Optymalizacja hiperparametrów przez maksymalizację marginalnego prawdopodobieństwa będzie sprzyjać bardzo prostym modelom, chyba że będzie wystarczającej ilości danych, aby uzasadnić coś bardziej złożonego. Ponieważ masz tylko trzy punkty danych, które są mniej więcej w linii z niewielkim hałasem, znaleziony model wydaje mi się dość rozsądny. Zasadniczo dane można albo wyjaśnić jako liniową funkcję leżącą u podstaw z umiarkowanym szumem, albo umiarkowanie nieliniową funkcję leżącą u podstawy z niewielkim hałasem. Ta pierwsza jest prostszą z dwóch hipotez i jest faworyzowana przez „brzytwę Ockhama”.

— Dikran Torbacz
źródło

Dzięki za wkład. Czy możesz mi powiedzieć więcej o „nadmiernym dopasowaniu”; czy jest to cecha pozytywna / negatywna?

— Comp_Warrior

nadmierne dopasowanie jest rzeczą negatywną, oznacza to po prostu, że model zapamiętuje losową zmienność danych, co zwykle pogarsza wydajność uogólnienia. Idealnie byłoby, gdyby model poznał podstawową formę danych, ignorując hałas je zanieczyszczający. Większość dobrych podręczników do uczenia maszynowego omówi to na początku rozdziału.

— Dikran Torbacz

po prostu z zainteresowania, dlaczego głosować?

— Dikran Torbacz

Nie głosowałem cię; w rzeczywistości głosowałem!

— Comp_Warrior

nie ma problemu Comp_Warrior, nie sądziłem, że to ty, ale ktoś odmówił mojej odpowiedzi i chętnie podzielę się z Tobą opinią na temat przyczyny. Wszyscy jesteśmy omylni i jeśli mam coś złego w odpowiedzi, chętnie to naprawię.

— Dikran Marsupial

Używasz estymatorów Kriginga z dodatkiem terminu szumu (znanego jako efekt samorodek w literaturze procesowej Gaussa). Jeśli wartość szumu została ustawiona na zero, tzn.

σ_{n}^{2)} δ_{p q} = 0

$\sigma^2_n \delta_{pq}=0$

wtedy twoje przewidywania działałyby jak interpolacja i przechodziły przez przykładowe punkty danych.

Wydaje mi się to OK, w książce lekarza ogólnego autorstwa Rasmussena zdecydowanie pokazuje przykłady, w których funkcja średniej nie przechodzi przez każdy punkt danych. Zauważ, że linia regresji jest oszacowaniem dla funkcji leżącej u podstaw i zakładamy, że obserwacje są wartościami funkcji leżącymi u podstaw plus szum. Jeśli linia regresji oparta na wszystkich trzech punktach zasadniczo mówi, że w obserwowanych wartościach nie ma hałasu.

Możesz wymusić założenie, że nie ma hałasu, ustawiając $\sigma_n = 0$ i po prostu optymalizując inne hiper-parametry.

Podejrzewam też, że hiper-parmeter $l$ jest ustawiany na stosunkowo dużą wartość, co daje bardzo płytką funkcję.

Możesz spróbować trzymać $l$ naprawiono przy różnych mniejszych wartościach i zobacz, jak to zmienia krzywą. Może gdybyś zmusił $l$ aby być nieco mniejszym, linia regresji przejdzie przez wszystkie punkty danych.

Jak zauważył Dikran Marsupial, jest to wbudowana funkcja Procesów Gaussa, krańcowe prawdopodobieństwo karze modele, które są zbyt specyficzne i preferuje te, które mogą wyjaśnić wiele zestawów danych.

— Max S.
źródło