Dlaczego funkcja średnia w Procesie Gaussa jest nieciekawa?

28

Właśnie zacząłem czytać o GP i analogicznie do zwykłego rozkładu Gaussa charakteryzuje się funkcją średnią i funkcją kowariancji lub jądrem. Rozmawiałem i mówca powiedział, że funkcja średniej jest zwykle dość nieciekawa i cały wysiłek wnioskowania poświęcony jest na oszacowanie prawidłowej funkcji kowariancji.

Czy ktoś może mi wyjaśnić, dlaczego tak powinno być?

gaussian-process

— Luca
źródło

33

Chyba wiem, do czego zmierzał mówca. Osobiście nie do końca się z nią zgadzam, a wiele osób tego nie robi. Ale żeby być uczciwym, jest też wielu, którzy to robią :) Przede wszystkim zauważ, że określenie funkcji kowariancji (jądra) oznacza określenie wcześniejszego podziału na funkcje. Po prostu przez zmianę jądra, realizacje procesu Gaussa zmieniają się drastycznie, od bardzo płynnych, nieskończenie różnych funkcji generowanych przez jądro Squared Exponential

na „kolczaste”, nieróżniczkowe funkcje odpowiadające jądru wykładniczemu (lub jądru Matern z ) $\nu=1/2$

Innym sposobem, aby to zobaczyć, jest zapisanie średniej predykcyjnej (średniej prognoz procesu Gaussa, uzyskanej przez warunkowanie GP na punktach treningowych) w punkcie testowym , w najprostszym przypadku funkcji średniej zerowej: $x^*$

y^{*} = k^{* T} (K + σ^{2} I)^{- 1} y

$y^*=\mathbf{k}^{*T}(K+\sigma^{2}I)^{-1}\mathbf{y}$

gdzie jest wektorem kowariancji między punktem testowym a punktami treningowymi , jest macierzą kowariancji punktów treningowych, jest terminem hałasu (właśnie ustawiony jeśli twój wykład dotyczył prognoz bezszumowych, tj. interpolacji Procesu Gaussa), a jest wektorem obserwacji w zestawie treningowym. Jak widać, nawet jeśli średnia dla GP GP wynosi zero, średnia predykcyjna wcale nie jest zerowa, a w zależności od jądra i liczby punktów treningowych może to być bardzo elastyczny model, zdolny do uczenia się niezwykle złożone wzory. $\mathbf{k}^*$ $x^*$ $x_1,\ldots,x_n$ $K$ $\sigma$ $\sigma=0$ $\mathbf{y}=(y_1,\ldots,y_n)$

Mówiąc bardziej ogólnie, to jądro definiuje właściwości generalizacji GP. Niektóre jądra mają uniwersalną właściwość aproksymacji , tzn. Są w zasadzie zdolne do aproksymacji dowolnej funkcji ciągłej na zwartym podzbiorze, z dowolną określoną maksymalną tolerancją, przy wystarczającej liczbie punktów treningowych.

Dlaczego więc miałbyś przejmować się średnią funkcją? Przede wszystkim prosta funkcja średnia (liniowa lub ortogonalna wielomianowa) sprawia, że model jest znacznie bardziej interpretowalny, a tej przewagi nie należy lekceważyć w przypadku modelu tak elastycznego (a więc skomplikowanego) jak GP. Po drugie, w pewnym sensie rodzaj średniej zerowej (lub, o ile jest warta, także stałej średniej) GP jest do bani w przewidywaniu daleko od danych treningowych. Wiele stacjonarnych jąder (z wyjątkiem jąder okresowych) jest takich, że dla $k(x_i-x^*) \to 0$ $\operatorname{dist}(x_i,x^*)\to\infty$ . Ta zbieżność do zera może nastąpić zaskakująco szybko, szczególnie w przypadku jądra Squared Exponential, a zwłaszcza gdy potrzebna jest krótka długość korelacji, aby dobrze dopasować zestaw treningowy. Tak więc lekarz GP z funkcją średniej zerowej niezmiennie przewiduje jak tylko wyjdziesz z zestawu treningowego. $y^*\approx 0$

Teraz może to mieć sens w Twojej aplikacji: w końcu często złym pomysłem jest używanie modelu opartego na danych do wykonywania prognoz z dala od zestawu punktów danych używanych do szkolenia modelu. Zobacz tutaj wiele interesujących i zabawnych przykładów, dlaczego może to być zły pomysł. Pod tym względem średnia wartość zerowa GP, która zawsze zbliża się do 0 od zestawu treningowego, jest bezpieczniejsza niż model (taki jak na przykład model wielowymiarowy wielowymiarowy ortogonalny model wielomianowy), który chętnie wyrzuci szalenie duże prognozy, gdy tylko uciekasz od danych treningowych.

W innych przypadkach możesz jednak chcieć, aby Twój model zachowywał pewne zachowanie asympotyczne, co nie jest zbieżne ze stałą. Być może względy fizyczne mówią ci, że dla wystarczająco dużego, twój model musi stać się liniowy. W takim przypadku potrzebujesz funkcji średniej liniowej. Ogólnie rzecz biorąc, gdy globalne właściwości modelu są interesujące dla twojej aplikacji, musisz zwrócić uwagę na wybór średniej funkcji. Jeśli interesuje Cię tylko lokalne (w pobliżu punktów treningowych) zachowanie twojego modelu, wtedy zero lub stała średnia GP może być więcej niż wystarczająca. $x^*$

— DeltaIV
źródło

Delta, czy wiesz, jaka byłaby dobra funkcja średnia?

— Stary człowiek na morzu.

1

@Anoldmaninthesea wiele zależy od aplikacji. Jak wyjaśniłem, chyba że potrzebujesz modelu możliwego do interpretacji lub nie jesteś zainteresowany prognozami „daleko od zestawu treningowego”, prawdopodobnie lepiej skoncentrować swoje wysiłki na poprawie funkcji kowariancji niż na funkcji średniej

— DeltaIV

1

Delta, cóż, w moim przypadku muszę podjąć pewne prognozy, które mogą być dalekie od obserwowanych danych ... Zadałem to pytanie tutaj stats.stackexchange.com/questions/375468/...

— Starzec w morze.

6

Nie możemy mówić w imieniu osoby, która wygłasza wykład; być może mówca miał na myśli inny pomysł, kiedy wypowiedział to zdanie. Jednak w przypadku, gdy próbujesz skonstruować prognozy tylne z lekarza ogólnego, stała funkcja średnia ma rozwiązanie w postaci zamkniętej, które można dokładnie obliczyć. Jednak w przypadku bardziej ogólnej funkcji średniej należy zastosować metody przybliżone, np. Symulację.

Dodatkowo funkcja kowariancji kontroluje, jak szybko (i gdzie) występują odchylenia od funkcji średniej, więc często zdarza się, że bardziej elastyczna / sztywna funkcja kowariancji może być „wystarczająco dobra” do przybliżenia bardziej ozdobnej funkcji średniej - co ponownie zapewnia dostęp do właściwości wygody stałej funkcji średniej.

— Sycorax mówi Przywróć Monikę
źródło

Dzięki za wyjaśnienie. Tak, nie mogłem zadać pytania i zastanawiałem się, czy istnieje ku temu podstawowy powód.

— Luca,

6

Dam ci wyjaśnienie, które prawdopodobnie nie miało na myśli mówcy. W niektórych aplikacjach środki są zawsze nudne. Załóżmy na przykład, że prognozujemy sprzedaż za pomocą modelu autoregresyjnego . Średnia długoterminowa to oczywiście . Czy to jest interesujące $y_t=c+\gamma y_{t-1}+e_t$ $E[y_t]\equiv\mu=\frac{c}{1-\gamma}$

To zależy od twojego celu. Jeśli szukasz wyceny sklepu, oznacza to, że musisz zwiększyć lub zmniejszyć aby zwiększyć wartość sklepu, ponieważ wartość ta jest podana przez: gdzie jest współczynnik dyskontowy. Tak więc środek jest wyraźnie interesujący. $c$ $\gamma$

V = \frac{μ}{r}

$V=\frac{\mu}{r}$

r

$r$

Jeśli interesuje Cię płynność, tzn. Masz wystarczającą ilość gotówki na pokrycie wydatków w ciągu najbliższych kilku miesięcy, to średnia jest prawie nieistotna. Patrzysz na prognozę gotówkową na następny miesiąc: Więc sprzedaż w tym miesiącu jest teraz .

y_{1} = c + γ y_{0}

$y_1=c+\gamma y_0$

y_{0}

$y_0$

— Aksakal
źródło

6

Cóż, jednym bardzo dobrym powodem jest to, że funkcja średnia może nie żyć w przestrzeni funkcji, które chcesz modelować. każdy punkt wejściowy, , może mieć odpowiednią średnią tylną, . Jednak te średnie średnie punkty są oczekiwaniem, zanim zobaczysz jakiekolwiek inne dane. Jest więc wiele przypadków, w których żadna sytuacja, w której obserwowane przyszłe dane nie stworzą tej średniej. $x_i$ $\mu(x_i)$

Prosty przykład: wyobraź sobie dopasowanie funkcji sinusoidalnej o nieznanym przesunięciu, ale o znanym okresie i amplitudzie. Poprzednia średnia wynosi zero dla wszystkich ale linia stała nie żyje w przestrzeni opisanych funkcji sinusoidalnych. Funkcja kowariancji daje nam dodatkowe informacje strukturalne. $x$

— jot__
źródło

0

Mówiąc prościej, funkcja średnia dominuje w funkcji kowariancji dla danych wejściowych „daleko od obserwacji”.
Jest to sposób na wstrzyknięcie wcześniejszej wiedzy w makro-dynamikę twojego systemu.

— mik
źródło

1

Nie rozumiem twojej odpowiedzi. Czy możesz to wyjaśnić?

— Michael R. Chernick