Scalanie obserwacji w procesie Gaussa

Używam procesu Gaussa (GP) do regresji.

W moim problemie dość często zdarza się, że dwa lub więcej punktów danych są blisko siebie, względem długości skale problemu. Obserwacje mogą być również bardzo głośne. Aby przyspieszyć obliczenia i poprawić precyzję pomiaru , naturalne wydaje się łączenie / integrowanie skupisk punktów, które są blisko siebie, o ile zależy mi na prognozach w większej skali. $\vec{x}^{(1)},\vec{x}^{(2)},\ldots$

Zastanawiam się, jaki jest szybki, ale częściowo oparty na zasadach sposób na osiągnięcie tego.

Jeśli dwa punkty danych idealnie się pokrywają, , a szum obserwacyjny (tj. Prawdopodobieństwo) jest gaussowski, być może heteroskedastyczny, ale znany , naturalny sposób postępowania wydaje się łączyć je w jednym punkcie danych z: $\vec{x}^{(1)} = \vec{x}^{(2)}$

$\vec{\bar{x}} \equiv \vec{x}^{(k)}$ , dla . $k=1,2$
Obserwowana wartość która jest średnią z obserwowanych wartości ważonych ich względną dokładnością: . $\bar{y}$ $y^{(1)}, y^{(2)}$ $\bar{y} = \frac{\sigma_y^2(\vec{x}^{(2)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} y^{(1)} + \frac{\sigma_y^2(\vec{x}^{(1)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} y^{(2)}$
Hałas związany z obserwacją równy: . $\sigma_y^2(\bar{x}) = \frac{\sigma_y^2(\vec{x}^{(1)}) \sigma_y^2(\vec{x}^{(2)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})}$

Jak jednak połączyć dwa punkty, które są blisko siebie, ale się nie nakładają?

Myślę, że nadal powinien być średnią ważoną dwóch pozycji, ponownie używając względnej niezawodności. Uzasadnienie jest argumentem środka masy (tzn. Pomyśl o bardzo dokładnej obserwacji jako o stosie mniej precyzyjnych obserwacji). $\vec{\bar{x}}$
Dla taka sama formuła jak powyżej. $\bar{y}$
Jeśli chodzi o hałas związany z obserwacją, zastanawiam się, czy oprócz powyższej formuły powinienem dodać do poprawki składnik korekcji, ponieważ przesuwam punkt danych. Zasadniczo uzyskałbym wzrost niepewności związany z i (odpowiednio, wariancja sygnału i skala długości funkcji kowariancji). Nie jestem pewien formy tego terminu, ale mam pewne wstępne pomysły, jak go obliczyć, biorąc pod uwagę funkcję kowariancji. $\sigma_f^2$ $\ell^2$

Przed kontynuowaniem zastanawiałem się, czy coś już tam jest; a jeśli wydaje się to rozsądnym sposobem postępowania, lub istnieją lepsze szybkie metody.

Najbliższą rzeczą, jaką mogłem znaleźć w literaturze, jest ten artykuł: E. Snelson i Z. Ghahramani, Rzadkie procesy gaussowskie z wykorzystaniem pseudo-danych wejściowych , NIPS '05; ale ich metoda jest (względnie) zaangażowana, wymagając optymalizacji w celu znalezienia pseudo-danych wejściowych.

regression machine-learning gaussian-process

— Lacerbi
źródło

Nawiasem mówiąc, doceniam, że mogłem użyć wnioskowania przybliżonego lub niektórych metod na dużą skalę, ale to już inna kwestia.

— lacerbi

Odpowiedzi:

Świetne pytanie i to, co sugerujesz, brzmi rozsądnie. Jednak osobiście postąpiłbym inaczej, aby być skutecznym. Jak powiedziano, dwa bliskie punkty dostarczają niewiele dodatkowych informacji, a zatem efektywny stopień swobody modelu jest mniejszy niż liczba zaobserwowanych punktów danych. W takim przypadku warto zastosować metodę Nystroms, która jest dobrze opisana w GPML (rozdział o rzadkich przybliżeniach można znaleźć na stronie http://www.gaussianprocess.org/gpml/ ). Metoda jest bardzo łatwa do wdrożenia i niedawno została udowodniona przez Rudi i in. ( http://arxiv.org/abs/1507.04717 )

— jot__
źródło

Dzięki, metoda Nystrom wydaje się interesującym podejściem, przyjrzę się jej. Jednak w moim pierwszym poście zapomniałem wspomnieć, że szum w obserwacjach może być bardzo wysoki (być może większy niż sygnał), więc uśrednianie pobliskich punktów dostarczy dodatkowych informacji.

— lacerbi

Cóż, w rzeczywistości jest to jeszcze bardziej powód do korzystania z metody Nystroms. Wysoki szum zmniejsza efektywny stopień swobody, więc jeśli tylko pierwsze wartości własne utrzymują sygnał, a reszta to po prostu szum, wówczas metoda Nystromsa zrzuci wszystkie te mniej niż pierwszy m. Myślę, że będzie pasować do rachunku za to, czego szukasz. Powodzenia!

— j__

Sugerowałbym metodę Nystrom (+1). Samo połączenie punktów w jeden może mieć problemy z oszacowaniem krańcowego prawdopodobieństwa modelu, ponieważ prawdopodobnie dwa oryginalne punkty danych nie będą miały takiego samego efektu jak pojedynczy punkt. Radzę rozdzielić te dwa punkty osobno, ale znaleźć sposób na obniżenie kosztów obliczeń, co powinno osiągnąć Nystrom,

— Dikran Marsupial

Jakie problemy? Jeśli weźmiesz pod uwagę przypadek dwóch nakładających się punktów z hałasem Gaussa, to metoda uśredniania jest dokładna (o ile śledzisz spadek hałasu obserwacyjnego). Nie rozumiem, dlaczego ten sam argument nie powinien działać w przypadku punktów, które są bliskie skali długości problemu (wraz ze wzrostem odległości przybliżenie pogarsza się). Być może właśnie to robi metoda Nystrom, w bardziej zasadniczy sposób - wciąż muszę rozumieć szczegóły. Jestem ciekawy porównać to z metodą uśredniania, zarówno pod względem dokładności, jak i prędkości. Dzięki

— lacerbi,

@ Seeda nie używamy nystrom jako warunku skutecznego, a nie zwykłego skrócenia czasu, więc tak.

— j__

Badałem także łączące się obserwacje podczas regresji procesu Gaussa. W moim problemie mam tylko jedną zmienną towarzyszącą.

Nie jestem pewien, czy zgadzam się, że przybliżenie Nystrom jest lepsze. W szczególności, jeśli można znaleźć wystarczające przybliżenie w oparciu o scalony zestaw danych, obliczenia mogą być szybsze niż w przypadku zastosowania przybliżenia Nystrom.

Poniżej znajdują się wykresy przedstawiające 1000 punktów danych i średnią GP tylnej, średnią GP tylnej ze scalonymi zapisami oraz średnią GP tylnej przy użyciu aproksymacji Nystrom. Rekordy zostały pogrupowane na podstawie równych rozmiarów segmentów uporządkowanej współzmiennej. Kolejność aproksymacji odnosi się do liczby grup podczas łączenia rekordów i kolejności aproksymacji Nystrom. Metoda łączenia i aproksymacja Nystroma dają wyniki identyczne ze standardową regresją GP, gdy porządek aproksymacji jest równy liczbie punktów.

W takim przypadku, gdy kolejność aproksymacji wynosi 10, podejście łączące wydaje się preferowane. Gdy rząd wynosi 20, średnia z przybliżenia Nystrom jest wizualnie nie do odróżnienia od dokładnej średniej tylnej GP, chociaż średnia oparta na łączeniu obserwacji jest prawdopodobnie wystarczająca. Gdy zamówienie wynosi 5, oba są dość słabe.

— Richard Redding
źródło