Używam procesu Gaussa (GP) do regresji.
W moim problemie dość często zdarza się, że dwa lub więcej punktów danych są blisko siebie, względem długości skale problemu. Obserwacje mogą być również bardzo głośne. Aby przyspieszyć obliczenia i poprawić precyzję pomiaru , naturalne wydaje się łączenie / integrowanie skupisk punktów, które są blisko siebie, o ile zależy mi na prognozach w większej skali.
Zastanawiam się, jaki jest szybki, ale częściowo oparty na zasadach sposób na osiągnięcie tego.
Jeśli dwa punkty danych idealnie się pokrywają, , a szum obserwacyjny (tj. Prawdopodobieństwo) jest gaussowski, być może heteroskedastyczny, ale znany , naturalny sposób postępowania wydaje się łączyć je w jednym punkcie danych z:
, dla .
Obserwowana wartość która jest średnią z obserwowanych wartości ważonych ich względną dokładnością: .
Hałas związany z obserwacją równy: .
Jak jednak połączyć dwa punkty, które są blisko siebie, ale się nie nakładają?
Myślę, że nadal powinien być średnią ważoną dwóch pozycji, ponownie używając względnej niezawodności. Uzasadnienie jest argumentem środka masy (tzn. Pomyśl o bardzo dokładnej obserwacji jako o stosie mniej precyzyjnych obserwacji).
Dla taka sama formuła jak powyżej.
Jeśli chodzi o hałas związany z obserwacją, zastanawiam się, czy oprócz powyższej formuły powinienem dodać do poprawki składnik korekcji, ponieważ przesuwam punkt danych. Zasadniczo uzyskałbym wzrost niepewności związany z i (odpowiednio, wariancja sygnału i skala długości funkcji kowariancji). Nie jestem pewien formy tego terminu, ale mam pewne wstępne pomysły, jak go obliczyć, biorąc pod uwagę funkcję kowariancji.
Przed kontynuowaniem zastanawiałem się, czy coś już tam jest; a jeśli wydaje się to rozsądnym sposobem postępowania, lub istnieją lepsze szybkie metody.
Najbliższą rzeczą, jaką mogłem znaleźć w literaturze, jest ten artykuł: E. Snelson i Z. Ghahramani, Rzadkie procesy gaussowskie z wykorzystaniem pseudo-danych wejściowych , NIPS '05; ale ich metoda jest (względnie) zaangażowana, wymagając optymalizacji w celu znalezienia pseudo-danych wejściowych.