Próbuję dostroić hiperparametry algorytmu regresji procesu gaussowskiego, który zaimplementowałem. Chcę po prostu zmaksymalizować prawdopodobieństwo krańcowe dziennika podane przez formułę gdzie K jest macierzą kowariancji z elementy K_ {ij} = k (x_i, x_j) = b ^ {- 1} \ exp (- \ frac {1} {2} (x_i-x_j) ^ TM (x_i-x_j)) + a ^ {- 1 } \ delta_ {ij} gdzie M = lI oraz a, b i l są hiperparametrami.
częściowa pochodna logarytmicznych parametrów krańcowych prawdopodobieństwa wrt jest podawana przez następujący
Jako wpisy zależy od parametrów, tak jak pochodne i odwrotność . Oznacza to, że gdy wykorzystywany jest optymalizator oparty na gradiencie, ocena gradientu w danym punkcie (wartość parametru) będzie wymagała ponownego obliczenia macierzy kowariancji. W mojej aplikacji nie jest to możliwe, ponieważ obliczenie macierzy kowariancji od zera i obliczenie jej odwrotności w każdej iteracji wznoszenia gradientu jest zbyt kosztowne. Moje pytanie brzmi: jakie mam opcje, aby znaleźć dość dobrą kombinację tych trzech parametrów? i nie wiem też, który parametr najpierw zoptymalizować, i doceniłbym również wszelkie wskazówki dotyczące tego problemu.