W uczeniu maszynowym wygląda model z parametrami i hiperparametrami,M.
Y≈ M.H.( Φ | D )
gdzie to parametry, a H to hiperparametry. D to dane treningowe, a Y to dane wyjściowe (etykiety klas w przypadku zadania klasyfikacyjnego).ΦH.reY
Celem podczas treningu jest znalezienie oszacowania parametrów cp , która optymalizuje jakąś funkcję strata L mamy określony. Ponieważ modelu M i utraty funkcji L są oparte na H , wtedy wynikające z tego parametry Φ zależą także od hiperparametrów H .Φ^L.M.L.H.ΦH.
H.M.M.H.
M.H.H.Φ^H.
Yp r e dΦH.
Φ = { μ¯, σ¯}μ¯N.σ¯N.N.
N.H ={ N}N.reN.N.Φ = { μ¯, σ¯, N}
Należy jednak zauważyć, że efekt, lub przewidywane wartości dla punktów danych w danych D jest oparty na G M M ( ˉ ľ , ˉ Ď ) a nie N . Oznacza to, że każde z N jąder Gaussa wniesie pewną wartość prawdopodobieństwa do d na podstawie odległości d od ich odpowiedniego μ i własnego σ . „Parametr” N nie jest tu wyraźnie uwzględniony, więc prawdopodobnie nie jest „tak naprawdę” parametrem modelu.rereG MM.( μ¯, σ¯)N.N.rereμσN.
M.L.