Prosty model regresji liniowej
yja= α + βxja+ ε
można napisać w oparciu o model probabilistyczny
μi=α+βxiyi∼N(μi,σ)
tj. zmienna zależna podąża za rozkładem normalnym sparametryzowanym za pomocą μ i , to jest funkcją liniową X sparametryzowanego przez α , β i odchylenie standardowe σ . Jeśli oszacujesz taki model za pomocą zwykłych najmniejszych kwadratów , nie musisz przejmować się sformułowaniem probabilistycznym, ponieważ szukasz optymalnych wartości parametrów α , β , minimalizując błędy kwadratu dopasowanych wartości do wartości przewidywanych. Z drugiej strony, można oszacować taki model przy użyciu oszacowania maksymalnego prawdopodobieństwaYμiXα,βσα,β, gdzie szukamy optymalnych wartości parametrów poprzez maksymalizację funkcji prawdopodobieństwa
argmaxα,β,σ∏i=1nN(yi;α+βxi,σ)
gdzie jest funkcją gęstości rozkładu normalnego ocenianą w punktach y i , parametryzowaną za pomocą α + β x i i odchylenia standardowego σ .Nyiα+βxiσ
W podejściu Bayesa zamiast maksymalizować samą funkcję prawdopodobieństwa, przyjmowalibyśmy wcześniejsze rozkłady parametrów i używaliśmy twierdzenia Bayesa
posterior∝likelihood×prior
α,β,σ
f(α,β,σ∣Y,X)posterior∝∏i=1nN(yi∣α+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors
α,βtσ
(źródło: http://www.indiana.edu/~kruschke/BMLR/ )
Podczas gdy z największym prawdopodobieństwem szukałeś jednej optymalnej wartości dla każdego z parametrów, w podejściu bayesowskim, stosując twierdzenie Bayesa, otrzymujesz tylny rozkład parametrów. Ostateczne oszacowanie będzie zależeć od informacji pochodzących z twoich danych i twoich priorytetów , ale im więcej informacji jest zawartych w twoich danych, tym mniej wpływowe są priory .
f(θ)∝1
Aby oszacować model w podejściu bayesowskim, w niektórych przypadkach można użyć sprzężonych priorów , więc rozkład tylny jest bezpośrednio dostępny (patrz przykład tutaj ). Jednak w zdecydowanej większości przypadków rozkład tylny nie będzie dostępny bezpośrednio i będziesz musiał użyć metod Markowa Łańcucha Monte Carlo do oszacowania modelu (sprawdź ten przykład użycia algorytmu Metropolis-Hastings do oszacowania parametrów regresji liniowej). Wreszcie, jeśli jesteś zainteresowany tylko punktowymi oszacowaniami parametrów, możesz użyć maksymalnego oszacowania a posteriori , tj
argmaxα,β,σf(α,β,σ∣Y,X)
Aby uzyskać bardziej szczegółowy opis regresji logistycznej, możesz sprawdzić model logiki Bayesa - intuicyjne wyjaśnienie? wątek.
Aby dowiedzieć się więcej, sprawdź następujące książki:
Kruschke, J. (2014). Przeprowadzanie analizy danych bayesowskich: samouczek z R, JAGS i Stanem. Prasa akademicka.
Gelman, A., Carlin, JB, Stern, HS i Rubin, DB (2004).
Analiza danych bayesowskich. Chapman & Hall / CRC.