Interpretacje bayesowskie istnieją tylko w ramach analizy bayesowskiej, dla estymatorów związanych z rozkładem a posteriori. Stąd jedynym sposobem, aby estymatorowi REML można było nadać interpretację bayesowską (tj. Interpretację jako estymator wzięty z tyłu), to jeśli weźmiemy pod uwagę ograniczone prawdopodobieństwo logarytmiczne w analizie REML jako logarytmicznie tylną w odpowiednim Analiza Bayesa; w tym przypadku estymator REML byłby estymatorem MAP z teorii bayesowskiej, z odpowiadającą mu interpretacją bayesowską.
ℓx(θ,ν)=ℓ∗(θ,ν)+ℓRE(θ)ℓRE(θ)θνπ(θ,ν)∝exp(−ℓ∗(θ,ν))
π(θ|x)∝∫Lx(θ,ν)π(θ,ν)dν∝∫exp(ℓx(θ,ν))exp(−ℓ∗(θ,ν))dν=∫exp(ℓx(θ,ν)−ℓ∗(θ,ν))dν=∫exp(ℓ∗(θ,ν)+ℓRE(θ)−ℓ∗(θ,ν))dν=∫exp(ℓRE(θ))dν=∫LRE(θ)dν∝LRE(θ).
To daje nam:
θ^MAP=argmaxθπ(θ|x)=argmaxθLRE(θ)=θ^REML.
Ten wynik pozwala nam interpretować estymator REML jako estymator MAP, więc poprawną interpretacją bayesowską estymatora REML jest to, że jest to estymator, który maksymalizuje gęstość a posteriori zgodnie z powyższym uprzednim .
Po zilustrowaniu metody nadania estymatorowi REML interpretacji bayesowskiej zauważamy, że z tym podejściem wiążą się duże problemy. Jednym z problemów jest to, że uprzednia formacja jest tworzona przy użyciu komponentu wiarygodności dziennika , który zależy od danych. Dlatego „uprzedni” niezbędny do uzyskania tej interpretacji nie jest prawdziwym uprzednim, w sensie bycia funkcją, którą można utworzyć przed obejrzeniem danych. Innym problemem jest to, że przejęcie często jest niewłaściwe (tzn. Nie integruje się z jednym) i może faktycznie wzrosnąć, ponieważ wartości parametrów stają się ekstremalne. (Poniżej pokażemy przykład tego.)ℓ∗(θ,ν)
Na podstawie tych problemów można argumentować, że estymator REML nie ma rozsądnej interpretacji bayesowskiej . Alternatywnie można argumentować, że estymator REML nadal utrzymuje powyższą interpretację bayesowską, będąc maksymalnie estymatorem a posteriori pod „uprzednim”, który musi przypadkowo zrównać się z obserwowanymi danymi w określonej formie i może być wyjątkowo niewłaściwy.
Ilustracja z normalnymi danymi: Klasyczny przykład oszacowania REML dotyczy przypadku normalnych danych gdzie interesuje Cię precyzja a średnia jest uciążliwym parametrem. W tym przypadku masz funkcję log-prawdopodobieństwo:x1,...,xn∼N(ν,1/θ)θν
ℓx(ν,θ)=−n2lnθ−θ2∑i=1n(xi−ν)2.
W REML podzieliliśmy to prawdopodobieństwo dziennika na dwa składniki:
ℓ∗(ν,θ)ℓRE(θ)=−n2lnθ−θ2∑i=1n(xi−ν)2=−n−12lnθ−θ2∑i=1n(xi−x¯)2.
Otrzymujemy estymator REML dla parametru dokładności, maksymalizując resztkowe prawdopodobieństwo, co daje obiektywny estymator dla wariancji:
1θ^REML=1n−1∑i=1n(xi−x¯)2.
W takim przypadku estymator REML będzie odpowiadał estymatorowi MAP dla „wcześniejszej” gęstości:
π(θ)∝θn/2exp(θ2∑i=1n(xi−ν)2).
Jak widać, to „wcześniejsze” tak naprawdę zależy od obserwowanych wartości danych, więc nie można go właściwie uformować przed obejrzeniem danych. Co więcej, widzimy, że jest to wyraźnie „niewłaściwa” wcześniejsza zasada, która kładzie coraz większy nacisk na ekstremalne wartości i . (W rzeczywistości ten przeor jest dość szalony.) Jeśli przez „zbieg okoliczności” utworzysz przeora, który okazał się odpowiadać temu wynikowi, to estymator REML byłby estymatorem MAP pod tym przełożeniem, a zatem miałby interpretację bayesowską jako estymator, który maksymalizuje tylną pod tym uprzednim.θν