Ludzie z „teorii próbkowania” powiedzą ci, że nie ma takiej oceny. Ale możesz je zdobyć, musisz tylko rozsądnie podchodzić do swoich wcześniejszych informacji i wykonywać dużo cięższą pracę matematyczną.
Jeśli określiłeś bayesowską metodę szacowania, a tylna jest taka sama jak poprzednia, możesz powiedzieć, że dane nie mówią nic o parametrze. Ponieważ rzeczy mogą stać się dla nas „osobliwe”, nie możemy używać nieskończonych przestrzeni parametrów. Zakładam, że ponieważ używasz korelacji Pearsona, masz dwuwymiarowe normalne prawdopodobieństwo:
Qi=(xi-μx)2
p(D|μx,μy,σx,σy,ρ)=(σxσy2π(1−ρ2)−−−−−−−−√)−Nexp(−∑iQi2(1−ρ2))
gdzie
Qi=(xi−μx)2σ2x+(yi−μy)2σ2y−2ρ(xi−μx)(yi−μy)σxσy
Aby wskazać, że jeden zestaw danych może mieć tę samą wartość, napisz , a następnie otrzymamy:yi=y
∑iQi=N[(y−μy)2σ2y+s2x+(x¯¯¯−μx)2σ2x−2ρ(x¯¯¯−μx)(y−μy)σxσy]
gdzie
s2x=1N∑i(xi−x¯¯¯)2
A więc prawdopodobieństwo zależy od czterech liczb, . Więc chcesz oszacować , więc musisz pomnożyć przez a priori i zintegrować uciążliwe parametry . Aby przygotować się do integracji, „wypełniamy kwadrat”
s2x,y,x¯¯¯,Nρμx,μy,σx,σy
∑iQi1−ρ2=N⎡⎣⎢⎢(μy−[y−(x¯¯¯−μx)ρσyσx])2σ2y(1−ρ2)+s2xσ2x(1−ρ2)+(x¯¯¯−μx)2σ2x⎤⎦⎥⎥
Powinniśmy teraz zachować ostrożność i zapewnić odpowiednio znormalizowane prawdopodobieństwo. W ten sposób nie możemy wpaść w kłopoty. Jedną z takich opcji jest użycie słabo informacyjnego przeora, który po prostu ogranicza zasięg każdego z nich. Mamy więc dla średnich z płaską wcześniejszą i dla standardowych odchyleń z jeffreys wcześniejszy. Limity te są łatwe do ustalenia przy odrobinie „zdrowego rozsądku” w myśleniu o problemie. Wezmę nieokreślony przed , więc otrzymujemy (mundur powinien działać ok, jeśli nie obciąć osobliwości o ):Lμ<μx,μy<UμLσ<σx,σy<Uσρ±1
p(ρ,μx,μy,σx,σy)=p(ρ)Aσxσy
Gdzie . Daje to później:A=2(Uμ−Lμ)2[log(Uσ)−log(Lσ)]2
p(ρ|D)=∫p(ρ,μx,μy,σx,σy)p(D|μx,μy,σx,σy,ρ)dμydμxdσxdσy
=p(ρ)A[2π(1−ρ2)]N2∫UσLσ∫UσLσ(σxσy)−N−1exp(−Ns2x2σ2x(1−ρ2))×
∫UμLμexp(−N(x¯¯¯−μx)22σ2x)∫UμLμexp⎛⎝⎜⎜−N(μy−[y−(x¯¯¯−μx)ρσyσx])22σ2y(1−ρ2)⎞⎠⎟⎟dμydμxdσxdσy
Teraz pierwszą integrację nad można wykonać, zmieniając zmienne a pierwsza całka nad staje się:μyz=N−−√μy−[y−(x¯¯¯−μx)ρσyσx]σy1−ρ2√⟹dz=N√σy1−ρ2√dμyμy
σy2π(1−ρ2)−−−−−−−−√N−−√⎡⎣⎢Φ⎛⎝⎜Uμ−[y−(x¯¯¯−μx)ρσyσx]σyN√1−ρ2−−−−−√⎞⎠⎟−Φ⎛⎝⎜Lμ−[y−(x¯¯¯−μx)ρσyσx]σyN√1−ρ2−−−−−√⎞⎠⎟⎤⎦⎥
Widać stąd, że żadne rozwiązania analityczne nie są możliwe. Warto jednak zauważyć, że wartość nie spadła z równań. Oznacza to, że dane i wcześniejsze informacje wciąż mają coś do powiedzenia na temat prawdziwej korelacji. Jeśli dane nie mówiły nic o korelacji, wówczas po prostu zostalibyśmy z jako jedyną funkcją w tych równaniach.ρp(ρ)ρ
Pokazuje także, jak przejście do granicy nieskończonych granic dla "wyrzuca" część informacji o , które zawarte są w skomplikowanej wyglądającej normalnej funkcji CDF . Teraz, jeśli masz dużo danych, to przekroczenie limitu jest w porządku, nie tracisz dużo, ale jeśli masz bardzo rzadkie informacje, na przykład w twoim przypadku - ważne jest, aby zachować każdy posiadany złom. Oznacza to brzydkie matematyki, ale ten przykład nie jest zbyt trudny do zrobienia numerycznego. Możemy więc dość łatwo oszacować zintegrowane prawdopodobieństwo dla przy wartościach . Po prostu zamień całki na sumy w wystarczająco małych odstępach - aby uzyskać potrójne sumowanie ρ Φ ( . ) ρ - 0,99 , - 0,98 , … , 0,98 , 0,99μyρΦ(.)ρ−0.99,−0.98,…,0.98,0.99