„Pojęcie warunkowego prawdopodobieństwa w odniesieniu do pojedynczej hipotezy, której prawdopodobieństwo wynosi 0, jest niedopuszczalne”. A. Kołmogorow
Dla ciągłych zmiennych losowych, i Y, powiedzmy, rozkłady warunkowe są zdefiniowane przez właściwość, że odzyskują pierwotną miarę prawdopodobieństwa, to znaczy dla wszystkich mierzalnych zbiorów A ∈ B ( X ) , B ∈ B ( Y ) , P ( X ∈ A , Y ∈ B ) = ∫ B d P Y ( y ) ∫ B d P X | Y ( x |XYA∈B(X)B ∈ B( Y ) Oznacza to, że gęstość warunkowa jest definiowana arbitralnie na zbiorach miary zero lub, innymi słowy, że gęstość warunkowa p X | Y ( x | y ) jest zdefiniowaneprawie wszędzie. Ponieważ zbiór { 5 , 6 } ma miarę zerową w stosunku do miary Lebesgue'a, oznacza to, że można zdefiniować zarówno p ( 5 ), jak i p ( 6 ) w absolutnie dowolny sposób, a zatem prawdopodobieństwo P ( U = 5 |
P (X∈ A , Y∈ B ) = ∫bd P.Y( y) ∫bd P.X| Y( x | y)
pX| Y( x | y){ 5 , 6 }p ( 5 )p ( 6 ) może przyjąć dowolną wartość.
P (U= 5 | U∈ { 5 , 6 } )
Nie oznacza to, że nie można zdefiniować gęstości warunkowej za pomocą wzoru stosunku jak w przypadku normalnym dwuwymiarowym, ale po prostu, że gęstość jest zdefiniowana prawie wszędzie dla obu x i y .
fa( y| x)=f( x , y) / f( x )
xy
„Szaleje wiele dość bezcelowych argumentów - między innymi kompetentnymi probabilistami - które z tych wyników są„ poprawne ”.” ET Jaynes
Fakt, że argument ograniczający (gdy idzie do zera) w powyższej odpowiedzi wydaje się dawać naturalną i intuicyjną odpowiedź, jest związany z paradoksem Borela . Wybór parametryzacji w limicie ma znaczenie, jak pokazano w poniższym przykładzie, którego używam w swoich klasach licencjackich.ϵ
Weź dwuwymiarową normalną Jaka jest gęstość warunkowa X, biorąc pod uwagę, że X = Y ?X, Y∼iidN.( 0 , 1 )
XX= Y
Jeśli zaczniemy od gęstości połączenia , odpowiedź „intuicyjna” jest [proporcjonalna do] φ ( x ) 2 . Można to uzyskać, biorąc pod uwagę zmianę zmiennej ( x , t ) = ( x , y - x ) ∼ φ ( x ) φ ( t + x ), gdzie T = Y - X ma gęstość φ (φ ( x ) φ ( y)φ ( x )2)
( x , t ) = ( x , y- x ) ∼ φ ( x ) φ ( t + x )
T.= Y- X . Stąd
f(x|t)= φ ( x ) φ ( t + x )φ ( t / 2-√) / 2-√ i
F(x|t=0)=φ(x)φ(x)fa( x | t ) = φ ( x ) φ ( t + x )φ ( t / 2-√) / 2-√
dane
fa( x | t = 0 ) = φ ( x ) φ ( x )φ ( 0 / 2-√) / 2-√= φ ( x )2)2)-√
Jeśli jednak zamiast tego rozważymy zmianę zmiennej
gęstość krańcowa
R = Y / X jest gęstością Cauchy'ego
ψ ( r ) = 1 / π { 1 + r 2 }, a gęstość warunkowa
X( x , r ) = ( x , y/ x)∼φ(x)φ(rx) | x |
R = Y/ Xψ ( r ) = 1 / π{ 1 + r2)}X jest
f ( x | r ) = φ ( x ) φ ( r x ) | x | × π { 1 + r 2 } Dlatego
f ( x | r = 1 ) = π φ ( x ) 2 | x | / 2Rfa( x | r ) = φ ( x ) φ ( r x ) | x | × π{ 1 + r2)}
I tu leży „paradoks”: wydarzenia
R = 1 i
T = 0 są takie same jak
X = Y , ale prowadzą one do różnych gęstościach warunkowych na
X .
fa( x | r = 1 ) = πφ ( x )2)| x | / 2.
R = 1T.= 0X= YX