Zarówno (1), jak i (1b) są poprawne. OP ma rację, że (w tym modelu) może istnieć punkt wymiany nat+1, i xt+1zależy od tego, czy istnieje punkt wymiany. Nie oznacza to żadnych problemów z (1) jako możliwymi wartościamirt+1 są w pełni „objęte” przez P(xt+1∣rt,x1:t). P(xt+1|rt,x1:t) oznacza rozkład warunkowy xt+1 uwarunkowane (rt,x1:t). Ta warunkowa dystrybucja uśrednia dla „wszystkiego innego”, w tymrt+1, pod warunkiem (rt,x1:t). Tak jak można napisać, powiedzmy,P(xt+1000|xt), który uwzględniałby wszystkie możliwe konfiguracje punktów wymiany, a także wartości xiwystępuje między t i t+1000.
W pozostałej części najpierw wyprowadzam (1), a następnie (1b) na podstawie (1).
Wyprowadzenie (1)
Dla dowolnych zmiennych losowych A,B,C, mamy
P(A∣B)=∑cP(A∣B,C=c)P(C=c∣B),
tak długo jak
Cjest dyskretny (w przeciwnym razie suma musi zostać zastąpiona całką). Stosując to do
xt+1,x1:t,rt:
P(xt+1∣x1:t)=∑rtP(xt+1∣rt,x1:t)P(rt∣x1:t),
która ma znaczenie bez względu na zależności między
rt,
x1:t,
xt+1to znaczy, że nie zastosowano jeszcze założeń modelowych. W obecnym modelu
xt+1 dany
rt,x(r)t zakłada się, że * jest warunkowo niezależny od wartości
x z biegów wcześniej
x(r)t. To implikuje
P(xt+1∣rt,x1:t)=P(xt+1∣rt,x(r)t). Zastępując to poprzednim równaniem, otrzymujemy
P(xt+1∣x1:t)=∑rtP(xt+1∣rt,x(r)t)P(rt∣x1:t),(1)
który jest (1) w OP.
Wyprowadzenie (1b)
Rozważmy rozkład P(xt+1∣rt,x(r)t) ponad możliwe wartości rt+1:
P(xt+1∣rt,x(r)t)=∑rt+1P(xt+1∣rt+1,rt,x(r)t)P(rt+1∣rt,x(r)t).
Ponieważ zakłada się *, czy punkt zmiany występuje w t+1 (pomiędzy xt i xt+1) does not depend on the history of x, we have P(rt+1∣rt,x(r)t)=P(rt+1∣rt). Furthermore, since rt+1 determines whether xt+1 belongs into the same run as xt, we have P(xt+1∣rt+1,rt,x(r)t)=P(xt+1∣rt+1,x(r)t). Substituting these two simplifications into the factorization above, we get
P(xt+1∣rt,x(r)t)=∑rt+1P(xt+1∣rt+1,x(r)t)P(rt+1∣rt).
Substituting this into (1), we get
P(xt+1∣x1:t)=∑rt(∑rt+1P(xt+1∣rt+1,x(r)t)P(rt+1∣rt))P(rt∣x1:t),(1b)
which is OP's (1b).
* Remark on the model's conditional independence assumptions
Based on quickly browsing the paper, I would personally like the conditional independence properties to be more explicitly stated somewhere, but I suppose that the intention is that r is Markovian and the x:s associated to different runs are independent (given the runs).