Podsumowanie mojej odpowiedzi. Lubię modelowanie łańcucha Markowa, ale brakuje mu aspektu „czasowego”. Z drugiej strony, skupienie się na aspekcie czasowym (np. Średni czas przy ) pomija aspekt „przejścia”. Chciałbym przejść do następującego ogólnego modelowania (które przy odpowiednim założeniu może prowadzić do [procesu Markowa] [1]). Poza tym za tym problemem kryje się wiele „cenzurowanych” statystyk (co z pewnością jest klasycznym problemem niezawodności oprogramowania?). Ostatnie równanie mojej odpowiedzi daje oszacowanie maksymalnego prawdopodobieństwa intensywności głosowania (w górę z „+” i dow z „-”) dla danego stanu głosowania. Jak widać z równania, jest to związek pośredni z przypadkiem, gdy szacujesz jedynie prawdopodobieństwo przejścia i przypadkiem, gdy mierzysz tylko czas spędzony w danym stanie. Mam nadzieję, że to pomoże.−1
Modelowanie ogólne (w celu ponownego sformułowania pytania i założeń).
Niech i będą zmiennymi losowymi modelującymi odpowiednio daty głosowania i powiązany znak głosowania (+1 za głosowanie, -1 za głosowanie negatywne). Proces głosowania jest prosty ( S i ) i ≥ 1(VDi)i≥1(Si)i≥1
Yt=Y+t−Y−t
gdzie
Y+t=∑i=0∞1VDi≤t,Si=1 and Y−t=∑i=0∞1VDi≤t,Si=−1
Ważna jest tutaj intencja -jump
gdzie może być lub a jest dobrą filtracją, w przypadku rodzajów, bez innej wiedzy byłoby to :
.ϵ
λϵt=limdt→01dtP(Yϵt+dt−Yϵt=1|Ft)
ϵ−+FtFt=σ(Y+t,Y−t,VD1,…,VDY+t+Y−t,S1,…,SY+t+Y−t)
ale zgodnie z twoim pytaniem, domyślnie zakładasz, że
Oznacza to, że dla istnieje sekwencja deterministyczna taki, że .
P(Yϵt+dt−Yϵt=1|Ft)=P(Yϵt+dt−Yϵt=1|Yt)
ϵ=+,−(μϵi)i∈Zλϵt=μϵYt
W ramach tego formalizmu można przekształcić pytanie w następujący sposób: „prawdopodobne jest, że ” (lub przynajmniej różnica jest większa niż podany próg).μ+−1−μ+0>0
Przy takim założeniu łatwo jest wykazać, że jest [jednorodnym procesem markowa] [3] na z generatorem podanym przezYtZQ
∀i,j∈ZQi,i+1=μ+iQi,i−1=μ−iQii=1−(μ+i+μ−i)Qij=0 if |i−j|>1
Odpowiedź na pytanie (poprzez zaproponowanie oszacowania maksymalnego prawdopodobieństwa dla problemu statystycznego)
Na podstawie tej przeformułowania rozwiązanie problemu odbywa się poprzez oszacowanie i zbudowanie testu na podstawie jego wartości. Naprawmy i zapomnijmy indeks bez utraty ogólności. Oszacowania (i ) można dokonać przed obserwacją(μ+i)iμ+μ−
(T1,η1),…,(Tp,ηp) gdzie są długościami w tych Okresu w stanie (tj. kolejne czasy z ) i wynosi jeśli pytanie zostało poddane głosowaniu, jeśli zostało poddane głosowaniu, a jeśli był to ostatni stan obserwacji.TjjthpiYt=iηj- 1 0+1−10
Jeśli zapomnisz przypadek z ostatnim stanem obserwacji, wspomniane pary otrzymają rozkład zależny od i : jest on dystrybuowany jako (gdzie Exp jest losową odmianą rozkładu wykładniczego, a wynosi + lub -1 w zależności od tego, kto zrealizuje maksimum). Następnie możesz użyć następującego prostego lematu (dowód jest prosty): μ - i ( min ( E x p ( μ + i ) , E x p ( μ - i ) ) , η ) ημ+iμ−i(min(Exp(μ+i),Exp(μ−i)),η)η
Lemma Jeśli i , to i . X+⇝Exp(μ+)X−⇝Exp(μ−)T=min(X+,X−)⇝Exp(μ++μ−)P(X+1<X−)=μ+μ++μ−
Oznacza to, że gęstość o jest dane przez:
gdzie dla jest funkcją gęstości wykładniczej zmiennej losowej z parametrem . Z tego wyrażenia łatwo jest uzyskać estymator maksymalnego prawdopodobieństwa dla i :f(t,ϵ)(T,η)
f(t,ϵ)=gμ++μ−(1(ϵ=+1)∗μ++1(ϵ=−1)∗μ−μ++μ−)
gaa>0aμ+μ−
(μ^+,μ^−)=argminln(μ−+μ+)((μ−+μ+)∑i=1pTi+p)−p−ln(μ−)−p+ln(μ+)
gdzieoraz.
p−=|i:δi=−1|p+=|i:δi=+1|
Komentarze do bardziej zaawansowanych podejść
Jeśli chcesz wziąć pod uwagę przypadki, w których jest ostatnim zaobserwowanym stanem (z pewnością mądrzejszym, ponieważ kiedy przechodzisz przez , często jest to twój ostatni wynik ...), musisz nieco zmodyfikować rozumowanie. Odpowiednia cenzura jest względnie klasyczna ...i−1
Możliwe inne podejście może obejmować
- Intensywność maleje z czasem
- Mając intensywność, która maleje wraz z czasem spędzonym od ostatniego głosowania (wolę ten. W tym przypadku istnieje klasyczny sposób modelowania zmniejszania się gęstości ...
- Możesz założyć, że jest płynną funkcjąμ+ii
- .... możesz zaproponować inne pomysły!