Dwa lata danych opisujących występowanie związku testującego przemoc z liczbą pacjentów na oddziale

Mam dwa lata danych, które w zasadzie wyglądają tak:

Data _ __ Przemoc T / N? _ Liczba pacjentów

1/1/2008 _ ___ 0 __ _ __ _ ____ 11

2/1/2008 _ __ _ 0 _ __ _ __ _ __ 11

01.03.2008 _ ____ 1 __ _ __ _ ____ 12

4/1/2008 _ ____ 0 __ _ __ _ ____ 12

...

31.12.2009 r. _ __ 0_ _ __ _ __ _ __ 14

tj. dwa lata obserwacji, raz dziennie, oddziału psychiatrycznego, które wskazują, czy w tym dniu doszło do incydentu z przemocą (1 to tak, 0 nie), a także liczbę pacjentów na oddziale. Hipoteza, którą chcemy przetestować, polega na tym, że więcej pacjentów na oddziale wiąże się ze zwiększonym prawdopodobieństwem przemocy na oddziale.

Oczywiście zdajemy sobie sprawę, że musimy dostosować się do faktu, że gdy na oddziale jest więcej pacjentów, przemoc jest bardziej prawdopodobna, ponieważ jest ich tylko więcej - jesteśmy zainteresowani, czy prawdopodobieństwo przemocy każdej osoby wzrośnie, gdy na oddziale jest więcej pacjentów.

Widziałem kilka artykułów, które wykorzystują po prostu regresję logistyczną, ale myślę, że to jest złe, ponieważ istnieje struktura autoregresyjna (chociaż patrząc na funkcję autokorelacji, nie osiąga ona wartości powyżej 1 w żadnym opóźnieniu, chociaż jest ona wyższa niż „Znacząca” niebieska linia przerywana, którą rysuje dla mnie R).

Aby jeszcze bardziej skomplikować sprawę, mogę, jeśli chcę podzielić wyniki na poszczególnych pacjentów, aby dane wyglądały tak jak powyżej, z tym wyjątkiem, że miałbym dane dla każdego pacjenta, 1/1/2008, 2 / 1/2008 itd. Oraz idący w dół kod identyfikacyjny, aby dane pokazywały całą historię incydentów dla każdego pacjenta osobno (chociaż nie wszyscy pacjenci są obecni przez wszystkie dni, nie jestem pewien, czy to ma znaczenie).

Chciałbym użyć Lme4 w R do modelowania struktury autoregresji u każdego pacjenta, ale niektórzy Googling wymyślają cytat „Lme4 nie jest skonfigurowany do radzenia sobie ze strukturami autoregresji”. Nawet gdyby tak było, nie jestem pewien, czy rozumiem, jak napisać kod.

Na wypadek, gdyby ktokolwiek to zauważył, zadałem takie pytanie jakiś czas temu, są to różne zestawy danych z różnymi problemami, chociaż faktyczne rozwiązanie tego problemu z tym pomoże (ktoś zasugerował, że wcześniej stosowałem metody mieszane, ale ta autoregresja sprawiła, że nie wiesz, jak to zrobić).

Więc jestem trochę utknięty i zagubiony, szczerze mówiąc. Każda pomoc otrzymana z wdzięcznością!

r mixed-model autocorrelation panel-data

— Chris Beeley
źródło

Mam do czynienia z podobnym problemem, myślę, że możesz użyć pgmmz pakietu plm , ale ponieważ twoja zmienna odpowiedzi jest binarna, nie wiem dokładnie, jak to zrobić. Może inni mogą opracować ... (I tak masz rację: rozumiem, że zawsze masz zmienną endogeniczną, w tym przypadku opóźnioną wartość, nie możesz użyć REML do oszacowania, ponieważ jest ona stronnicza, więc musisz użyć GMM .)

— teucer

Oto pomysł, który łączy binarną zmienną zależną z ciągłą, nieobserwowaną zmienną; połączenie, które może pozwolić ci wykorzystać moc modeli szeregów czasowych dla zmiennych ciągłych.

Definiować:

$V_{w,t} = 1$ $w$ $t$

$P_{w,t}$ $w$ $t$

$P_{w,t}$

$V_{w,t} = \begin{cases} 1 & \mbox{if } P_{w,t} \ge \tau \\ 0 & \mbox{otherwise} \end{cases}$

gdzie,

$\tau$

$P_{w,t}$ $P_{w,t}$

$P_{w,t} = \alpha_0 + \alpha_1 P_{w,t-1} + ... + \alpha_p P_{w,t-p}+ \beta n_{w,t} + \epsilon_t$

gdzie,

$n_{w,t}$ $w$ $t$

$\beta$

$P_{w,t}$