tło
Projektuję symulację Monte Carlo, która łączy dane wyjściowe serii modeli i chcę mieć pewność, że symulacja pozwoli mi wysunąć uzasadnione twierdzenia dotyczące prawdopodobieństwa symulowanego wyniku i dokładności tego oszacowania prawdopodobieństwa.
Symulacja pozwoli ustalić prawdopodobieństwo, że ława przysięgłych z określonej społeczności skaza określonego oskarżonego. Oto kroki symulacji:
Korzystając z istniejących danych, wygeneruj logistyczny model prawdopodobieństwa ( M ) poprzez cofnięcie „pierwszego głosowania przysięgłego” na predyktory demograficzne.
Użyj metod Monte Carlo, aby zasymulować 1000 wersji M (tj. 1000 wersji współczynników dla parametrów modelu).
Wybierz jedną z 1000 wersji modelu ( M i ).
Empanel 1000 jurorów poprzez losowe wybranie 1000 zestawów 12 „jurorów” ze „społeczności” ( C ) osób o określonych rozkładach cech demograficznych.
Deterministycznie obliczyć prawdopodobieństwo pierwszej turze głosowania winny za każdego jurora wykorzystaniem M í .
Renderuj prawdopodobny głos każdego „jurora” na głos decydujący (na podstawie tego, czy jest on większy, czy mniejszy niż losowo wybrana wartość między 0-1).
Określ „ostateczny głos” każdego „jury” przy użyciu modelu (uzyskanego na podstawie danych empirycznych) prawdopodobieństwa skazania przez jury, pod warunkiem proporcji jurorów głosujących za skazaniem w pierwszym głosowaniu.
Przechowuj odsetek wyroków winy dla 1000 ławy przysięgłych ( PG i ).
Powtórzyć etapy 3-8 dla każdej z wersji z 1000 symulowanych z M .
Obliczyć średnią wartość PG i raport, który jako punkt szacunków prawdopodobieństwa skazania C .
Zidentyfikuj wartości percentyla 2,5 i 97,5 dla PG i zgłoś to jako przedział ufności 0,95.
Obecnie używam 1000 ławników przysięgłych i 1000 ławników przy teorii, że 1000 losów czerpie z rozkładu prawdopodobieństwa - cech demograficznych C lub wersji M - wypełni ten rozkład.
pytania
Czy pozwoli mi to dokładnie określić dokładność mojego oszacowania? Jeśli tak, to ilu sędziów muszę empanelować dla każdego obliczenia PG i, aby pokryć rozkład prawdopodobieństwa C (więc unikam błędu selekcji); czy mogę użyć mniej niż 1000?
Dziękuję bardzo za wszelką pomoc!