Zastanawiałem się, jak CI bootstrap (i BCa w układzie dwubiegunowym) działają na normalnie dystrybuowanych danych. Wydaje się, że dużo pracy analizuje ich wydajność w różnych typach dystrybucji, ale nie można znaleźć niczego w normalnie dystrybuowanych danych. Ponieważ najpierw wydaje się rzeczą oczywistą studiowanie, przypuszczam, że dokumenty są po prostu za stare.
Zrobiłem kilka symulacji Monte Carlo przy użyciu pakietu rozruchowego R i okazało się, że CI bootstrap są zgodne z dokładnymi CI, chociaż dla małych próbek (N <20) są one nieco liberalne (mniejsze CI). W przypadku wystarczająco dużych próbek są one zasadniczo takie same.
To sprawia, że zastanawiam się, czy istnieje jakiś dobry powód, aby nie zawsze używać ładowania początkowego. Biorąc pod uwagę trudność w ocenie, czy rozkład jest normalny, i wiele pułapek, które za tym stoją, rozsądne wydaje się nie podejmowanie decyzji i zgłaszanie CI bootstrap niezależnie od rozkładu. Rozumiem motywację do nieużywania testów nieparametrycznych systematycznie, ponieważ mają one mniej mocy, ale moje symulacje wskazują, że nie jest tak w przypadku elementów CI bootstrap. Są jeszcze mniejsze.
Podobnym pytaniem, które mnie wkurza, jest to, dlaczego nie zawsze używam mediany jako miary tendencji centralnej. Ludzie często zalecają stosowanie go do scharakteryzowania danych normalnie dystrybuowanych, ale skoro mediana jest taka sama jak średnia dla danych normalnie dystrybuowanych, po co robić rozróżnienie? Wydaje się całkiem korzystne, gdybyśmy mogli pozbyć się procedur decydujących o tym, czy rozkład jest normalny, czy nie.
Jestem bardzo ciekawy twoich przemyśleń na te tematy i tego, czy zostały one wcześniej omówione. Referencje będą bardzo mile widziane.
Dzięki!
Pierre