Moje pytanie można by sformułować jako „jak ocenić błąd próbkowania przy użyciu dużych zbiorów danych”, szczególnie w przypadku publikacji w czasopiśmie. Oto przykład ilustrujący wyzwanie.
Z bardzo dużego zestawu danych (> 100 000 unikalnych pacjentów i ich przepisanych leków ze 100 szpitali) chciałem oszacować odsetek pacjentów przyjmujących określony lek. Uzyskanie tej proporcji jest proste. Jego przedział ufności (np. Parametryczny lub bootstrap) jest niewiarygodnie ciasny / wąski, ponieważ n jest bardzo duży. Szczęśliwie jest mieć dużą próbkę, ale wciąż szukam sposobu oceny, prezentacji i / lub wizualizacji niektórych form prawdopodobieństwa błędu. Chociaż umieszczenie / wizualizacja przedziału ufności (np. 95% CI: .65878 - .65881) wydaje się nieprzydatne (jeśli nie wprowadzające w błąd), wydaje się również niemożliwe uniknięcie niektórych stwierdzeń dotyczących niepewności.
Proszę daj mi znać co myślisz. Byłbym wdzięczny za każdą literaturę na ten temat; sposoby uniknięcia nadmiernego zaufania do danych, nawet przy dużej wielkości próby.