Kontekst
Jest to nieco podobne do tego pytania , ale nie sądzę, że jest to dokładna kopia.
Kiedy szukasz instrukcji, jak wykonać test hipotezy ładowania początkowego, zwykle stwierdza się, że dobrze jest użyć rozkładu empirycznego dla przedziałów ufności, ale że musisz poprawnie załadować ładunek z rozkładu w ramach hipotezy zerowej, aby uzyskać p- wartość. Jako przykład zobacz zaakceptowaną odpowiedź na to pytanie . Ogólne wyszukiwanie w Internecie wydaje się przynosić podobne odpowiedzi.
Powodem nieużywania wartości p opartej na rozkładzie empirycznym jest to, że przez większość czasu nie mamy niezmienności tłumaczenia.
Przykład
Podam krótki przykład. Mamy monetę i chcemy wykonać jednostronny test, aby sprawdzić, czy częstotliwość głowic jest większa niż 0,5
Wykonujemy prób i otrzymujemy głów. Prawdziwa wartość p dla tego testu wynosiłaby .
Z drugiej strony, jeśli bootstrap nasze 14 z 20 głowy skutecznie próbki z rozkładu dwumianowego z oraz . Przesuwając ten rozkład odejmując 0,2 otrzymamy ledwie znaczący wynik podczas testowania naszej zaobserwowanej wartości 0,7 względem uzyskanego rozkładu empirycznego.
W tym przypadku rozbieżność jest bardzo mała, ale rośnie, gdy wskaźnik sukcesu, na którym testujemy, zbliża się do 1.
Pytanie
Przejdźmy teraz do sedna mojego pytania: ta sama wada dotyczy również przedziałów ufności. W rzeczywistości, jeśli przedział ufności ma określony poziom ufności wówczas przedział ufności nie zawierający parametru w ramach hipotezy zerowej jest równoważny odrzuceniu hipotezy zerowej na poziomie istotności .
Dlaczego przedziały ufności oparte na rozkładzie empirycznym są powszechnie akceptowane, a wartość p nie?
Czy istnieje głębszy powód, czy ludzie nie są tak konserwatywni, jeśli chodzi o przedziały ufności?
W tej odpowiedzi Peter Dalgaard udziela odpowiedzi, która wydaje się zgadzać z moim argumentem. On mówi:
Nie ma nic szczególnie złego w tym rozumowaniu, a przynajmniej nie (znacznie) gorszym niż obliczanie CI.
Skąd pochodzi (dużo)? Oznacza to, że generowanie w ten sposób wartości p jest nieco gorsze, ale nie rozwija się w tym punkcie.
Końcowe przemyślenia
Również we wstępie do Bootstrap autorstwa Efrona i Tibshirani poświęcają dużo miejsca przedziałom ufności, ale nie wartościom p, chyba że są generowane zgodnie z prawidłowym rozkładem hipotezy zerowej, z wyjątkiem jednej odchylonej linii o ogólnej równoważności przedziały ufności i wartości pw rozdziale o testach permutacyjnych.
Wróćmy też do pierwszego pytania, które podłączyłem. Zgadzam się z odpowiedzią Michaela Chernicka, ale ponownie argumentuje on również, że zarówno przedziały ufności, jak i wartości p oparte na empirycznym rozkładzie bootstrapu są równie niewiarygodne w niektórych scenariuszach. Nie wyjaśnia to, dlaczego wiele osób mówi ci, że przedziały są w porządku, ale wartości p nie.