Z grubsza odpowiedź na pytanie jest taka, że 95% przedział ufności pozwala mieć 95% pewność, że prawdziwa wartość parametru mieści się w przedziale. Jednak ta szorstka odpowiedź jest zarówno niepełna, jak i niedokładna.
Niekompletność polega na tym, że nie jest jasne, że „95% pewności” oznacza cokolwiek konkretnego, a jeśli tak, to to konkretne znaczenie nie zostałoby powszechnie uzgodnione nawet przez niewielką próbę statystyków. Znaczenie pewności zależy od tego, jaką metodę zastosowano do uzyskania przedziału i od jakiego modelu wnioskowania jest używany (co mam nadzieję, że stanie się jaśniejsze poniżej).
Niedokładność polega na tym, że wiele przedziałów ufności nie ma na celu powiedzenia ci nic o lokalizacji prawdziwej wartości parametru dla konkretnego przypadku eksperymentalnego, który dał przedział ufności! Dla wielu będzie to zaskakujące, ale wynika to bezpośrednio z filozofii Neymana-Pearsona, wyraźnie wyrażonej w cytacie z ich artykułu z 1933 r. „O problemie najskuteczniejszych testów hipotez statystycznych”:
Jesteśmy skłonni myśleć, że jeśli chodzi o konkretną hipotezę, żaden test oparty na teorii prawdopodobieństwa nie może sam w sobie dostarczyć żadnych cennych dowodów na prawdziwość lub fałsz tej hipotezy.
Możemy jednak spojrzeć na cel testów z innego punktu widzenia. Nie mając nadziei na ustalenie, czy każda osobna hipoteza jest prawdziwa, czy fałszywa, możemy szukać reguł rządzących naszym zachowaniem w odniesieniu do nich, w wyniku czego zapewniamy, że w długim okresie doświadczenia nie będziemy zbyt często się mylić.
Interwały oparte na „odwróceniu” testów hipotezy NP będą zatem dziedziczyć po tym teście naturę znanych właściwości błędu długoterminowego, nie pozwalając wnioskować o właściwościach eksperymentu, który je przyniósł! Rozumiem, że chroni to przed wnioskami indukcyjnymi, które Neyman najwyraźniej uważał za obrzydliwość.
Neyman wyraźnie powołuje się na termin „przedział ufności” i na pochodzenie teorii przedziałów ufności w swojej pracy Biometrika z 1941 r. „Argument Fiducial i teoria przedziałów ufności”. W pewnym sensie zatem wszystko, co jest właściwie przedziałem ufności, działa zgodnie z jego regułami, a zatem znaczenie pojedynczego przedziału może być wyrażone jedynie w kategoriach długoterminowego tempa, w którym przedziały obliczane za pomocą tej metody zawierają (pokrywają) odpowiednie prawdziwe wartość parametru.
Teraz musimy rozwinąć dyskusję. Jeden z nich jest zgodny z pojęciem „zasięgu”, a drugi z przedziałami innymi niż neymanowskie, które są jak przedziały ufności. Odłożę ten pierwszy, aby móc ukończyć ten post, zanim stanie się on zbyt długi.
Istnieje wiele różnych podejść, które dają przedziały, które można nazwać nie-neymańskimi przedziałami ufności. Pierwszym z nich są podstawowe interwały Fishera. (Słowo „fiducial” może odstraszyć wielu i wywołać drwiący uśmieszek od innych, ale zostawię to na bok ...) W przypadku niektórych rodzajów danych (np. Normalne z nieznaną wariancją populacji) przedziały obliczone metodą Fishera są numerycznie identyczne z przedziały, które zostaną obliczone metodą Neymana. Zapraszają jednak do diametralnie przeciwnych interpretacji. Przedziały neymanowskie odzwierciedlają jedynie właściwości pokrycia w długim okresie metody, podczas gdy przedziały Fishera mają wspierać wnioskowanie indukcyjne dotyczące prawdziwych wartości parametrów dla konkretnego przeprowadzonego eksperymentu.
Fakt, że jeden zestaw granic przedziałów może pochodzić z metod opartych na jednym z dwóch filozoficznie odmiennych paradygmatów, prowadzi do naprawdę zagmatwanej sytuacji - wyniki można interpretować na dwa sprzeczne sposoby. Z argumentu fiducial istnieje 95% prawdopodobieństwa, że określony 95% przedział fiducial będzie zawierał prawdziwą wartość parametru. Z metody Neymana wiemy tylko, że 95% przedziałów obliczonych w ten sposób będzie zawierało prawdziwą wartość parametru, i musimy powiedzieć mylące rzeczy na temat prawdopodobieństwa, że przedział zawierający prawdziwą wartość parametru jest nieznany, ale wynosi 1 lub 0.
W dużej mierze podejście Neymana miało wpływ na podejście Fishera. Moim zdaniem jest to najbardziej niefortunne, ponieważ nie prowadzi do naturalnej interpretacji interwałów. (Ponownie przeczytaj powyższy cytat z Neymana i Pearsona i sprawdź, czy zgadza się z twoją naturalną interpretacją wyników eksperymentów. Najprawdopodobniej nie.)
Jeśli interwał może być poprawnie interpretowany w kategoriach globalnych poziomów błędów, ale także poprawnie w lokalnych kategoriach inferencyjnych, nie widzę dobrego powodu, aby wykluczać użytkowników interwału z bardziej naturalnej interpretacji zapewnianej przez tę ostatnią. Tak więc sugeruję, że właściwa interpretacja przedziału ufności jest ZARÓWNO w następujących przypadkach:
Neymański: Ten 95% przedział został skonstruowany metodą, która daje przedziały, które pokrywają prawdziwą wartość parametru w 95% przypadków w długim okresie (... z naszego doświadczenia statystycznego).
Fisherian: Ten przedział 95% ma 95% prawdopodobieństwo pokrycia prawdziwej wartości parametru.
(Metody bayesowskie i prawdopodobieństwa również dadzą przedziały o pożądanych właściwościach częstokroć. Takie przedziały zapraszają nieco inne interpretacje, które prawdopodobnie będą wydawać się bardziej naturalne niż neymańskie.)