Dlaczego te stwierdzenia nie wynikają logicznie z 95% CI dla średniej?


26

Czytałem artykuł Hoekstry i in. Z 2014 r. Na temat „Solidnej błędnej interpretacji przedziałów ufności”, który pobrałem ze strony internetowej Wagenmakers .

Na przedostatniej stronie pojawia się następujący obraz.

Kartkówka

Według autorów Fałsz jest prawidłową odpowiedzią na wszystkie te stwierdzenia. Nie jestem pewien, dlaczego twierdzenia są fałszywe, i o ile mogę stwierdzić, reszta artykułu nie próbuje tego wyjaśnić.

Uważam, że 1-2 i 4 nie są poprawne, ponieważ twierdzą coś o prawdopodobnej wartości prawdziwej średniej, gdy prawdziwa średnia ma określoną wartość, która jest nieznana. Czy to przekonujące wyróżnienie?

Jeśli chodzi o 3, rozumiem, że nie należy twierdzić o prawdopodobieństwie, że hipoteza zerowa jest nieprawidłowa, chociaż nie jestem pewien, dlaczego.

Podobnie 6 nie może być prawdziwe, ponieważ sugeruje, że prawdziwa średnia zmienia się z eksperymentu na eksperyment.

Tym, którego tak naprawdę nie rozumiem, jest 5. Dlaczego to się myli? Jeśli mam proces, w którym 95% czasu wytwarza CI zawierające prawdziwą średnią, dlaczego nie miałbym powiedzieć, że mam 95% pewności, że wartość populacji wynosi od 0,1 do 0,4? Czy to dlatego, że możemy mieć jakieś specjalne informacje o pobranej próbce, które skłoniłyby nas do przypuszczenia, że ​​jest to jeden z 5%, który nie zawiera prawdziwej średniej? Na przykład 0,13 jest zawarty w przedziale ufności iz jakiegoś powodu 0,13 nie jest uważany za wiarygodną wartość w określonym kontekście badawczym, np. Ponieważ ta wartość byłaby sprzeczna z poprzednią teorią.

Co w każdym razie oznacza zaufanie w tym kontekście?


Odpowiedzi:


11

Samo znaczenie pytania (5) zależy od jakiejś nieujawnionej interpretacji „zaufania”. Przejrzałem uważnie gazetę i nie znalazłem żadnej próby zdefiniowania „pewności” ani tego, co może to oznaczać w tym kontekście. Wyjaśnienie tego artykułu dotyczące odpowiedzi na pytanie (5) brzmi:

„... [wspomina] o granicach CI, podczas gdy ... CI może być użyty do oceny tylko procedury, a nie określonego przedziału.”

Jest to zarówno podstępne, jak i wprowadzające w błąd. Po pierwsze, jeśli nie możesz ocenić wyniku zabiegu, to po co ta procedura? Po drugie, stwierdzenie w pytaniu nie dotyczy procedury, ale „zaufania” czytelnika do jej wyników.

Autorzy bronią się:

„Przed kontynuowaniem ważne jest przywołanie poprawnej definicji elementu CI. Element CI to przedział liczbowy zbudowany wokół oszacowania parametru. Taki przedział nie oznacza jednak bezpośrednio właściwości parametru, lecz wskazuje właściwość procedury, typowa dla techniki częstokrzyskiej ”.

Ich stronniczość ujawnia się w ostatnim zdaniu: „technika częstokroć” (napisanym być może z ukrytym szyderstwem). Chociaż ta charakterystyka jest poprawna, jest krytycznie niekompletna. Nie zauważa, że ​​przedział ufności jest również właściwością metod eksperymentalnych (sposobu pobierania i pomiaru próbek) i, co ważniejsze, samej natury. To jedyny powód, dla którego ktoś byłby zainteresowany jego wartością.

Niedawno miałem przyjemność czytać Edwarda Batscheleta Circular Statistics in Biology (Academic Press, 1981). Batschelet pisze jasno i na temat, w stylu skierowanym do pracującego naukowca. Oto, co mówi o przedziałach ufności:

Oszacowanie parametru bez wskazań odchyleń spowodowanych przypadkowymi fluktuacjami ma niewielką wartość naukową. ...

„Podczas gdy parametrem, który ma być oszacowany, jest stała liczba, limity ufności są określane przez próbkę. Są to statystyki, a zatem zależą od wahań szans. Różne próbki pobrane z tej samej populacji prowadzą do różnych przedziałów ufności.”

[Nacisk położony jest w oryginale, str. 84–85.]

Zwróć uwagę na różnicę nacisku: podczas gdy omawiany artykuł koncentruje się na procedurze, Batschelet koncentruje się na próbce, a konkretnie na tym, co może ujawnić na temat parametru i na ile na te informacje mogą mieć wpływ „wahania szans”. Uważam, że to bezwstydnie praktyczne, naukowe podejście jest o wiele bardziej konstruktywne, pouczające i - ostatecznie - użyteczne.

Dlatego pełniejsza charakterystyka przedziałów ufności niż oferowana w pracy musiałaby przebiegać w następujący sposób:

CI jest przedziałem liczbowym zbudowanym wokół oszacowania parametru. Każdy, kto zgadza się z założeniami leżącymi u podstaw konstrukcji CI, ma uzasadnienie, twierdząc, że jest pewien, że parametr mieści się w przedziale: jest to znaczenie „pewny siebie”. Znaczenie to jest zasadniczo zgodne z konwencjonalnymi nietechnicznymi znaczeniami ufności, ponieważ w wielu powtórzeniach eksperymentu (niezależnie od tego, czy faktycznie mają one miejsce) CI, chociaż będzie się różnić, powinien zawierać parametr przez większość czasu.

W tym pełniejszym, bardziej konwencjonalnym i konstruktywnym poczuciu „pewności” odpowiedź na pytanie (5) jest prawdziwa.


2
Warto zauważyć, że podejście Batscheleta wydaje się wykluczać pewne rodzaje przedziałów ufności, które sprawiają, że zamyśleni czytelnicy robią sobie przerwę, takie jak CI, które mogą być puste. Taki CI nie uchwyciłby idei „oznak odchyleń spowodowanych przypadkowymi wahaniami”. Wskazuje to, że być może standardowa definicja przedziału ufności nie do końca spełnia zamierzone cele. Niezależnie od tego, przy braku wyraźnego wskazania, co oznacza „zaufanie” w pytaniu (5), musimy odrzucić wszelkie wnioski wyciągnięte przez autorów na podstawie odpowiedzi, jakie uzyskali na to pytanie.
whuber

Nie zgodziłbym się z tym, że 5 jest zgodne z twoją dopracowaną definicją przedziału ufności. CI musi opierać się na wystarczającej statystyce - w przeciwnym razie możesz stworzyć CI, które mają „złą” i „dobrą” podklasę przypadków, rozpoznawalną na podstawie próby, którą masz, tak że zasięg w tych klasach jest zbyt niski lub zbyt wysoki. Najbardziej podstawowym przykładem jest próbka o wielkości 2 z . Średnia próbki nie jest wystarczająca dla więc zasięg CI różni się w zależności od konkretnej próbki. μyjadozaudohy(μ,1)μ
prawdopodobieństwo prawdopodobieństwo

... ciąg dalszy ... więc nawet jeśli osiągnięty został średni zasięg w długim okresie, zasięg w określonej klasie próbek nie.
prawdopodobieństwo prawdopodobieństwo

10

Pytania 1-2, 4: w analizie częstościowej prawdziwa średnia nie jest zmienną losową, więc prawdopodobieństwa nie są zdefiniowane, podczas gdy w analizie Bayesa prawdopodobieństwa zależą od wcześniejszego.

Pytanie 3: Na przykład rozważmy przypadek, w którym wiemy na pewno. Można byłoby uzyskać te wyniki, ale raczej nierozsądne jest twierdzenie, że hipoteza zerowa jest „nieprawdopodobna”, aby była prawdziwa. Uzyskaliśmy dane, które są mało prawdopodobne, jeśli hipoteza zerowa jest prawdziwa, ale nie oznacza to, że hipoteza zerowa jest mało prawdopodobna.

Pytanie 5: Jest to nieco wątpliwe, ponieważ zależy to od definicji „możemy być pewni%.” Jeśli zdefiniujemy instrukcję jako oznaczającą rzecz, którą można wywnioskować z przedziałów ufności p%, to z definicji instrukcja jest poprawna. Typowy argument pro-bayesowski mówi, że ludzie interpretują te twierdzenia intuicyjnie, co oznacza „prawdopodobieństwo p%”, co byłoby fałszem (porównaj odpowiedzi z 1-2,4).

Pytanie 6: Twoje wyjaśnienie „sugeruje, że prawdziwa średnia zmienia się z eksperymentu na eksperyment” jest dokładnie poprawne.

Artykuł został niedawno omówiony na blogu Andrew Gelmana ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ). Na przykład kwestia interpretacji stwierdzenia, o którym mowa w pytaniu 5, została omówiona w komentarzach.


1
Więc jeśli ktoś cofnie się i zastąpi każde wystąpienie „prawdziwego środka” przez „najlepsze oszacowanie dla prawdziwego środka”, to czy stwierdzenia staną się prawidłowe?
Superbest

@ Superbest Nie. Jeśli weźmiemy pod uwagę „najlepszy szacunek przy tych danych”, jest to znana stała (pod warunkiem, że najlepsze jest dobrze zdefiniowane). Jeśli weźmiemy pod uwagę „najlepsze oszacowanie przyszłej próby”, nie wiemy, jak to się zmienia, ponieważ nie znamy prawdziwej średniej.
Juho Kokkala

Nie jest to dokładnie obalenie powyższego komentarza, ale powinienem zauważyć, że rzeczywiście „najlepsze oszacowanie” implikuje rzeczywistą liczbę, a nie rozkład. W przypadku CI można by chyba mówić o „rozkładzie, gdzie może leżeć prawdziwy środek, biorąc pod uwagę te dane”.
Superbest

1
@ Super To właśnie nieporozumienie dotyczące CI jest omawiane w artykule. W szczególności prawdziwą średnią jest liczba ; nie ma dystrybucji. Zobacz dwa pierwsze trafienia w wyszukiwaniu witryny dla przedziału ufności do dalszej dyskusji.
whuber

1
@ super, „wiarygodny interwał” byłby bliski.
whuber

8

Bez jakiejkolwiek formalnej definicji znaczenia „95% pewności”, jakie jest uzasadnienie dla oznakowania nr 5 „prawda” czy „fałsz”? Laik bez wątpienia błędnie zinterpretuje to jako równoznaczne z 95% prawdopodobieństwem średniej w tym przedziale: ale niektórzy ludzie używają go w sensie zastosowania metody generowania przedziałów, której przedziały zawierają prawdziwą średnią 95% czasu, właśnie, aby uniknąć mówienia o rozkładzie prawdopodobieństwa nieznanego parametru; co wydaje się wystarczająco naturalnym rozszerzeniem terminologii.

Podobna struktura poprzedniego oświadczenia (# 4) mogła zachęcić respondentów do próby rozróżnienia między „możemy być w 95% pewni siebie” i „istnieje 95% prawdopodobieństwo”, nawet jeśli wcześniej nie bawili się tym pomysłem. Spodziewałem się, że ta podstępność doprowadzi do największej zgodności liczby 5 - patrząc na artykuł, dowiedziałem się, że się mylę, ale zauważyłem, że co najmniej 80% czytało kwestionariusz w wersji holenderskiej, co być może powinno budzić pytania dotyczące znaczenie tłumaczenia na angielski.


4

Oto definicja przedziału ufności z Dictionary of Statistics BS Everitt's Statistics :

„Zakres wartości, obliczony na podstawie obserwacji próbki, które z pewnym prawdopodobieństwem zawierają rzeczywistą wartość parametru. Na przykład 95% CI oznacza, że ​​proces szacowania był powtarzany wielokrotnie, a następnie 95% obliczonych przedziałów powinien zawierać prawdziwą wartość parametru. Należy zauważyć, że podany poziom prawdopodobieństwa odnosi się do właściwości przedziału, a nie do samego parametru, który nie jest uważany za zmienną losową ”

Bardzo częstym nieporozumieniem jest pomylenie znaczenia przedziału ufności z pojęciem przedziału wiarygodnego , AKA „Bayesowski przedział ufności”, który czyni stwierdzenia podobne do tych w pytaniach.

Słyszałem, że przedziały ufności są często podobne do przedziałów wiarygodności, które pochodzą z nieinformacyjnego przeora, ale zostało mi to powiedziane anegdotycznie (choć facet, którego bardzo szanuję), i nie mam szczegółów ani cytowania.


Jaynes 1976 papierowe przedziały ufności vs przedziały bayesowskie. To co najmniej jeden wiarygodny soure. Są też referencje priory Bergera i Bernarda. Poważnie, nigdy o nich nie słyszałeś?
probabilityislogic

2

Jeśli chodzi o intuicję dotyczącą fałszywości pytania 5, stąd otrzymuję następującą dyskusję na ten temat

Prawdą jest, że istnieje 95% szansa, że ​​obliczony przedział ufności zawiera prawdziwą średnią populacji. Nie jest całkiem poprawne stwierdzenie, że istnieje 95% szans, że średnia populacji mieści się w przedziale.

Co za różnica? Średnia populacji ma jedną wartość. Nie wiesz, co to jest (chyba że wykonujesz symulacje), ale ma jedną wartość. Jeśli powtórzysz eksperyment, wartość ta nie zmieni się (i nadal nie wiesz, co to jest). Dlatego pytanie o prawdopodobieństwo, że średnia w populacji mieści się w określonym przedziale, nie jest całkowicie poprawne. Natomiast obliczany przedział ufności zależy od gromadzonych danych. Jeśli powtórzysz eksperyment, przedział ufności prawie na pewno będzie inny. Można więc zapytać o prawdopodobieństwo, że przedział zawiera średnią populacji.

Przejdźmy teraz do konkretnych pytań na temat 5. Dlaczego to źle ...

  1. Czy to dlatego, że możemy mieć jakieś specjalne informacje o pobranej próbce, które skłoniłyby nas do przypuszczenia, że ​​jest to jeden z 5%, który nie zawiera prawdziwej średniej? Nie, raczej myślę, że dzieje się tak, ponieważ prawdziwa średnia nie jest zmienną losową, ale przedział ufności jest funkcją danych.
  2. 100(1-α)100(1-α)

Na marginesie (wspomnianym w innych odpowiedziach na to pytanie) wiarygodny przedział , koncepcja ze statystyk bayesowskich, przewiduje, że prawdziwa wartość parametru ma szczególne prawdopodobieństwo, że znajdzie się w przedziale ufności, biorąc pod uwagę faktycznie uzyskane dane. Być może możesz uzyskać więcej informacji na ten temat z blogu Gelmana.


5
„Interwał zawiera prawdziwą wartość”, a „prawdziwa wartość leży w przedziale” oznacza dokładnie to samo. Bardziej pomocne jest myślenie w kategoriach pierwszego, ale tak naprawdę nie ma sensu stwierdzenie, że jedno jest poprawne, a drugie niepoprawne.
David Richerby
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.