Czy odrzucenie hipotezy przy użyciu wartości p jest równoważne hipotezie nienależącej do przedziału ufności?


29

Podczas formalnego wyprowadzania przedziału ufności oszacowania, otrzymałem formułę, która bardzo przypomina sposób obliczania wartości .p

Zatem pytanie: czy są one formalnie równoważne? Tj. Odrzuca hipotezy o wartości krytycznej α równoważnej 0 nie należącej do przedziału ufności o wartości krytycznej α ?H0=0α0α


2
@f coppens: tak, jeśli używane są dwa testy z różnymi statystykami, uzyskuje się dwa różne przedziały ufności. Myślę jednak, że OP odkrył podstawowy fakt: zarówno przedział ufności, jak i wartość p są uzyskiwane z rozkładu tej samej statystyki, więc oba z nich można wykorzystać do podjęcia decyzji o odrzuceniu hipotezy zerowej lub nie.
StijnDeVuyst

1
@StijnDeVuyst: Interwał Clopper / Pearon dla proporcji i interwał Sterne dla proporcji pochodzą z rozkładu dwumianowego o tym samym rozmiarze (p nie jest znane, ponieważ znajdują przedział ufności dla p). Różnica między Clopper / Pearson a Sterne wynika z asymetrii gęstości dwumianowej. Interwał Sterne próbuje zminimalizować szerokość interwału, a Clopper_pearson próbuje zachować symetrię (ale ze względu na skośność dwumianu można to znaleźć tylko w przybliżeniu).

6
Nie ogólnie nie. Rozważ przypadki, w których szerokość przedziału jest funkcją szacowanej wartości parametru, podczas gdy w teście szerokość przedziału jest funkcją hipotetycznej. Oczywistym przykładem może być test dwumianowy p. Użyjmy normalnego ok. dla uproszczenia (choć forma argumentacji na nim nie polega). Rozważmy n = 10 i zerową wartość p = 0,5. Wyobraź sobie, że obserwujesz 2 głowy; wartość null nie jest odrzucana (ponieważ „2” znajduje się w 95% przedziale około 0,5), ale CI dla p nie obejmuje 0,5 (ponieważ CI jest węższy niż szerokość interwału pod null.
Glen_b -Reinstate Monica

4
Lub jeśli potrzebujesz, aby był wystarczająco duży, aby normalne ok było dobre, spróbuj 469 głowic w 1000 rzutach, dla H0 p = 0,5; ponownie 95% CI dla p nie obejmuje 0,5, ale test 5% nie odrzuca, ponieważ odpowiadająca szerokość przedziału pod H0 jest szersza niż pod alternatywą (z czego robisz CI).
Glen_b

4
@Glen_b: Wygląda na to, że to nowsze pytanie stats.stackexchange.com/questions/173005 stanowi przykład dokładnie opisanej tutaj sytuacji.
ameba mówi Przywróć Monikę

Odpowiedzi:


32

Tak i nie.

Najpierw „tak”

pα1α

θΘRx=(x1,,xn)XnRnX=(X1,,Xn)Iα(X)

Pθ(θIα(X))=1αfor all α(0,1).
1α

H0(θ0):θ=θ0H1(θ0):θθ0λ(θ0,x)α(0,1)H0(θ0)αλ(θ0,x)αα xH0(θ0)

Rα(θ0)={xRn:λ(θ0,x)α}.

λ(θ,x)θΘ

Qα(x)={θΘ:λ(θ,x)α}.

θ0H0(θ0)xRα(θ0)θ0Qα(x)

xRα(θ0)θ0Qα(x).
λ(θ0,X)U(0,1)H0(θ0)
Pθ0(XRα(θ0))=Pθ0(λ(θ0,X)α)=α.
θ0Θ
Pθ0(XRα(θ0))=Pθ0(θ0Qα(X)),
Qα(x)θ0αQαC(x)Qα(x)θ0Θ
Pθ0(θ0QαC(X))=1α,
1αθ

zθx¯σ=1H0(θ)(x¯,θ)R0.05(0.9)=(,1.52)(0.281,)I0.05(1/2)=Q0.05C(1/2)=(0.120,1.120)wprowadź opis zdjęcia tutaj

(Wiele z tego pochodzi z mojej pracy doktorskiej .)

Teraz „nie”

θX

Zjawisko to dotyczy problemów związanych z brakiem zagnieżdżania się takich przedziałów, co oznacza, że ​​przedział 94% może być krótszy niż przedział 95%. Więcej informacji na ten temat znajduje się w sekcji 2.5 mojego ostatniego artykułu (do pojawienia się w Bernoulli).

I drugie „nie”

θ0=0

A czasami „tak” nie jest dobrą rzeczą

Jak zauważył w komentarzu f coppens , czasami interwały i testy mają nieco sprzeczne cele. Chcemy krótkich interwałów i testów o dużej mocy, ale najkrótszy interwał nie zawsze odpowiada testowi o największej mocy. Aby zapoznać się z niektórymi przykładami tego, zobacz ten artykuł (wielowymiarowy rozkład normalny) lub ten (rozkład wykładniczy) lub rozdział 4 mojej pracy magisterskiej .

Bayesianie mogą również powiedzieć „tak” i „nie”

Kilka lat temu zamieściłem tutaj pytanie, czy równoważność interwału testowego istnieje również w statystykach bayesowskich. Krótka odpowiedź jest taka, że ​​przy użyciu standardowych testów hipotezy bayesowskiej odpowiedź brzmi „nie”. Jednak po przeformułowaniu problemu związanego z testowaniem odpowiedź może brzmieć „tak”. (Moje próby odpowiedzi na moje pytanie ostatecznie przerodziły się w artykuł !)


2
Dobra odpowiedź (+1) i (częściowo to robisz) warto wskazać, że czasami przedziały ufności i testy hipotez mają (potencjalnie) sprzeczne cele: próbuje się znaleźć przedział ufności „tak mały, jak to możliwe”, podczas gdy do testowania hipotez próbuje się znaleźć region krytyczny „tak silny, jak to możliwe”.

@fcoppens: Dzięki za sugestię! Zaktualizowałem swoją odpowiedź kilkoma wierszami na ten temat.
MånsT

Tysiąc pracy! Czy pracowałeś również na interwałach Sterne?

@fcoppens: Tak, zrobiłem trochę pracy w odstępie Sterne, głównie w tym artykule
MånsT

7
T1=(p^p)/p^(1p^)/nT2=(p^p)/p(1p)/n

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.