Jeśli wartość p wynosi dokładnie 1 (1,0000000), jakie limity przedziału ufności powinny być spełnione, aby hipoteza zerowa była prawdziwa? [Zamknięte]


12

To jest pytanie czysto hipotetyczne. Bardzo częstym stwierdzeniem jest to, że nigdy nie jest prawdziwe, to tylko kwestia wielkości próbki.H.0

Przejdźmy przyjąć, że prawdziwe jest to absolutnie nie mierzalna różnica między dwoma sposobami ( ) pochodzą z populacji o rozkładzie normalnym (zarówno i oszacowano ). Przyjmujemy na grupę i stosujemy test . Oznaczałoby to, że wartość wynosi co oznacza, że ​​absolutnie nie ma rozbieżności względem . Oznaczałoby to, że statystyka testu wynosi . Średnia różnica między grupami wynosiłaby . Jakie byłyby granice przedziału ufności dla średniej różnicy w tym przypadku? Czy oni by byliμ1=μ2)μ=0σ=1N.=16tp1,00000H.00095%[0,0,0,0] ?

Najważniejsze w moim pytaniu było to, kiedy naprawdę możemy powiedzieć, że jest prawdą, tj. w tym przypadku? A może w trybie częstokrzyskim możemy naprawdę powiedzieć „bez różnicy”, porównując dwa sposoby?H.0μ1=μ2)


1
Powiedziałbym, że już na to odpowiedziano tutaj stats.stackexchange.com/questions/275677/… , ale nie nalegam na to.
Tim

1
Mam problem z wymyśleniem sposobu uzyskania z dodatnimi odchyleniami populacji. p=1
Dave


3
„Zakładamy N = 16 na grupę i używamy testu t. Oznaczałoby to, że wartość p wynosi 1,00000, co wskazuje, że absolutnie nie ma rozbieżności względem H0.” Dlaczego argumentujesz, że coś (do czego odnosi się „to”?) Oznacza, że ​​wartość p wynosi 1. Najczęściej wartość p jest równomiernie rozłożona, gdy H_0 jest prawdą, a p = 1 zdarza się prawie nigdy.
Sextus Empiricus,

2
@MartijnWeterings Jest absolutnie poprawny - tylko dlatego, że próbujesz dwie dystrybucje, które w rzeczywistości są identyczne, nie oznacza, że ​​otrzymasz wartość p 1 przy porównywaniu ich. Z definicji 5% czasu otrzymasz wartość p poniżej 0,05.
Nuclear Wang

Odpowiedzi:


17

Przedział ufności dla t-test jest w postaci x¯1x¯2±tcrit,αsx¯1x¯2 , w którym x¯1 i x¯2 są środki pomiarowe, tcrit,α jest wartością krytyczną t dla danego α , a sx¯1x¯2) jest błędem standardowym różnicy średnich. Jeślip=1.0 , a następniex¯1-x¯2)=0 . Tak więc wzór jest tylko±tkryt,αsx¯1-x¯2) i ograniczenia tylko {-tkryt,αsx¯1-x¯2) ,tkryt,αsx¯1-x¯2) }.

Nie jestem pewien, dlaczego uważasz, że limity wynoszą {0,0}.Krytyczna wartość t nie jest równa zero, a błąd standardowy średniej różnicy nie jest równy zero.


10

Będąc super leniwym, używając R, aby rozwiązać problem numerycznie, zamiast wykonywać obliczenia ręcznie:

Zdefiniuj funkcję, która da normalnie rozłożone wartości ze średnią (prawie!) Dokładnie zero i SD dokładnie 1:

rn2 <- function(n) {r <- rnorm(n); c(scale(r)) }

Uruchom test t:

t.test(rn2(16),rn2(16))

    Welch Two Sample t-test

data:  rn2(16) and rn2(16)
t = 1.7173e-17, df = 30, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.7220524  0.7220524
sample estimates:
   mean of x    mean of y 
6.938894e-18 8.673617e-19 

Średnie nie są dokładnie zerowe z powodu niedokładności zmiennoprzecinkowej.

Bardziej bezpośrednio, CI są ± sqrt(1/8)*qt(0.975,df=30) ; wariancja każdej średniej wynosi 1/16, więc łączna wariancja wynosi 1/8.


8

CI może mieć dowolne ograniczenia, ale jest wyśrodkowany dokładnie wokół zera

W przypadku testu T z dwiema próbkami (badanie różnicy w średnich dwóch populacji) wartość p wynosząca dokładnie jedną odpowiada przypadkowi, w którym obserwowane średnie z próbki są dokładnie równe. (Przykładowe wariancje mogą przyjmować dowolne wartości.) Aby to zobaczyć, zauważ, że funkcja wartości p dla testu to:

pp(x,y)=P.(|X¯-Y¯S.Y/nY+S.Y/nY||x¯-y¯sY/nY+sY/nY|).

Zatem ustawienie x¯=y¯ daje:

p(x,y)=P.(|X¯-Y¯S.Y/nY+S.Y/nY|0)=1.

Załóżmy teraz, że tworzysz standardowy (przybliżony) przedział ufności, używając przybliżenia Welch-Satterwaite. W tym przypadku, zakładając, że x¯=y¯ (aby podać dokładną wartość p wynoszącą jeden) daje przedział ufności:

CI(1-α)=[0±sXnX+trefa,α/2)sYnY],

gdzie stopnie swobody refa są określone przez przybliżenie Welch-Satterwaite. W zależności od zaobserwowanych wariancji próbki problemu, przedziałem ufności może być dowolny przedział skończony wyśrodkowany wokół zera. Oznacza to, że przedział ufności może mieć dowolne ograniczenia, o ile jest wyśrodkowany dokładnie wokół zera.


Oczywiście, jeśli podstawowe dane faktycznie pochodzą z ciągłego rozkładu, to zdarzenie występuje z prawdopodobieństwem zerowym, ale załóżmy, że tak się dzieje.


Pytanie brzmi „σ szacowane = 1”.
Accumumulation

Ten warunek nie jest konieczny, aby uzyskać wartość p wynoszącą jeden, więc go upuściłem.
Ben - Przywróć Monikę

3

Trudno jest przeprowadzić przekonującą dyskusję filozoficzną na temat rzeczy, które mają 0 prawdopodobieństwa. Pokażę więc kilka przykładów dotyczących twojego pytania.

Jeśli masz dwie ogromne niezależne próbki z tego samego rozkładu, wówczas obie próbki będą nadal miały pewną zmienność, połączona statystyka t dla 2 próbek będzie bliska, ale nie dokładnie 0, wartość P zostanie rozdzielona jako Unjafa(0,1), a przedział ufności 95% będzie bardzo krótki i wyśrodkowany bardzo blisko 0.

Przykład jednego takiego zestawu danych i testu t:

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.1591659  0.1036827
sample estimates:
mean of x mean of y 
 99.96403  99.99177 

Oto podsumowane wyniki z 10 000 takich sytuacji. Po pierwsze, rozkład wartości P.

set.seed(2019)
pv = replicate(10^4, 
   t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066   # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dunif(x), add=T, col="red", lwd=2, n=10001)

wprowadź opis zdjęcia tutaj

Następnie statystyki testu:

set.seed(2019)  # same seed as above, so same 10^4 datasets
st = replicate(10^4, 
       t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332  # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)

wprowadź opis zdjęcia tutaj

I tak dalej dla szerokości CI.

set.seed(2019)
w.ci = replicate(10^4, 
        diff(t.test(rnorm(10^5,100,15),
         rnorm(10^5,100,15),var.eq=T)$conf.int)) 
mean(w.ci)
[1] 0.2629603

Niemożliwe jest uzyskanie wartości P jedności, wykonując dokładny test z ciągłymi danymi, w których spełnione są założenia. Do tego stopnia, że ​​mądry statystyk rozważy, co mogło pójść nie tak po zobaczeniu wartości P wynoszącej 1.

Na przykład możesz podać oprogramowaniu dwie identyczne duże próbki. Programowanie będzie przebiegać tak, jakby były to dwie niezależne próbki i dały dziwne wyniki. Ale nawet wtedy CI nie będzie miało szerokości 0.

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = x1
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 
 -0.1316593  0.1316593
sample estimates:
mean of x mean of y 
 99.96403  99.96403 

To wszystko w porządku, ponieważ rozkład normalny jest ciągły, prawdopodobieństwo dla dowolnego konkretnego przykładu wynosi zero, nie ma znaczenia, czy u1 = u2, czy u1-u2 = -0,977, czy cokolwiek innego. Kusiło mnie, by skomentować: „to się nigdy nie wydarzy, a szanse są w tym przypadku coś złego”, ale pomyślałem, że nie, sensownie jest powiedzieć, zakładając, że tak się stało, akceptując, że tak się stało prawdopodobieństwo zerowe jak każdy konkretny przykład .
Lewian

1
To jest prawidłowa odpowiedź na złe pytanie
David,

1
@ David. Prawdopodobnie tak. Jeśli możesz podać właściwe pytanie i zasugerować odpowiedź, może to być pomocne. Próbowałem jedynie odnieść się do kilku z tego, co uważałem za kilka nieporozumień.
BruceET

OP stwierdził: „Bardzo częstym stwierdzeniem jest to, że H0 nigdy nie jest prawdziwe”. @ Odpowiedź BruceET pokazuje, DLACZEGO nigdy nie można zaakceptować H0. Im bliżej H0 staje się prawda, tym bardziej równomiernie losowe staje się P, co oznacza, że ​​P pomiędzy (0,98,0.99) jest tak samo prawdopodobne jak P między (0,1, 0,2), gdy H0 jest prawdziwe.
Ron Jensen - Wszyscy jesteśmy Monicą

1

Prosta odpowiedź (+1 do Noah) wyjaśni, że przedział ufności dla średniej różnicy może nadal mieć niezerową długość, ponieważ zależy to od obserwowanej zmienności w próbce w inny sposób niż wartość p.

Jednak nadal możesz się zastanawiać, dlaczego tak jest. Ponieważ nie jest tak dziwne wyobrażenie sobie, że wysoka wartość p oznacza również mały przedział ufności. W końcu oba odpowiadają coś, co jest bliskie potwierdzeniu hipotezy zerowej. Dlaczego więc ta myśl nie jest poprawna?

Wysoka wartość p nie jest tym samym co mały przedział ufności.

  • Wartość p jest wskaźnikiem tego, jak ekstremalna jest konkretna obserwacja (skrajność przy pewnej hipotezie), wyrażając, jak prawdopodobne jest zaobserwowanie danego odchylenia. Jest to wyraz wielkości obserwowanego efektu w stosunku do dokładności eksperymentu (duża obserwowana wielkość efektu może nie mieć większego znaczenia, gdy eksperyment jest tak „niedokładny”, że obserwacje te nie są ekstremalne z statystycznego / probabilistycznego punktu widzenia ). Kiedy obserwujemy p-wartość 1 to ten (tylko) oznacza, że obserwowane zerowy efekt, ponieważ prawdopodobieństwo obserwować taki wynik zerowy lub większy jest równa 1 (ale to nie jest taka sama, jak tam jest zerowy efekt).

    Sidenote: Dlaczego wartości p? Wartość p wyraża rzeczywistą wielkość obserwowanego efektu w stosunku do oczekiwanych wielkości efektu (prawdopodobieństwa). Jest to istotne, ponieważ eksperymenty z założenia mogą generować obserwacje o pewnym istotnym rozmiarze efektu przez czysty przypadek ze względu na częste fluktuacje danych / obserwacji. Wymaganie, aby obserwacja / eksperyment miała niską wartość p oznacza, że ​​eksperyment ma wysoką precyzję - to znaczy: obserwowany rozmiar efektu jest rzadziej / prawdopodobny z powodu szansy / fluktuacji (i może być prawdopodobny z powodu prawdziwego efektu) .

    XN.(0,1)P.(X=0)=0

  • αα

    Należy zauważyć, że wysoka wartość p nie jest (koniecznie) dowodem / wsparciem / czymkolwiek dla hipotezy zerowej. Wysoka wartość p oznacza jedynie, że obserwacja nie jest niezwykła / ekstremalna dla danej hipotezy zerowej, ale równie dobrze może tak być w przypadku hipotezy alternatywnej (tj. Wynik jest zgodny z obiema hipotezami efekt tak / nie). Zwykle ma to miejsce, gdy dane nie przenoszą dużej ilości informacji (np. Wysoki hałas lub mała próbka).

p0,5pU(0,1)


1

H.0μ1=μ2)

Nie, ponieważ „brak dowodów nie jest dowodem nieobecności”. Prawdopodobieństwo można traktować jako rozszerzenie logiki z dodatkowymi niepewnościami, więc wyobraź sobie przez chwilę, że zamiast liczb rzeczywistych w jednostkowych odstępach test hipotezy zwróci tylko wartości binarne: 0 (fałsz) lub 1 (prawda). W takim przypadku obowiązują podstawowe zasady logiki, jak w poniższym przykładzie :

  • Jeśli padał deszcz na zewnątrz, prawdopodobnie ziemia jest mokra.
  • Ziemia jest mokra.
  • Dlatego padało na zewnątrz.

Ziemia mogła być bardzo mokra, ponieważ padał deszcz. Może to być spowodowane tryskaczem, czyszczeniem rynien, awarią wodociągu itp. Bardziej ekstremalne przykłady można znaleźć w linku powyżej.

μ1-μ2)0

p=1±0H.0


0

Nic nie stoi na przeszkodzie, aby używać standardowych formuł t lub Gaussa do obliczania przedziału ufności - wszystkie potrzebne informacje są podane w pytaniu. p = 1 nie oznacza, że ​​coś jest z tym nie tak. Zauważ, że p = 1 nie oznacza, że ​​możesz być szczególnie pewien, że H0 jest prawdziwe. Przypadkowa zmienność jest nadal obecna i jeśli u0 = u1 może wystąpić pod H0, może się również zdarzyć, jeśli prawdziwa wartość u0 różni się nieznacznie od prawdziwej u1, więc w przedziale ufności będzie więcej niż tylko równość.


Dokonałem edycji, mam nadzieję, że teraz jest bardziej zdefiniowana.
arkiaamu

OK, usunąłem odniesienia do tego, co było źle zdefiniowane we wcześniejszej wersji. Tymczasem inni odpowiedzieli poprawnie na to pytanie.
Lewian,

Proszę używać notacji MathJax
David

0

Bardzo częstym stwierdzeniem jest to, że H0 nigdy nie jest prawdziwe, to tylko kwestia wielkości próbki.

Nie wśród ludzi, którzy wiedzą o czym mówią i mówią dokładnie. Tradycyjne testowanie hipotez nigdy konkluduje , że zerowa jest prawdziwa, ale czy zerowa jest prawdziwa, czy nie jest niezależny od tego, czy wartość null jest zawarta prawda.

Oznaczałoby to, że wartość p wynosi 1,00000

W przypadku testu dwustronnego tak.

wskazując, że absolutnie nie ma rozbieżności w stosunku do H0.

H.0H.00H.0H.0 przewiduje, że o wiele bardziej słusznie można by to nazwać „rozbieżnością” niż po prostu obserwowanie pojedynczej próbki, której średnia nie odpowiada trybowi.

Jakie byłyby granice 95% przedziału ufności dla średniej różnicy w tym przypadku?

fa(ϵ)ϵlimϵ0fa(ϵ)

Najważniejsze w moim pytaniu było to, kiedy naprawdę możemy powiedzieć, że H0 jest prawdziwe, tj. Μ1 = μ2 w tym przypadku?

12)3).5.1, ... „Możemy założyć dowolnie małą różnicę w środkach, i będzie to zgodne z alternatywną hipotezą. A przy arbitralnie małej różnicy, podane prawdopodobieństwo jest arbitralnie bliskie prawdopodobieństwu przy zerowej wartości. alternatywna hipoteza obejmuje nie tylko możliwość, że parametry rozkładów, takie jak średnia, są różne, ale że istnieje zupełnie inny rozkład. Na przykład alternatywna hipoteza obejmuje: „Dwie próbki zawsze będą miały różne różnice, co oznacza, że ​​to wynosi dokładnie 1 lub dokładnie 0, z prawdopodobieństwem 0,5 dla każdego ". Wyniki są bardziej spójne z tym, że są z wartością zerową.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.