Czy wartość p jest wartością szacunkową?

Ponieważ można obliczyć przedziały ufności dla wartości p, a ponieważ przeciwieństwem oszacowania przedziału jest oszacowanie punktowe: czy wartość p jest oszacowaniem punktowym?

— 00schneider
źródło

Nie sądzę, aby można było obliczyć przedziały ufności dla wartości p; to statystyka obliczona na podstawie danych, a nie parametr opisujący proces generowania danych. Oczywiście nadal możesz zapytać, co szacuje statystyki.

— Scortchi - Przywróć Monikę

@Scortchi: ale jeśli miałbym zastosować np. Ładowanie początkowe, aby obliczyć rozkład wartości p, a następnie skonstruować przedział 95% percentyla tej wartości ładowania początkowego, to jeśli nie jest to przedział ufności dla wartości p - co to jest to ?

— ameba mówi Przywróć Monikę

@amoeba: przedział ufności dotyczy nieznanego parametru, natomiast przedział ładowania początkowego jest przybliżeniem 95% regionu dla statystyki.

— Xi'an,

@ Scorthci: Widziałem oprogramowanie, które drukuje CI dla wartości p. W tym przypadku przybliżone wartości p obliczono za pomocą testów permutacyjnych, więc jeśli CI byłby zbyt szeroki (tj. Wartość p i wartość p ), użyłbyś więcej permutacji przed wyciąganiem wniosków.

\in [0, 0.05]

$\in [0, 0.05]$

\in [0.05, 1]

$\in [0.05, 1]$

— Cliff AB

@Cliff To nie jest przedział ufności dla właściwości p-wartości qua rozkładu: to przedział ufności dla stochastycznego estymatora wartości p testu dla konkretnej próbki. Chociaż brzmią podobnie i oba są interwałami, to są zupełnie różne rzeczy.

— whuber

Odpowiedzi:

Szacunki punktowe i przedziały ufności dotyczą parametrów opisujących rozkład, np. Średniej lub odchylenia standardowego.

Jednak w przeciwieństwie do innych statystyk próby, takich jak średnia próbki i odchylenie standardowe próbki, wartość p nie jest użytecznym estymatorem interesującego parametru rozkładu. Spójrz na odpowiedź @whuber po szczegóły techniczne.

Wartość p dla statystyki testowej daje prawdopodobieństwo zaobserwowania odchylenia od oczekiwanej wartości statystyki testowej co najmniej tak dużej, jak obserwowana w próbce, obliczonej przy założeniu, że hipoteza zerowa jest prawdziwa. Jeśli masz cały rozkład, jest on albo zgodny z hipotezą zerową, albo nie jest. Można to opisać za pomocą zmiennej wskaźnikowej (ponownie, patrz odpowiedź @whuber).

Ale wartość p nie może być użyta jako użyteczny estymator zmiennej wskaźnikowej, ponieważ nie jest spójna, ponieważ wartość p nie zbiega się wraz ze wzrostem wielkości próby, jeśli hipoteza zerowa jest prawdziwa. Jest to dość skomplikowany alternatywny sposób stwierdzenia, że test statystyczny może odrzucić lub nie odrzucić wartości zerowej, ale nigdy jej nie potwierdza.

— Erik
źródło

Większość lepszych relacji z testów statystycznych (Lehman, Kiefer itp.) W ogóle nie odnosi się do „populacji”, ale raczej określa sytuację pod względem szacowania parametrów rozkładów. Nie wymaga to, aby losowość wynikała wyłącznie z próbkowania, a tym samym pozwala na szersze zastosowanie teorii w sytuacjach, w których losowość jest częścią modelu .

— whuber

Ale wyraźnie zaprzeczyłeś, że ze stwierdzeniem „nie ma żadnych prawdopodobieństw związanych z populacją”. Należy również pamiętać, że wszystkie estymatory są „jawnie zdefiniowane na poziomie próby”. Trudno jest zatem ustalić, jakie rozróżnienie próbujesz wprowadzić w tym poście.

— whuber

Oczywiście! Ale rozkład nie jest populacją.

— whuber

(-1) Zgadzam się ze wspólną sensowną odpowiedzią @ Tima i ponowną odpowiedzią Whubera, ale staram się znaleźć jakąkolwiek odpowiedź na to pytanie. (1) „Ale wartość p nie jest parametrem populacyjnym, ponieważ jest wyraźnie zdefiniowana na poziomie próby”: bez wątpienia warto to zaznaczyć, ale „ale” sprawia wrażenie, jakbyś mówił, że wartość p może będzie to oszacowanie czegokolwiek, ponieważ jest to przykładowa statystyka, tak jakby średnia próbki nie mogła być oszacowaniem czegokolwiek, ponieważ jest to przykładowa statystyka. ...

— Scortchi - Przywróć Monikę

(2) „Jest tak, ponieważ w ogóle nie ma żadnych prawdopodobieństw związanych z populacją, uważa się je za ustalone, ale nieznane”: (a) Wartość p nie jest obliczana na podstawie próby, ponieważ „nie ma prawdopodobieństw [ .] "; (b) jak wskazał @ whuber, pobieranie próbek ze skończonej populacji jest szczególnym przypadkiem; (c) w każdym razie po prostu nie wynika z tego, co powiedziałeś, że wartość p nie szacuje niczego na temat populacji.

— Scortchi - Przywróć Monikę

Tak, można (i tak było) argumentować, że wartość p jest oszacowaniem punktowym.

Aby zidentyfikować dowolną właściwość rozkładu, którą mogłaby oszacować wartość p, musielibyśmy założyć, że jest ona asymptotycznie bezstronna. Ale asymptotycznie średnia wartość p dla hipotezy zerowej wynosi (idealnie; w przypadku niektórych testów może to być inna liczba niezerowa), a dla każdej innej hipotezy wynosi . Zatem wartość p można uznać za estymator połowy funkcji wskaźnika dla hipotezy zerowej. $1/2$ $0$

Trzeba wprawdzie trochę kreatywności, aby spojrzeć na wartość p w ten sposób. Moglibyśmy zrobić trochę więcej, patrząc na dany estymator jako na decyzję, którą podejmujemy za pomocą wartości p: czy rozkład leżący u podstaw jest elementem hipotezy zerowej lub hipotezy alternatywnej? Nazwijmy ten zestaw możliwych decyzji . Jack Kiefer pisze $D$

Przypuszczamy, że istnieje eksperyment, którego wynik statystyczny może zaobserwować. Wynik ten opisuje zmienna losowa lub losowy wektor ... Statystyka prawdopodobieństwa jest nieznana statystyce, ale wiadomo, że funkcja rozkładu z jest członkiem określonej klasy funkcji rozkładu. ... $X$ $X$ $F$ $X$ $\Omega$

Mówi się, że problemem statystycznym jest problem oszacowania punktowego, jeśli jest zbiorem możliwych wartości niektórych właściwości o wartości rzeczywistej lub wektorowej, która zależy od w dość płynny sposób. $D$ $F$ $F$

W tym przypadku, ponieważ jest dyskretna, „dość gładka” wcale nie jest ograniczeniem. Terminologia Kiefera odzwierciedla to, odnosząc się do procedur statystycznych z dyskretnymi przestrzeniami decyzyjnymi jako „testy” zamiast „estymatorów punktowych”. $D$

Chociaż interesujące jest zbadanie granic (i ograniczeń) takich definicji, jak to pytanie nas zachęca, być może nie powinniśmy zbyt mocno nalegać, aby wartość p była estymatorem punktowym, ponieważ to rozróżnienie między estymatorami a testami jest zarówno przydatne i konwencjonalne.

W komentarzu do tego pytania Christian Robert zwrócił uwagę na artykuł z 1992 r., W którym on i współautorzy wzięli dokładnie ten punkt widzenia i przeanalizowali dopuszczalność wartości p jako estymatora funkcji wskaźnika . Zobacz link w odnośnikach poniżej. Artykuł zaczyna się

Podejścia do testowania hipotez zwykle traktowały problem testowania raczej jako podejmowanie decyzji niż szacowanie. Mówiąc dokładniej, formalny test hipotezy doprowadzi do wniosku, czy hipoteza jest prawdziwa, i nie dostarczy dowodów pozwalających na powiązanie z tym wnioskiem. W tym artykule rozważamy testowanie hipotez jako problem oszacowania w ramach teorii teoretycznej ...

[Podkreślenie dodane.]

Referencje

Jiunn Tzon Hwang, George Casella, Christian Robert, Martin T. Wells i Roger H. Farrell, Estimation of Accuracy in Testing . Ann. Statystyk. Tom 20, numer 1 (1992), 490-509. Otwarty dostęp .

Jack Carl Kiefer, Wprowadzenie do wnioskowania statystycznego . Springer-Verlag, 1987.

— Whuber
źródło

Hmm Nie jestem pewien, czy ten widok jest pomocny. Dla jednego w tym sensie wartość p nie jest dobrym estymatorem, ponieważ nie jest spójna, jeśli hipoteza zerowa jest prawdziwa. A w niektórych przypadkach (wspominasz o tym) ma ona również zależne od wielkości próby odchylenie. Może to być prawda techniczna, ale dowolna liczba losowa może być (straszna) estymatorem dla dowolnego parametru.

— Erik,

Pytanie nie pyta, czy wartość p jest dobrym estymatorem, @Erik. Jako estymator ma oczywiste braki. Na przykład jego asymptotyczna wariancja dla hipotezy zerowej jest niezerowa. Należy pamiętać, że stronniczość prawie każdego obiektywnego estymatora zależy od wielkości próby. Chociaż masz rację, że niezależna liczba losowa może być postrzegana jako estymator, byłby to estymator czegoś innego: oszacowałby swoją średnią (z definicji). W związku z tym wydaje się, że Twoje zastrzeżenia nie mają żadnego związku z danym pytaniem.

— whuber

Nie sądzę, abyśmy się różnili w żadnej z tych kwestii, @Erik, z wyjątkiem być może części „nieprzydatnej”. Jak zauważył Nick Cox w komentarzu w innym miejscu tego wątku, interesujące jest jednak zastanowienie się nad sensem, w jakim wartość p można uznać za estymator i co dokładnie może być oszacowaniem. To może pomóc nam lepiej zrozumieć, czym jest wartość p (a nie jest). Wielu uważa to za pomocne ćwiczenie.

— whuber

p

$p$

I_{Θ_{0}} (θ)

$\mathbb{I}_{\Theta_0}(\theta)$

@ Xi'an Widzę, że mamy tylko 23 lata za tobą ... Dziękuję za referencje!

— whuber

$p$ $\mu$ $\overline x$ $\mu$ $p < 0.05$ $p$ $p$

— Tim
źródło

Twoje początkowe stwierdzenie poprawnie odzwierciedla to, jak często się wyjaśniają, ale nie jest wystarczająco głębokie. Podstawowym faktem jest tutaj zmienność próbkowania, zmienność między próbkami. Weź inną próbkę, a twoja wartość P będzie inna. Potrzeba trochę pomysłowości, aby dokładnie zobaczyć, co szacuje, i nie jest (o ile wiem) konwencjonalne wyjaśnianie tego jako szacowania parametru, ale ten punkt widzenia ma doskonały sens. Zobacz ciekawą odpowiedź na @ whuber. (Całe terytorium jest zaśmiecone błotnistymi parafrazami opartymi na potrzebie uproszczenia nauki.)

— Nick Cox,

Sposób użycia terminów jest interesujący i ważny (a propos - osobista troska). Pozostaje pytanie, co P-wartość jest . To także zostało wskazane [nieunikniona gra słów tutaj] gdzie indziej w tym wątku. Pomocną konwencją jest uznawanie parametrów za te niewiadome, które pojawiają się w specyfikacji modelu, ale są też inne niewiadome.

— Nick Cox,

p < 0.05

$p<0.05$

p < 0.01

$p<0.01$

p < 0.001

$p<0.001$

p = 0.003

$p=0.003$

p < 0.05

$p<0.05$

α

$\alpha$

p < α

$p<\alpha$

— ameba mówi Przywróć Monikę

To pytanie krzyżuje się z wieloma innymi, z których większość jest bardzo kontrowersyjna. Jednym z nich jest idealizacja, że celem testu jest podjęcie decyzji tak lub nie, co wcale nie pasuje do wszystkich problemów. Innym kluczowym faktem jest to, że stosowanie poziomów progowych było przez dziesięciolecia sprawą, że ludzie używali opublikowanych tabel z drukowanych tabel, a dokładne wartości P były poza zasięgiem, podczas gdy ludzie nie korzystali z komputerów.

— Nick Cox,

@ 00schneider: Jeśli kiedykolwiek widzisz przedział podany dla wartości p, jest bardzo mało prawdopodobne, aby był to przedział ufności dla parametru populacji zdefiniowanego przez whubera. Tim ma na myśli to, że nie trzeba wcale uważać ich za oszacowanie czegokolwiek, choć może to być interesujące.

— Scortchi - Przywróć Monikę