Hakowanie wartości P.

6

Hackowanie wartości p jest „sztuką” patrzenia na różne wyniki i specyfikacje, aż do uzyskania „fałszywie pozytywnej”, tj. Wartości ap poniżej, powiedzmy, 0,05, która tylko hałasuje, a nie jest prawdziwa w procesie generowania danych.

Powiedzmy, że mam grupę leczoną o wielkości i grupę kontrolną o wielkości , zmienne wyniku i celuję w wartość : Jak obliczyć prawdopodobieństwo ex-ante uzyskania znaczącego wyniku fałszywie dodatniego istotnego pod ? $N$ $M$ $K$ $p$ $p$

Można założyć, że cechy są niezależnie i normalnie dystrybuowany, a jeśli to upraszcza wiele, że . $K$ $M=N$

econometrics statistics

— FooBar
źródło

Pełne ujawnienie: Jestem pod wrażeniem dość interesującego wyniku, w którym . Chciałbym uzyskać przybliżone przybliżenie prawdopodobieństwa, że ich interesujący wynik wynika ze zbyt wielu zmiennych zainteresowania.

M + N = 50

$M+N = 50$

— FooBar

Jaka jest dokładnie twoja hipoteza zerowa? Czy średnia danej cechy jest taka sama dla obu grup? (I to się powtarza dla wszystkich zmiennych ) Nie jestem pewien, ale myślę, że musiałbyś również powiedzieć coś o rodzaju leżącego u podstaw rozkładu prawdopodobieństwa.

K

$K$

— Giskard

Być może interesujący i odpowiedni artykuł . Cytat z artykułu „Po późniejszym zwolnieniu Fujii wkrótce nastąpił powódź potępiających dowodów na temat jego pracy. 8 marca Anesthesia opublikowała analizę Johna Carlisle'a, konsultanta anestezjologa w szpitalu Torbay w Torquay w Wielkiej Brytanii, stwierdzając, że 168 z Prace Fujii przyniosły wyniki z „prawdopodobieństwami, które są nieskończenie małe”. „Podsumowanie: facet użył statystyk, aby pokazać, że wielokrotność wyników Yoshitaki Fujii była nieprawdziwa

— cc7768

1

Off topic => stats.stackexchange.com

2

Foobar, tak, dlatego powiedziałem, że to możliwe haha - Nie jest to bezpośrednio związane, ale twoje pytanie mi to przypomniało. Twój artykuł wydaje się być trochę bardziej powiązany :) @ AndréPeseur, myślę, że w pewnym stopniu niektóre tematy będą się pokrywać między naszą witryną a zweryfikowanymi krzyżowo. Uważam, że ekonometria powinna być tutaj na temat - nie profesjonalisty z SE ani nic takiego. Jeśli nie zgadzasz się, możesz założyć meta post, aby omówić go dalej.

— cc7768

9

Przy założeniu, że opisywana jest normalna charakterystyka, opisywanej sytuacji zajmują się oddzielne testy t Welcha, które uwzględniają możliwe różne wielkości próbek i różne wariancje. Oznaczają statystyki tych testów . Wartość p powiązana z każdym z nich to $t_j, j=1,...,K$

p_{j} = Pr (| t_{j} | \geq t (α) ∣ H_{0})

$p_j = \Pr\big(|t_j|\geq t(\alpha)\mid H_0\big)$

gdzie jest hipotezą, że populacje oznaczają, że między grupą leczoną i kontrolowaną są równe, a zależy od poziomu istotności . $H_0$ $t$ $1-\alpha$

Możemy zapisać prawdopodobieństwo w kategoriach odpowiedniej funkcji rozkładu skumulowanego,

Pr (| t_{j} | \geq t (α) ∣ H_{0}) = 1 - F (| t_{j} |)

$\Pr\big(|t_j|\geq t(\alpha)\mid H_0\big) = 1 - F(|t_j|)$

W związku z tym

p_{j} = 1 - F (| t_{j} |) ⟹ 1 - p_{j} = F (| t_{j} |)

$p_j = 1 - F(|t_j|) \implies 1-p_j = F(|t_j|)$

Jeśli zastanowimy się nad sytuacją a priori, zanim nawet spojrzymy na dane, to wartości p leżą w przyszłości i mogą być modelowane jako zmienne losowe. Patrząc jako zmienna losowa, całka prawdopodobieństwa transformacji mówi nam, że podąża za rozkładem jednolitym , a przez właściwości tego rozkładu również . $1-p_j$ $U(0,1)$ $p_j$

Zbierając wszystkie , mamy próbkę wielkości niezależnych mundurów . Prawdopodobieństwo, że co najmniej jedna z nich jest mniejsza niż określona wartość, powiedzmy , jest równe prawdopodobieństwu, że minimum z nich jest niższe niż ten próg. Można to rozumieć w następujący sposób: $p_j$ $K$ $U(0,1)$ $p^*$

Pr (At least one p_{j} \leq p^{*}) = Pr (Not all p_{j} > p^{*})

$\Pr\Big (\text {At least one $p_j \leq p^*$} \Big) = \Pr\Big (\text {Not all $p_j > p^*$} \Big)$

= 1 - Pr (All p_{j} > p^{*}) = 1 - \prod_{j = 1}^{K} Pr (p_{j} > p^{*})

$= 1-\Pr\Big (\text {All $p_j > p^*$} \Big) = 1- \prod_{j=1}^K \Pr\Big ( p_j > p^* \Big)$

ze względu na niezależność, a zatem, ponieważ są one identycznie rozmieszczone,

Pr (At least one p_{j} \leq p^{*}) = 1 - {[1 - Pr (p \leq p^{*})]}^{K} = 1 - {[1 - F_{U} (p^{*})]}^{K}

$\Pr\Big (\text {At least one $p_j \leq p^*$} \Big) = 1- \left [1-\Pr\Big ( p \leq p^* \Big)\right]^K = 1 - \left [1-F_U \big(p^* \big)\right]^K$

Ale to skumulowana funkcja dystrybucji minimum IID zmiennych losowych. $K$

Oznacz to minimum . $p_{(1)}$

CDF minimum niezależnych zmiennych wynosi $K$ $U(0,1)$

F_{p_{(1)}} (p_{(1)}) = 1 - [1 - p_{(1)}]^{K}

$F_{p_{(1)}}(p_{(1)}) = 1 - \big [1-p_{(1)}\big]^K$

Chcemy prawdopodobieństwa

Pr (p_{(1)} \leq p^{*}) = 1 - [1 - p^{*}]^{K}

$\Pr(p_{(1)} \leq p^*) = 1- \big [1-p^*\big]^K$

Wartości orientacyjne:

wprowadź opis zdjęcia tutaj

— Alecos Papadopoulos
źródło

„ Testy t firmy Welch, które uwzględniają możliwie różne rozmiary próbek i różne wariancje ”. Do tej pory miałam tylko czas na przejrzenie odpowiedzi, ale nie mogę znaleźć, gdzie próbki wielkości , wchodzą do zdjęcia. Jak ostatnia tabela różni się w zależności od wielkości próbki?

M

$M$

N

$N$

— FooBar

2

Nie ma Jako zmienne losowe wartości p są Uniformami (0,1) niezależnie od innych aspektów sytuacji. Jedyną rzeczą, która się liczy, to wielkość .

K

$K$

— Alecos Papadopoulos

To jest dziwne. Ten link twierdzi coś innego: „ Jeśli zmierzysz dużą liczbę rzeczy u niewielkiej liczby osób, prawie na pewno uzyskasz„ statystycznie znaczący ”wynik. Nasze badanie obejmowało 18 różnych pomiarów - masy, cholesterolu, sodu, białka krwi poziomy, jakość snu, samopoczucie itp. - od 15 osób. ”. Jakie są tutaj podstawowe założenia, które prowadzą do różnych rezultatów?

— FooBar

1

Zasadniczą część sprawozdania jest „duża liczba rzeczy”, czyli dużej . Wróć do linku i przeczytaj tuż pod podrozdziałem „Hak”. Zobaczysz taką samą formułę jak w mojej odpowiedzi i procent zgodny z moją tabelą.

K

$K$

— Alecos Papadopoulos

Widzę. Zatem jego sformułowanie „duża liczba rzeczy na temat małej liczby ludzi” sugeruje, że jest złą rzeczą, powinno być bez „małej liczby osób”

— FooBar

3

Zgadzam się z @AlecosPapadopoulos, że chcemy czegoś takiego: Ale nie rozumiem, jak i nie mógł wejść do właściwej statystyki testu. Na przykład, jeśli dane bazowe są zwykle rozprowadzane iid dane, wtedy i mają znaczenie.

Pr (p_{(1)} \leq p^{*}) = 1 - [1 - p^{*}]^{K}

$\Pr(p_{(1)} \leq p^*) = 1- \big [1-p^*\big]^K$

n

$n$

M

$M$

N

$N$

M

$M$

Rozważmy, że hałas oznacza i wariancję , które z założenia są takie same dla grupy kontrolnej i „leczonej”. Średnia grupy leczonej o rozmiarze N będzie rozkładem i dla kontroli. Tak więc różnica średnich zostanie rozdzielona $\mu$ $\sigma$ $N(\mu, \sigma^2 / n)$ $N(\mu, \sigma^2 / M)$

N (0, σ^{2} / n + σ^{2} / m)

$N(0, \sigma^2 / n + \sigma^2 / m)$

Ale nie będziesz wiedział lub , więc będziemy musieli oszacować to za pomocą , i i użyć testu t. Ta konfiguracja daje takie t-tatystyczne: gdzie SRC: Test t-Studenta na Wikipedii $\sigma$ $\mu$ $X_1$ $X_2$ $s_{X_1X_2}$

t = \frac{{\bar{X}}_{1} - {\bar{X}}_{2}}{s_{X_{1} X_{2}} \cdot \sqrt{\frac{1}{n} + \frac{1}{m}}}

$t = \frac{\bar {X}_1 - \bar{X}_2}{s_{X_1 X_2} \cdot \sqrt{\frac{1}{n}+\frac{1}{m}}}$

s_{X_{1} X_{2}} = \sqrt{\frac{(n - 1) s_{X_{1}}^{2} + (m - 1) s_{X_{2}}^{2}}{n + m}} .

$s_{X_1X_2} = \sqrt{\frac{(n-1)s_{X_1}^2+(m-1)s_{X_2}^2}{n+m}}.$

Niesparowany test t próbki dla tej różnicy średnich ma stopnie swobody . Dlatego obszar odrzucenia powinien zależeć zarówno od n, jak i m, zarówno od tego, jaką wartość krytyczną testu należy zastosować poprzez stopnie swobody tego testu, jak i od samego obliczenia statystyki testu. $N-M-2$

— BKay
źródło

1

Z pewnością wielkości próbek wchodzą do statystyki testowej, ale nie wpływa to na konkretne prawdopodobieństwo, o które prosi OP (tj. Prawdopodobieństwo a priori, że uzyskalibyśmy co najmniej jedną wartość p niższą niż podany próg).

— Alecos Papadopoulos

Prawidłowo określony test obejmowałby wiele porównań tak samo jak wielkość próbki i stopnie swobody - - prawda? Czy zatem jest to pytanie o użycie niewłaściwej statystyki testowej tylko w wymiarze wielokrotnego porównania, ale odpowiednio określonym w indywidualnym wymiarze porównawczym? Ponieważ obecność m i n w statystyce testowej jest dokładnie dlatego, że mała próbka ma większe szanse na dużą różnicę pod hipotezą zerową.

— BKay

1

Kluczową kwestią jest tutaj to, że a priori, a) wartość p ma marginalny rozkład U (0,1), bez względu na cokolwiek innego (wielkość próby lub cokolwiek innego). Jest to ogólny wynik w każdej sytuacji. Powinno to być intuicyjne: co by się stało, gdyby wartość p miał a priori nierównomierny rozkład? Ciąg dalszy

— Alecos Papadopoulos

1

CONTD Oznaczałoby to, że niektóre z jego wartości byłyby bardziej prawdopodobne niż inne, ponownie bez względu na specyfikę sytuacji . Ale to unieważniłoby całą procedurę testowania, dokładnie dlatego , że implikowałoby to, że „nie ma znaczenia, co testujesz, jaki jest rozmiar próbki itp. - ta wartość dla wartości p jest bardziej prawdopodobna niż dla innych”.

— Alecos Papadopoulos

Dziękuję obojgu za obszerną dyskusję, muszę dowiedzieć się więcej na ten temat i uważam, że zdecydowanie powinna ona stanowić część programu studiów podyplomowych.

— FooBar

2

Pozostałe odpowiedzi są dobre, ale pomyślałem, że inna odpowiedź z nieco innym ukierunkowaniem może być dobrym uzupełnieniem.

Czy wielkość próby zwykle wpływa na współczynnik fałszywie dodatnich?

Sądząc po komentarzach, myślę, że pytanie zostało postawione w tym artykule , który zawiera kilka błędów (lub przynajmniej błędne sformułowania).

Po pierwsze (i najbardziej niepokojąco ogólnie) niepoprawnie definiuje p-wartości, ale bardziej trafnie zawiera zdanie „Jeśli zmierzysz dużą liczbę rzeczy o małej liczbie osób, prawie na pewno uzyskasz wynik„ statystycznie istotny ” . ”

Wartość p jest prawdopodobieństwem, przy założeniu, że hipoteza zerowa jest prawdziwa, zaobserwowania wyniku co najmniej tak ekstremalnego, jak rzeczywiście zaobserwowany. Jak wskazano w innych odpowiedziach, oznacza to, że należy go równomiernie rozdzielić między 0 a 1, niezależnie od wielkości próbki, podstawowych rozkładów itp.

Zdanie powinno zatem brzmieć: „Jeśli zmierzysz dużą liczbę rzeczy ~~u niewielkiej liczby osób~~ , prawie na pewno uzyskasz wynik„ statystycznie znaczący ”.”

Jak poprawnie obliczono w artykule, nawet jeśli czekolada nie robi dokładnie nic, istnieje 60% szans (zakładając niezależność itp.) Na uzyskanie znaczącego wyniku.

W rzeczywistości uzyskali trzy znaczące wyniki, co jest dość zaskakujące (p = 0,06 przy - prawdopodobnie nierealistycznym - założeniu niezależności).

Czy wielkość próby kiedykolwiek wpływa na współczynnik fałszywie dodatnich?

Właściwie czasami tak jest, chociaż robi to różnicę tylko wtedy, gdy wielkość próbki jest naprawdę mała.

Powiedziałem, że (zakładając, że hipoteza zerowa jest prawdziwa) wartość p powinna być równomiernie rozłożona. Jednak równomierne rozmieszczenie jest ciągłe, podczas gdy wiele danych jest dyskretnych, z tylko nieskończenie wieloma możliwymi rezultatami.

Jeśli rzucę monetą kilka razy, aby sprawdzić, czy jest ona stronnicza, istnieje tylko kilka możliwych wyników, a zatem kilka możliwych wartości p, więc rozkład potencjalnych wartości p jest bardzo złym przybliżeniem do rozkładu równomiernego. Jeśli odwrócę to kilka razy, uzyskanie znaczącego wyniku może być niemożliwe.

Oto przykład przypadku, w którym tak się stało.

Miałbyś więc coś w rodzaju „Jeśli zmierzysz pewne rodzaje rzeczy u wystarczająco małej liczby osób, nigdy nie uzyskasz wyniku„ statystycznie znaczącego ”, bez względu na to, ile próbujesz”.

Czy to oznacza, że nie powinieneś martwić się wielkością próbki, jeśli wynik jest pozytywny?

Nie. Niektóre pozytywne wyniki są fałszywie pozytywne, a niektóre są prawdziwie pozytywne. Jak omówiono powyżej, zwykle bezpiecznie jest założyć, że odsetek wyników fałszywie dodatnich jest stały (zwykle wynosi 5%). Ale mniejszy rozmiar próbki zawsze zmniejsza prawdopodobieństwo prawdziwych wyników dodatnich (mniejszy rozmiar próbki oznacza, że test ma niższą moc ). A jeśli masz taką samą liczbę wyników fałszywie dodatnich, ale mniej prawdziwych wyników pozytywnych, losowo wybrany wynik dodatni jest bardziej prawdopodobny.

— Raoul
źródło

Jestem zaskoczony Twoimi dwoma ostatnimi akapitami. Czy to prawda, że wraz ze spadkiem wielkości próby maleje prawdopodobieństwo wyników dodatnich, a prawdopodobieństwo wyników dodatnich maleje bardziej niż prawdopodobieństwo wyników fałszywie dodatnich ? Jeśli tak, to w jaki sposób pasuje to do „ Chociaż mała próbka nie może zwiększyć prawdopodobieństwa fałszywych wyników dodatnich, może zmniejszyć ich prawdopodobieństwo ” .

— FooBar

Dla każdej niejasnej rozsądnie wielkości próby można bezpiecznie założyć, że odsetek wyników fałszywie dodatnich wynosi 5%. Ale bez względu na to, jak duża jest twoja próba, dodanie większej liczby osób zwiększa współczynnik prawdziwie dodatni. Nie mam teraz dużo czasu, więc mogę dokonywać tylko bardzo szybkich zmian, ale spróbuję odpowiednio poprawić brzmienie, gdy tylko będę miał okazję.

— Raoul

2

Być może warto dodać jedną z powyższych doskonałych odpowiedzi, a mianowicie, że toczy się również gra w meta-liczby. Powiedzmy, że 20 naukowców wykonuje ten sam zestaw eksperymentów, szukając czegoś, co może być słabo skorelowane, np. „Czy czekolada powoduje zawał serca”, i zaakceptuje wartość p <0,05 istotną, czego, szczerze mówiąc, nie powinni. Skumulowane prawdopodobieństwo jest takie, że jeden naukowiec otrzyma znaczące odkrycie, które jest jedynym eksperymentem, który zostanie opublikowany, ponieważ negatywne wyniki rzadko są akceptowane. Istnieje wtedy 100% szansa, że to odkrycie zostanie zauważone przez Bild Zeitungs tego świata i błędnie zgłoszone.

Niestety, ponieważ nie zgłaszamy braku wyników, jesteśmy zasadniczo zaangażowani w ćwiczenie obejmujące całą planetę, polegające na zgłaszaniu wszystkich eksperymentów, które mają szczęście - w niewłaściwym znaczeniu tego słowa.

W przypadku osób o silnych podstawach teoretycznych dobry projekt eksperymentalny zapewnia pewną ochronę przed tym - w przypadku osób, które przede wszystkim muszą pracować z danymi obserwacyjnymi i próbują wypracować teorię - podobnie jak ekonomia - jest to poważny problem.

Dodano: Aby zapoznać się z obszerną - i bardzo dobrze napisaną - dyskusją na cały temat, zobacz artykuł, który rozpoczął ostatnią debatę:

Badanie współczynnika fałszywych odkryć i błędna interpretacja wartości p David Colquhoun

— Lumi
źródło

To bardzo dobra uwaga. Problem plaguje również ustalenia i meta ustalenia oparte na wcześniejszych artykułach. Myślę jednak, że może nie jest zsynchronizowane z tym konkretnym pytaniem, ponieważ eksperyment myślowy wydaje się dotyczyć indywidualnego naukowca zajmującego się hackowaniem, który mierzy swoje szanse?

— Giskard

Nie zgadzam się, ale ponieważ Foobar pytał w kontekście artykułu, na który patrzył, pomyślałem, że nie zaszkodzi wrzucić analizy najgorszego przypadku.

— Lumi,