Wielkość efektu jako hipoteza do testowania istotności


37

Dzisiaj w Cross Validated Journal Club (dlaczego cię tam nie było?) @Mbq zapytał:

Czy uważasz, że my (współcześni naukowcy danych) wiemy, co to znaczy? A jak to się ma do naszego zaufania do naszych wyników?

@Michelle odpowiedziała, ponieważ niektórzy (w tym ja) zwykle:

Coraz mniej pomocna jest mi koncepcja znaczenia (oparta na wartościach p), gdy kontynuuję karierę. Na przykład mogę używać bardzo dużych zestawów danych, więc wszystko jest istotne statystycznie ( p<.01 )

To chyba głupie pytanie, ale czy problemem nie jest testowana hipoteza? Jeśli przetestujesz hipotezę zerową „A jest równe B”, to wiesz, że odpowiedź brzmi „Nie”. Większe zestawy danych przybliżą Cię do tego nieuchronnie prawdziwego wniosku. Uważam, że to Deming podał kiedyś przykład z hipotezą „liczba włosów po prawej stronie jagnięcia jest równa liczbie włosów po lewej stronie”. Oczywiście, że nie.

Lepszą hipotezą byłoby „A nie różni się od B więcej niż tak bardzo”. Lub, w przykładzie jagnięcia, „liczba włosów po bokach jagnięcia nie różni się o więcej niż X%”.

Czy to ma sens?


1) Testowanie średniej równoważności (zakładając, że to jest to, czego chcesz) można w niektórych przypadkach uprościć do testu istotności ich średniej różnicy. Za pomocą standardowego błędu dla tej szacunkowej różnicy możesz wykonać wszelkiego rodzaju testy „nie różni się od B więcej…”. 2) Jeśli chodzi o wielkość próby - tak, w przypadku dużych ss znaczenie istotności maleje, ale nadal jest kluczowe w przypadku mniejszych próbek, w których nie można po prostu wygenerować dodatkowych wartości.
Ondrej

11
105

1
@ whuber Jest to określane przez cel analizy. Lepszą analogią byłaby minimalna wielkość efektu, która uzasadniałaby dalsze inwestycje w lek po badaniu. Samo istnienie statystycznie znaczącego efektu nie wystarczy, ponieważ opracowanie leku jest drogie i mogą wystąpić skutki uboczne, które należy wziąć pod uwagę. To nie jest pytanie statystyczne, ale praktyczne.
Dikran Torbacz

2
@ whuber Podejrzewam, że w większości aplikacji, w których nie ma praktycznych informacji na temat ustalenia minimalnej wielkości efektu będącego przedmiotem zainteresowania, standardowy test hipotez jest w porządku, na przykład testowanie normalności. Jako Bayesian zgodziłbym się z poglądem raczej jako problemem optymalizacji niż problemem testowania hipotez. Część problemu z testami hipotez wynika z podejścia do książki kucharskiej dotyczącej statystyki, w której testy są przeprowadzane zgodnie z tradycją, bez należytego uwzględnienia celu ćwiczenia lub prawdziwego znaczenia wyniku (oczywiście wszystkie IMHO).
Dikran Torbacz

1
@DikranMarsupial nie jest kluczem do tego, że uczniowie uczą się testów na pamięć, jak wskazano poniżej, a nie znaczenie dobrego projektu nauki? Czy większy nacisk na projektowanie badań pomógłby rozwiązać niektóre problemy - niekoniecznie w przypadku dużych zbiorów danych?
Michelle,

Odpowiedzi:


25

Jeśli chodzi o testowanie istotności (lub cokolwiek innego, co robi zasadniczo to samo co testowanie istotności), od dawna myślałem, że najlepszym podejściem w większości sytuacji jest prawdopodobnie oszacowanie standardowej wielkości efektu, z 95% przedziałem ufności w tym zakresie wielkość efektu. Nie ma w tym nic nowego - matematycznie można tasować między nimi - jeśli wartość p dla zerowego null wynosi <0,05, wówczas 0 będzie znajdować się poza 95% CI i odwrotnie. Moim zdaniem zaletą tego jest psychologia; to znaczy tworzy istotne informacje, ale ludzie nie mogą ich zobaczyć, gdy zgłaszane są tylko wartości p. Na przykład łatwo zauważyć, że efekt jest szalenie „znaczący”, ale absurdalnie mały; lub „nieistotne”, ale tylko dlatego, że paski błędów są ogromne, podczas gdy szacowany efekt jest mniej więcej taki, jak się spodziewałeś. Można je sparować z surowymi wartościami i ich CI.

d=1.6±.5

Z drugiej strony, myślę, że większym pytaniem jest: „czy testowanie istotności robi to, czego naprawdę chcemy?”. Myślę, że prawdziwym problemem jest to, że dla większości osób analizujących dane (tj. Praktyków, a nie statystyków) testy istotności mogą stać się całością analizy danych. Wydaje mi się, że najważniejsze jest posiadanie zasadnego sposobu myślenia o tym, co dzieje się z naszymi danymi, a testowanie znaczenia hipotezy zerowej jest w najlepszym razie bardzo małą częścią tego. Podam wymyślony przykład (potwierdzam, że jest to karykatura, ale niestety obawiam się, że jest to trochę prawdopodobne):

Bob przeprowadza badanie, gromadząc dane na temat czegoś takiego lub innego. Oczekuje, że dane będą normalnie rozmieszczone, ściśle skupione wokół pewnej wartości, i zamierza przeprowadzić test t dla jednej próby, aby sprawdzić, czy jego dane są „znacząco różne” od pewnej z góry określonej wartości. Po pobraniu próbki sprawdza, czy jego dane są zwykle dystrybuowane, i stwierdza, że ​​nie są. Zamiast tego nie mają wyraźnej bryły w środku, ale są względnie wysokie w danym przedziale, a następnie odchodzą długim długim lewym ogonem. Bob martwi się, co powinien zrobić, aby upewnić się, że jego test jest ważny. W końcu robi coś (np. Transformację, test nieparametryczny itp.), A następnie zgłasza statystyki testu i wartość p.

Mam nadzieję, że to nie wygląda tak źle. Nie chcę kpić z nikogo, ale myślę, że coś takiego zdarza się czasami. W przypadku wystąpienia takiego scenariusza wszyscy możemy zgodzić się, że jest to słaba analiza danych. Problemem nie jest jednak to, że statystyka testu lub wartość p są nieprawidłowe; jakie możemy przyjąć, że dane zostały prawidłowo obsługiwane w tym względzie. Argumentowałbym, że problem polega na tym, że Bob jest zaangażowany w coś, co Cleveland nazwał „analizą danych rote”. Wydaje się wierzyć, że jedynym celem jest uzyskanie odpowiedniej wartości p, i bardzo mało myśli o swoich danych poza realizacją tego celu. Mógł nawet przejść do mojej powyższej sugestii i zgłosić znormalizowany rozmiar efektu z 95% przedziałem ufności, i to nie zmieniłoby tego, co uważam za większy problem (to właśnie miałem na myśli mówiąc „zasadniczo to samo” „w inny sposób). W tym konkretnym przypadku fakt, że dane nie wyglądały tak, jak się spodziewał (tj. Nie były normalne), jest prawdziwą informacją, jest interesującei bardzo możliwe, że ta informacja jest po prostu wyrzucana. Bob tego nie rozpoznaje, ponieważ koncentruje się na testowaniu istotności. Moim zdaniem jest to prawdziwy problem z testowaniem istotności.

Pozwólcie, że zajmę się kilkoma innymi perspektywami, o których wspomniano, i chcę jasno powiedzieć, że nikogo nie krytykuję.

  1. Często wspomina się, że wiele osób tak naprawdę nie rozumie wartości p (np. Myśląc, że istnieje prawdopodobieństwo, że wartość zerowa jest prawdziwa) itp. Czasami argumentuje się, że gdyby tylko ludzie stosowali podejście bayesowskie, problemy te mogłyby Idź stąd. Wierzę, że ludzie mogą podejść do analizy danych bayesowskich w sposób równie fałszywy i mechaniczny. Myślę jednak, że niezrozumienie znaczenia wartości p byłoby mniej szkodliwe, gdyby nikt nie myślał o uzyskaniu wartości p.
  2. Istnienie „dużych zbiorów danych” zasadniczo nie ma związku z tym problemem. Duże zbiory danych tylko pokazują, że organizowanie analizy danych pod kątem „znaczenia” nie jest pomocne.
  3. Nie sądzę, że problemem jest testowana hipoteza. Gdyby ludzie chcieli tylko sprawdzić, czy oszacowana wartość jest poza przedziałem, a nie czy jest równa wartości punktowej, może pojawić się wiele takich samych problemów. (Znów chcę jasno powiedzieć, że nie jesteś Bobem .)
  4. Dla przypomnienia chcę wspomnieć, że moja własna sugestia z pierwszego akapitu nie odnosi się do tego problemu, jak starałem się wskazać.

Dla mnie jest to podstawowa kwestia: To, czego naprawdę chcemy, to oparty na zasadach sposób myślenia o tym, co się stało . Co to znaczy w danej sytuacji nie jest wycinane i suszone. Jak przekazać to uczniom na zajęciach metodycznych nie jest ani jasne, ani łatwe. Testowanie istotności ma wiele bezwładności i tradycji. W klasie statystyk jasne jest, czego należy uczyć i jak. Dla studentów i praktyków możliwe jest opracowanie schematu pojęciowego do zrozumienia materiału oraz listy kontrolnej / schematu blokowego (widziałem niektóre!) Do przeprowadzania analiz. Testy istotności mogą oczywiście ewoluować w analizę danych rote, bez nikogo głupiego, leniwego lub złego. To jest problem.


Lubię przedziały ufności :) Jedno pytanie: czy chciałeś zasugerować, że obliczanie wielkości efektu post hoc jest w porządku?
Michelle,

x¯1=10x¯2=14SD=6d=.67

Tak, myślę, że się tutaj zgadzamy.
Michelle,


+1 Sam wolę wiarygodne interwały. Odnośnie do punktu 1 argumentowałbym, że alternatywy bayesowskie rzadziej skutkują analizą danych rote, ponieważ definicja prawdopodobieństwa nie jest tak sprzeczna z intuicją, co znacznie ułatwia sformułowanie pytania, które rzeczywiście chcesz zadać w sposób statystyczny . Prawdziwy problem polega na tym, że wykonanie testu wymaga intergrali, które są zbyt trudne, aby takie metody mogły zostać powszechnie przyjęte. Mamy nadzieję, że oprogramowanie rozwinie się do tego stopnia, że ​​użytkownik może skoncentrować się na sformułowaniu pytania, a resztę pozostawić komputerowi.
Dikran Torbacz

18

Dlaczego nalegamy na jakąkolwiek formę testu hipotez w statystykach?

We wspaniałej książce Statystyka jako zasadniczy argument Robert Abelson argumentuje, że analiza statystyczna stanowi część zasadniczego argumentu na dany temat. Mówi, że zamiast być ocenianymi jako hipotezy do odrzucenia lub odrzucenia (lub nawet zaakceptowania!?!), Powinniśmy je ocenić na podstawie tego, co nazywa kryteriami MAGIC:

Wielkość - jak duża jest? Artykulacja - czy jest pełna wyjątków? Czy to jest jasne? Ogólność - jak ogólnie ma to zastosowanie? Ciekawość - czy zależy nam na wyniku? Wiarygodność - czy możemy w to uwierzyć?

Moja recenzja książki na moim blogu


4
Problem jest podsycany przez niektórych profesorów. Mój doktorat jest z psychometrii, która jest na wydziale psychologii. Słyszałem, jak profesorowie z innych części wydziału mówili: „po prostu zgłoś wartość p, to się liczy”. Moja praca polega na konsultacjach, głównie z doktorantami i badaczami z dziedzin społecznych, behawioralnych, edukacyjnych i medycznych. Ilość dezinformacji podawanych przez komitety doktoranckie jest zadziwiająca.
Peter Flom - Przywróć Monikę

1
+1 za „Dlaczego ...”, to duża część tego, na co starałem się uzyskać w mojej odpowiedzi.
Gung - Przywróć Monikę

Inną częścią tego, do czego starałem się dojść w odpowiedzi, jest to, że myślę, że dzieje się to naturalnie. Przy okazji, nie ma uczciwego otrzymania dwóch głosów pozytywnych ;-), można je połączyć.
Gung - Przywróć Monikę

13

H0:{|μ1μ2|>ϵ}ϵμ1μ2ϵμ1μ2Pr(|X1X2|>ϵ)


(+1) Witaj w 1000 reputacji. Twoje zdrowie.
kardynał

6

Tradycyjne testy hipotez pokazują, czy istnieją statystycznie znaczące dowody na istnienie efektu, podczas gdy często chcemy wiedzieć o istnieniu dowodów na praktycznie znaczący efekt.

Z pewnością możliwe jest utworzenie Bayesowskich „testów hipotez” z minimalnym rozmiarem efektu (IIRC jest tego przykładem w książce Davida MacKaya na temat „Teorii informacji, wnioskowania i algorytmów uczenia się”, przyjrzę się temu, kiedy będę miał chwilę .

Testowanie normalności jest kolejnym dobrym przykładem, zwykle wiemy, że dane nie są tak naprawdę normalnie dystrybuowane, po prostu testujemy, aby sprawdzić, czy istnieją dowody, że nie jest to rozsądne przybliżenie. Lub testując nastawienie monety, wiemy, że jest mało prawdopodobne, aby była całkowicie stronnicza, ponieważ jest asymetryczna.


6

Wiele z tego sprowadza się do pytania, które faktycznie zadajesz, jak projektujesz swoje badanie, a nawet co rozumiesz przez równość.

Raz natknąłem się na interesującą małą wkładkę w British Medical Journal, która mówiła o tym, co ludzie interpretują pewne fazy. Okazuje się, że „zawsze” może oznaczać, że coś dzieje się już w 91% przypadków (BMJ VOLUME 333 26 SIERPIEŃ 2006 strona 445). Więc może równy i równoważny (lub w granicach X% dla pewnej wartości X) może być uważany za oznaczający to samo. I zapytajmy komputer o prostą równość, używając R:

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

Teraz czysty matematyk posługujący się nieskończoną precyzją może powiedzieć, że te 2 wartości nie są równe, ale R mówi, że są i w większości praktycznych przypadków byłyby (gdybyś zaoferował mi (1e + 5 + 1e-50), ale kwota ostatecznie (1e + 5 - 1e-50) Nie odmówiłbym pieniędzy, ponieważ różniły się one od tego, co obiecano).$$$

Ponadto, jeśli naszą alternatywną hipotezą jest , często zapisujemy null jako chociaż technicznie rzecz biorąc, rzeczywisty null to , ale pracujemy z równością jako null ponieważ jeśli możemy pokazać, że jest większe niż to wiemy również, że jest większe niż wszystkie wartości mniejsze niż . I czy test dwustronny nie jest tak naprawdę tylko 2 testami jednostronnymi? W końcu, czy naprawdę powiedziałbyś, że ale nie chcesz powiedzieć, która strona jest włączona? Po części dlatego istnieje tendencja do używania przedziałów ufności zamiast wartości p, jeśli to możliwe, jeśli mój przedział ufności dlaH 0 : μ = μ 0 H 0 : μ μ 0 μ μ 0 μ 0 μ μ 0 μ 0 μ μ μ 0 0 μ μ 0 μ 0 μHa:μ>μ0H0:μ=μ0H0:μμ0μμ0μ0μμ0μ0 μμ zawiera więc chociaż mogę nie chcieć wierzyć, że jest dokładnie równe , nie mogę z pewnością powiedzieć, po której stronie leży, co oznacza, że ​​równie dobrze mogą być równe ze względów praktycznych .μ0μμ0μ0 μ

Wiele z tego sprowadza się do postawienia właściwego pytania i zaprojektowania odpowiedniego badania dla tego pytania. Jeśli uzyskasz wystarczającą ilość danych, aby wykazać, że praktycznie bezsensowna różnica jest istotna statystycznie, oznacza to, że zmarnowałeś zasoby na uzyskanie tak dużej ilości danych. Lepiej byłoby zdecydować, jaka byłaby znacząca różnica, i zaprojektować badanie, aby dać ci wystarczającą moc do wykrycia tej różnicy, ale nie mniejszą.

A jeśli naprawdę chcemy podzielić włosy, w jaki sposób określimy, które części jagnięcia są po prawej, a które po lewej? Jeśli zdefiniujemy to za pomocą linii, która z definicji ma taką samą liczbę włosów po każdej stronie, wówczas odpowiedź na powyższe pytanie brzmi „Oczywiście, że tak”.


Podejrzewam, że odpowiedź, którą otrzymujesz od R, jest po prostu wynikiem jakiegoś problemu arytmetyki zmiennoprzecinkowej, a nie świadomej decyzji o pominięciu nieistotnych różnic. Rozważ klasyczny przykład (.1 + .2) == .3 „Czysty matematyk” powiedziałby ci, że są równi, na dowolnym poziomie precyzji, a R zwraca FALSE.
Gala 1'12

@ GaëlLaurans, chodzi mi o to, że z powodu zaokrąglania (świadomego przez człowieka lub przez komputer) pojęcia dokładnie równe iw granicach X% dla wystarczająco małego X są praktycznie takie same.
Greg Snow

5

Z perspektywy organizacyjnej, czy to rząd z opcjami politycznymi, czy firma, która chce wdrożyć nowy proces / produkt, pomocne może być również zastosowanie prostej analizy kosztów i korzyści. W przeszłości argumentowałem, że (ignorując przyczyny polityczne) biorąc pod uwagę znane koszty nowej inicjatywy, jaki jest próg rentowności dla wielu osób, na które ta inicjatywa musi mieć pozytywny wpływ? Na przykład, jeśli nowa inicjatywa ma na celu zatrudnienie większej liczby osób bezrobotnych, a inicjatywa kosztuje $100,000, czy osiąga przynajmniej redukcję transferów dla bezrobotnych $100,000? Jeśli nie, to efekt inicjatywy nie jest praktycznie znaczący.

Dla wyników zdrowotnych znaczenie życia statystycznego nabiera znaczenia. Wynika to z faktu, że świadczenia zdrowotne są naliczane przez całe życie (a zatem świadczenia są korygowane w dół w oparciu o stopę dyskontową ). Zatem zamiast znaczenia statystycznego pojawia się spór o to, jak oszacować wartość życia statystycznego i jaką stopę dyskontową należy zastosować.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.