Po co nadal uczyć i stosować testowanie hipotez (gdy dostępne są przedziały ufności)?

56

Po co dalej uczyć i stosować testowanie hipotez (ze wszystkimi jego trudnymi pojęciami i które należą do najbardziej statystycznych grzechów) w przypadku problemów, w których istnieje estymator przedziałów (pewność, bootstrap, wiarygodność lub cokolwiek innego)? Jakie jest najlepsze wyjaśnienie (jeśli w ogóle) dla studentów? Tylko tradycja? Widoki będą bardzo mile widziane.

hypothesis-testing confidence-interval teaching

— Washington S. Silva
źródło

Duplikować?

— csgillespie

4

Te cytaty są bardzo odpowiednie. Wszystkie modele są błędne, ale niektóre są przydatne.

— mpiktas

60

To jest moja osobista opinia, więc nie jestem pewien, czy właściwie kwalifikuje się jako odpowiedź.

Dlaczego powinniśmy uczyć testowania hipotez?

Krótko mówiąc, jednym z bardzo ważnych powodów jest to, że najprawdopodobniej w czasie, gdy zajmie Ci to przeczytanie tego zdania, setki, jeśli nie tysiące (lub miliony) testów hipotez przeprowadzono w promieniu 10 stóp od miejsca, w którym siedzisz.

Twój telefon komórkowy zdecydowanie używa testu współczynnika prawdopodobieństwa, aby zdecydować, czy znajduje się w zasięgu stacji bazowej. Sprzęt WiFi twojego laptopa robi to samo w komunikacji z routerem.

Kuchenka mikrofalowa, której użyłeś do automatycznego podgrzania tego dwudniowego kawałka pizzy, posłużyła się testem hipotez, aby ustalić, kiedy pizza jest wystarczająco gorąca.

System kontroli trakcji samochodu uruchomił się, gdy dałeś mu zbyt dużo gazu na oblodzonej drodze, lub system ostrzegania o ciśnieniu w oponach informuje Cię, że twoja tylna opona po stronie pasażera była nienormalnie niska, a reflektory włączały się automatycznie około 5: 19.00 zapadał zmierzch.

Twój iPad wyświetla tę stronę w formacie poziomym na podstawie (głośnych) odczytów akcelerometru.

Twoja firma wydająca karty kredytowe wyłączyła kartę, gdy „kupiłeś” telewizor z płaskim ekranem w Best Buy w Teksasie i pierścionek z brylantem o wartości 2000 USD w Zales w centrum handlowym w stanie Waszyngton w ciągu kilku godzin od zakupu lunchu, gazu i filmu blisko twojego domu na przedmieściach Pittsburgha.

Setki tysięcy bitów wysłanych w celu renderowania tej strony w przeglądarce osobno przeszły test hipotez, aby ustalić, czy najprawdopodobniej były to 0, czy 1 (oprócz niesamowitej korekcji błędów).

Spójrz trochę w prawo na te „powiązane” tematy.

Wszystkie te rzeczy „wydarzyły się” dzięki testom hipotez . Dla wielu z tych rzeczy można obliczyć oszacowanie interwału jakiegoś parametru. Ale, szczególnie w przypadku zautomatyzowanych procesów przemysłowych, zastosowanie i zrozumienie testowania hipotez ma kluczowe znaczenie.

Na bardziej teoretycznym poziomie statystycznym ważna koncepcja władzy statystycznej wynika raczej naturalnie z ram teoretycznych / testujących hipotezę. Ponadto uważam, że „nawet” czysty matematyk może docenić piękno i prostotę lematu Neymana-Pearsona i jego dowód.

Nie oznacza to, że testowanie hipotez jest dobrze nauczane lub rozumiane. Zasadniczo tak nie jest. I chociaż zgodziłbym się, że - szczególnie w naukach medycznych - raportowanie szacunków interwałowych wraz z wielkościami efektów i pojęciami istotności praktycznej vs. statystycznej są prawie ogólnie lepsze niż jakiekolwiek formalne testy hipotez, nie oznacza to, że testowanie hipotez i powiązane koncepcje same w sobie nie są ważne i interesujące.

— kardynał
źródło

2

Dzięki za interesującą listę przykładów. Biorąc pod uwagę cel pytania: Aby przyczynić się do debaty na temat przeglądu naszych kursów statystycznych, postaramy się uzyskać więcej szczegółów na temat wdrażania testów w nowoczesnych urządzeniach, co może być świetną motywacją dla naszych studentów inżynierii.

— Washington S. Silva,

3

Większość twoich przykładów tak naprawdę nie wymaga klasycznej analizy hipotez (co oznacza ustalony poziom ufności), ale procedurę decyzyjną.

— kjetil b halvorsen

1

Drogi @ kjetil: Szczerze mówiąc, głosowanie wydaje się tutaj nieco surowe. Rzeczywiście, pytanie to nie stawia niczego konkretnego na temat klasycznego testowania hipotez, a moja odpowiedź też tego nie zakłada! ( Testowanie hipotez jest tu interpretowane szeroko i nie bez powodu).

— kardynał

1

Muszę kupić kuchenkę mikrofalową z funkcją automatycznego podgrzewania.

— jmbejara

2

To bardzo wymowna odpowiedź, ale byłbym bardzo wdzięczny, gdybyś wyjaśnił nieco więcej, dlaczego wszystkie te rzeczy są „testami hipotez”. Rozumiem, że wszystkie twoje przykłady dotyczą automatycznych decyzji binarnych. Wyobrażam sobie, że w większości przypadków pewna wartość jest mierzona, a następnie porównywana z wartością graniczną, aby zdecydować, czy jest powyżej, czy poniżej (i stąd do podjęcia decyzji). Czy to już kwalifikuje się jako „test hipotez” dla ciebie, czy miałeś na myśli coś innego? Wydaje mi się, że kiedy OP zapytał o to, dlaczego wciąż testuje się testowanie hipotez, nie odnosili się do prostego progowania.

— ameba mówi Przywróć Monikę

29

Uczę testów hipotez z wielu powodów. Jedna jest historyczna, że będą musieli zrozumieć dużą część wcześniejszych badań, które przeczytali i zrozumieli punkt widzenia testowania hipotez. Po drugie, nawet w dzisiejszych czasach jest nadal używany przez niektórych badaczy, często domyślnie, podczas przeprowadzania innych rodzajów analiz statystycznych.

Ale kiedy go uczę, uczę go w ramach budowania modeli, że te założenia i szacunki są częścią modeli budowania. W ten sposób można stosunkowo łatwo przejść do porównywania bardziej złożonych i interesujących teoretycznie modeli. Badania częściej zestawiają teorie między sobą niż teorię z niczym.

Grzechy testowania hipotez nie są nieodłączne od matematyki i właściwego wykorzystania tych obliczeń. Tam, gdzie przede wszystkim kłamią, jest nadmierna zależność i błędna interpretacja. Gdyby zdecydowana większość naiwnych badaczy stosowała wyłącznie oszacowanie przedziałowe, nie rozpoznając żadnego związku z tymi rzeczami, nazywamy hipotezy, możemy to nazwać grzechem.

— Jan
źródło

+1, dzięki. Dobrze argumentowane. Ale na kursach wprowadzających nie ma wyboru modelu w ścisłym tego słowa znaczeniu. Czy możesz przytoczyć inne konteksty, które są odpowiednie do wprowadzenia testowania hipotez? Czy można podać wyniki testu bez oszacowania mocy?

— Washington S. Silva,

2

Brak wyboru modelu na kursach wprowadzających nie jest koniecznością. Jeśli zastanawiasz się nad zmianą kursu, rozważ to jako dobre miejsce na rozpoczęcie.

— John

20

$P$ $P$ $P$ $P$

— Frank Harrell
źródło

2

Nie powiedziałbym, że w niektórych polach „Jedyne miejsce ...” i „dołącz ANOVA ...” oznacza, że właśnie pokryłeś ogromną ilość narzędzi statystycznych.

— Fomite

4

Myślę, że o tym stanowisku można wiele powiedzieć. Biorąc pod uwagę, że wielu badaczy głównie chce wiedzieć o wzorcach w swoich danych, często zastanawiałem się, czy moglibyśmy rozsądnie odłożyć na bok wiele statystyk i po prostu użyć wykresów danych. (Oczywiście zakłada to, że wykresy zostałyby wykonane umiejętnie i wnikliwie, a testy hipotez nie byłyby tak złe, gdybyśmy mogli o tym powiedzieć.)

— gung - Przywróć Monikę

1

Niezręcznie, nie zgadzam się z cytatem „brak dowodów nie jest dowodem braku”. Brak dowodów na skutek nie jest dowodem na to, że skutek nie istnieje, ale z pewnością stanowi dowód na to, że skutek ten nie istnieje. Pytanie dotyczy raczej tego, ile dowodów na efekt ma nieistotny wynik. Problem z dużymi wartościami p Myślę, że w przypadku rozkładu normalnego duże wartości p są dowodem na hipotezę, ponieważ są one monotoniczną funkcją dobroci dopasowania. A ponieważ rozkład normalny jest tak powszechny, ludzie to widzą i ekstrapolują

— prawdopodobieństwo jest

5

P

$P$

11

Myślę, że to zależy od tego, o której testowaniu hipotez mówisz. Mówi się, że „klasyczne” testowanie hipotez (Neyman-Pearson) jest wadliwe, ponieważ nie warunkuje odpowiednio tego, co faktycznie się zdarzyło, gdy wykonałeś test . Zamiast tego jest zaprojektowany do pracy „niezależnie” od tego, co faktycznie widziałeś na dłuższą metę. Ale niespełnienie warunku może prowadzić do wprowadzających w błąd wyników w indywidualnym przypadku. Jest tak po prostu dlatego, że procedura „nie przejmuje się” indywidualnym przypadkiem na dłuższą metę.

Testowanie hipotez można rzucić w teoretyczne ramy decyzyjne, które moim zdaniem są znacznie lepszym sposobem na ich zrozumienie. Możesz przekształcić problem w dwie decyzje:

$H_0$
$H_\mathrm{A}$

Ramy decyzyjne są znacznie łatwiejsze do zrozumienia, ponieważ wyraźnie oddzielają pojęcia „co zrobisz?” i „jaka jest prawda?” (poprzez wcześniejsze informacje).

Możesz nawet zastosować „teorię decyzji” (DT) do swojego pytania. Ale aby przerwać testowanie hipotez, DT mówi, że musisz mieć dla ciebie alternatywną decyzję. Pytanie zatem brzmi: jeśli zrezygnuje się z testowania hipotez, co ma zająć jego miejsce? Nie mogę wymyślić odpowiedzi na to pytanie. Mogę tylko myśleć o alternatywnych sposobach testowania hipotez.

(UWAGA: w kontekście testowania hipotez dane, rozkład próbkowania, wcześniejszy rozkład i funkcja straty są wcześniejszymi informacjami, ponieważ są uzyskiwane przed podjęciem decyzji.)

— prawdopodobieństwo prawdopodobieństwa
źródło

Moim celem w tej kwestii było zebranie opinii ekspertów w celu wzbogacenia debaty nad przeglądem kursów statystyki, która trwa w instytucie, w którym pracuję w Brazylii. Cel został osiągnięty, a opinie są również umieszczone na poziomie @cardinal, @Andrew Robinson, @probabilityislogic i @JMS. Oczywiście, testowanie hipotez (za pomocą NP, DT lub Byes) powinno być bardzo dobrze nauczone, ale wyzwania związane z budowaniem odpowiednich kursów, biorąc pod uwagę uniwersalność nauczania statystyki, są równie lub bardziej złożone niż sama technika. Dziękuję za twój wkład.

— Washington S. Silva,

1

Uwielbiam teorię decyzji, jeśli rygorystycznie jest wykonywana przy użyciu metod bayesowskich, które zawierają rozsądne funkcje utraty / użyteczności. Jeśli takie funkcje nie są dostępne, preferuję oszacowanie interwału.

— Frank Harrell,

@FrankHarrell - Zgadzam się, ale nadal bym oceniał przedziały klasowe jako rodzaj „teorii decyzji”, w której funkcja użyteczności jest zwykle oparta na treści informacji (tj. Wnioski, które wykorzystują więcej informacji, które mamy, są lepsze) - i to jest zoptymalizowane przez sam rozkład a posteriori i ewentualnie przewidywanie a posteriori, jeśli przewidywanie jest interesujące. Oszacowanie interwału zapewnia wygodne podsumowanie tylnej części ciała. A dobre przedziały ufności (np. Oparte na MLE) zapewniają bardzo dobre przybliżenie tego, gdy informacje poza dostępnymi danymi są rzadkie

— prawdopodobieństwo

zwykle używasz oszacowania interwału, gdy nie masz na myśli żadnej konkretnej decyzji (co jest prawdopodobnie głównym powodem, dla którego nie miałbyś funkcji rozsądnej straty), i dlatego musisz uwzględnić wiele różnych scenariuszy.

— prawdopodobieństwo prawdopodobieństwo

9

Gdybym był zagorzałym częstym internautą, przypomniałbym wam, że przedziały ufności są dość regularnie tylko odwróconymi testami hipotez, tj. Gdy przedział 95% jest po prostu innym sposobem opisania wszystkich punktów, których test z twoimi danymi nie odrzuciłby na .05 poziom. W takich sytuacjach pierwszeństwo przed innymi stanowi kwestia ekspozycji, a nie metody.

Ekspozycja jest oczywiście ważna, ale myślę, że byłby to całkiem niezły argument. Wyjaśnienie dwóch podejść jako powtórzeń tego samego wnioskowania z różnych punktów widzenia jest schludne i wyjaśniające. (Fakt, że nie wszystkie estymatory przedziałów są testami odwróconymi, jest zatem nieeleganckim, ale niezbyt niezręcznym faktem, mówiąc pedagogicznie).

Jak wspomniano powyżej, znacznie poważniejsze implikacje wynikają z decyzji o uzależnieniu się od obserwacji. Jednak nawet w czasie odosobnienia Frequentist zawsze mógł zauważyć, że jest wiele sytuacji (być może nie większość), w których uwarunkowanie obserwacji byłoby nierozsądne lub mało pouczające. Dla nich konfiguracja HT / CI jest (nie „są”) dokładnie tym, czego chce, i powinna być nauczana jako taka.

— sprzężonyprior
źródło

Formalnie rzecz biorąc, każdy test hipotezy z wartością alfa związaną ze wskaźnikiem błędu typu I można przekształcić w przedział ufności z parametrem pokrycia (1-alfa) i odwrotnie, nie? Nie sądzę, że musisz być zagorzałym bywalcem, aby wierzyć, że są to definicje. :-)

— Keith Winstein

3

@Keith Brak dyskusji na temat definicji, ale musisz być częstym specjalistą, aby uznać je za coś więcej niż interesujące i być może przydatne poręczne elementy matematyki. Oznacza to, że jeśli uważasz, że próbkowanie właściwości teoretycznych jest niezbędne do wnioskowania statystycznego, to (lub powinieneś) równie chętnie badać przedziały ufności i testy hipotez, ponieważ, jak się zgadzamy, mają tę symetrię. Mój był odpowiedzią na kontrast pytających między „dobrymi” CI a „złymi” HT. Łącząc je ze sobą, chciałem skupić się na kontrastach przedstawionych w innych odpowiedziach.

— conjugateprior

7

Ucząc wczesnych studentów statystyki testu Neymana Pearsona, często próbowałem zlokalizować go w jego pierwotnym otoczeniu: w podejmowaniu decyzji. Wtedy infrastruktura błędów typu 1 i typu 2 ma sens, podobnie jak pomysł, że możesz zaakceptować hipotezę zerową.

Musimy podjąć decyzję, uważamy, że wynik naszej decyzji można poprawić dzięki znajomości parametru, mamy jedynie oszacowanie tego parametru. Nadal musimy podjąć decyzję. Jaka jest zatem najlepsza decyzja w kontekście oszacowania parametru?

Wydaje mi się, że w swoim pierwotnym położeniu (podejmowanie decyzji w obliczu niepewności) test hipotezy NP ma sens. Patrz np. N & P 1933, szczególnie str. 291

Neyman and Pearson. Na temat najskuteczniejszych testów hipotez statystycznych. Transakcje filozoficzne Royal Society of London. Seria A, zawierająca dokumenty o charakterze matematycznym lub fizycznym (1933) obj. 231 s. 289–337

— Andrew Robinson
źródło

4

Testowanie hipotez jest użytecznym sposobem na sformułowanie wielu pytań: czy efekt leczenia jest zerowy czy niezerowy? Zdolność między takimi stwierdzeniami a modelem lub procedurą statystyczną (w tym konstrukcją estymatora interwału) jest ważna dla praktyków, jak sądzę.

Warto również wspomnieć, że przedział ufności (w tradycyjnym znaczeniu) nie jest z natury mniej „podatny na grzech” niż testowanie hipotez - ilu studentów wprowadzających zna prawdziwą definicję przedziału ufności?

Być może problemem nie są testowanie hipotez ani szacowanie przedziałów, ponieważ są to klasyczne wersje tego samego; Bayesowska formuła całkiem ładnie tego unika.

— JMS
źródło

2

@JMS, „ilu studentów wprowadzających zna prawdziwą definicję przedziału ufności?” Albo doktoranci, jeśli chodzi o statystyki.

— kardynał

Całkiem! Nawiasem mówiąc, nie miałem na myśli wykopywania studentów ani praktykujących jakichkolwiek pasków. Ale trochę szaleństwem jest oczekiwać gimnastyki umysłowej od kogoś, kto nie zapisał się do zaawansowanej pracy w statystyce.

— JMS

2

Ile osób może powiedzieć prawdziwą definicję IK? A ile osób używa ich zgodnie z tą definicją? Po prostu zbyt trudno jest nie myśleć „parametr prawdopodobnie znajdzie się w tym przedziale” - nawet jeśli wiesz, że nie jest to CI.

— Prawdopodobieństwo

I sobre a prática zwykle de não reportar-se estativasas

— Washington S. Silva

1

Próbowałem wyrazić, że testy hipotez, którym nie towarzyszą oszacowania mocy, są bardzo wątpliwe i że oszacowania przedziałowe nie mają tego dodatkowego źródła komplikacji.

— Washington S. Silva,

2

Powodem jest podejmowanie decyzji. W większości podejmowanych decyzji albo to robisz, albo nie. Możesz patrzeć na interwały przez cały dzień, w końcu jest chwila, w której decydujesz się to zrobić, czy nie.

Testowanie hipotez dobrze pasuje do tej prostej rzeczywistości TAK / NIE.

— Aksakal
źródło