Dlaczego źle jest uczyć uczniów, że wartości p to prawdopodobieństwo, że odkrycia wynikają z przypadku?


34

Czy ktoś może przedstawić mi zwięzłe wyjaśnienie, dlaczego nie warto uczyć studentów, że prob jest wartością p (ich odkrycia wynikają z [losowej] szansy). Rozumiem, że wartość p jest prob (uzyskanie bardziej ekstremalnych danych | hipoteza zerowa jest prawdziwa).

Moim prawdziwym zainteresowaniem jest szkoda , że mogę powiedzieć im, że jest to pierwsze (poza tym, że tak nie jest).


43
Bo to źle?
whuber

6
Może to, czego chcesz, to prosty przykład pokazujący, że jest nie tylko zły, ale zły?
Karl

2
Niektóre rzeczy są po prostu kwestią faktów, Patrick, a nie opinia: na przykład Pi nie jest równe trzem (pomimo prób ustanowienia takiego prawa ). Ale twój komentarz jest rzeczywiście użytecznym wyjaśnieniem: sugeruje, że nie pytasz o szkodę nauczania niewłaściwej rzeczy, ale naprawdę szukasz powodów, aby wyjaśnić ludziom różnicę.
whuber

2
Dobra dyskusja na te tematy znajduje się na stronie stats.stackexchange.com/questions/5591/… , nawet wśród odpowiedzi o niższym głosowaniu (IMHO).
whuber

1
Tak, Karl, chyba szukam przykładów z prawdziwego świata. Osoby zajmujące się badaniami opartymi na obserwacjach (np. Nauki o środowisku, ekologia, nauki o przyrodzie) byłyby świetne. Przeczytałem ten wątek (whuber) przed opublikowaniem tego, wraz z kilkoma pubami. Dziękuję ci za to.
Patrick,

Odpowiedzi:


25

Mam inną interpretację znaczenia złego stwierdzenia niż @Karl. Myślę, że jest to stwierdzenie dotyczące danych, a nie wartości zerowej. Rozumiem to jako pytanie o prawdopodobieństwo otrzymania oszacowania z powodu przypadku. Nie wiem, co to znaczy --- to nie jest dokładnie określone roszczenie.

Ale rozumiem, co prawdopodobnie rozumie się przez prawdopodobieństwo otrzymania mojej oceny przez przypadek, biorąc pod uwagę, że prawdziwe oszacowanie jest równe określonej wartości. Na przykład rozumiem, co to znaczy uzyskać bardzo dużą różnicę średnich wysokości między mężczyznami i kobietami, biorąc pod uwagę, że ich średnie wysokości są w rzeczywistości takie same. To dobrze określone. I to właśnie daje wartość p. W niewłaściwym stwierdzeniu brakuje warunku, że wartość null jest prawdziwa.

Teraz możemy sprzeciwić się, że nie jest to stwierdzenie idealne (na przykład szansa na uzyskanie dokładnej wartości dla estymatora wynosi 0). Ale jest to znacznie lepsze niż sposób, w jaki większość interpretowałaby wartość p.

Kluczową kwestią, którą powtarzam raz po raz, kiedy uczę testowania hipotez, jest: „Pierwszym krokiem jest założenie, że hipoteza zerowa jest prawdziwa. Wszystko jest obliczane przy takim założeniu”. Jeśli ludzie to pamiętają, to całkiem nieźle.


To mi dobrze wygląda. Widzę, że robiłem to samo, nie zauważając [westchnienie] (+1)
sprzężonyprior

Ale co z „jaka szkoda”?
rolando2

15

Często widziałem tę interpretację (być może częściej niż poprawną). Interpretuję „ich odkrycia wynikają z [losowej] szansy” jako „ jest prawdą”, a więc tak naprawdę to, co mówią, to Pr ( H 0 ) [które w rzeczywistości powinny być Pr ( H 0 | dane ) ; powiedz: „biorąc pod uwagę to, co widzieliśmy (dane), jakie jest prawdopodobieństwo, że działa tylko szansa?”] Może to być znaczące stwierdzenie (jeśli chcesz przypisać priory i zrobić Bayesa), ale nie jest to p -wartość . H0Pr(H0)Pr(H0|data)

może być zupełnie inny niż ten p-wartości, a więc do interpretacji p-wartość w ten sposób może być poważnie mylące.Pr(H0|data)

Najprostsza ilustracja: powiedzmy wcześniej, jest dość mała, ale dane mają raczej mało, a więc wartość p jest duża (powiedzmy 0,3), ale z tyłu Pr ( H 0 | dane ) , nadal byłby dość mały. [Ale może ten przykład nie jest taki interesujący.]Pr(H0)Pr(H0|data)


Czyli Pr (H0 | data) == prob (ich odkrycia wynikają z [losowej] szansy)?
Patrick

@Patrick - tak.
Karl

1
@Patrick - nie, zdecydowanie nie. W klasycznym testowaniu hipotez nie ma sensu. Pr(H0|anything)
whuber

Pr(H0)Pr(H0|data)

2
H0

14

Dodam późną odpowiedź z perspektywy (byłego) studenta: IMHO szkody nie można oddzielić od jej błędu.

Ten rodzaj błędnych „przybliżeń / skrótów dydaktycznych” może powodować wiele zamieszania dla studentów, którzy zdają sobie sprawę, że nie mogą logicznie zrozumieć tego stwierdzenia, ale zakładając, że nauczono ich, że jest słuszne, nie zdają sobie sprawy, że nie są w stanie go zrozumieć ponieważ to nie jest właściwe.

Nie dotyczy to uczniów, którzy po prostu zapamiętują przedstawione im reguły. Ale wymaga to od uczniów, którzy uczą się poprzez zrozumienie, by być wystarczająco dobrym

  • samodzielnie znaleźć właściwe rozwiązanie i
  • bądź wystarczająco dobry, aby mieć pewność, że mają rację
  • i doszli do wniosku, że nauczono ich bzdur (z jakiegoś rzekomo dydaktycznego powodu).

Nie mówię, że nie ma ważnych skrótów dydaktycznych. Ale IMHO, gdy taki skrót zostanie zastosowany, należy o tym wspomnieć (np. „Dla ułatwienia argumentu zakładamy / przybliżamy, że ...”).
Jednak w tym konkretnym przypadku uważam, że jest to zbyt mylące, aby mogło być przydatne.


1
+1 To bardzo dobra uwaga, jeśli uczysz uczniów czegoś, co jest niepoprawne, zachęcasz ich do skonstruowania modelu, w jaki sposób statystyki działają wadliwie, i może powodować, że źle rozumieją inne elementy statystyki, które są w programie nauczania ( np. jaki przedział ufności - jeśli zachęcasz uczniów do myślenia, że ​​częstość prawdopodobieństwa może być przypisana do hipotezy, to dlaczego nie można zastosować jej do hipotezy, że prawdziwa wartość leży w określonym przedziale). Zrozumienie jest prawdziwym celem edukacji, a to wymaga dokładności.
Dikran Torbacz

8

Odnosząc się bezpośrednio do pytania: Gdzie jest szkoda?

Moim zdaniem odpowiedź na to pytanie jest odwrotna do stwierdzenia: „Wartość p jest prawdopodobieństwem, że wyniki są przypadkowe”. Jeśli ktoś w to wierzy, to prawdopodobnie wierzy również, że: „[1- (wartość p)] oznacza prawdopodobieństwo, że odkrycia NIE są wynikiem przypadkowej szansy”.

Szkoda tkwi zatem w drugim stwierdzeniu, ponieważ biorąc pod uwagę sposób pracy większości ludzi, stwierdzenie to rażąco przecenia, jak pewni powinniśmy być wobec określonych wartości szacowanego parametru.


6

Oto prosty przykład, którego używam:

Załóżmy, że naszą hipotezą zerową jest to, że przerzucamy monetę 2-głowicową (więc prob (heads) = 1). Teraz rzucamy monetą jeden raz i zdobywamy głowy, wartości p dla tego wynoszą 1, więc czy to oznacza, że ​​mamy 100% szans na posiadanie monety 2-głowicowej?

Trudne jest to, że gdybyśmy odwrócili ogony, wartość p wyniósłaby 0, a prawdopodobieństwo posiadania monety 2-głowicowej wyniósłoby 0, więc pasują w tym przypadku, ale nie powyżej. Wartość p 1 powyżej oznacza po prostu, że to, co zaobserwowaliśmy, jest całkowicie zgodne z hipotezą monety 2-głowicowej, ale nie dowodzi, że moneta jest 2-głowicowa.

Ponadto, jeśli wykonujemy statystyki częstokroć, to hipoteza zerowa ma wartość Prawda lub Fałsz (po prostu nie wiemy, które), a sformułowanie (częstokroć) prawdopodobieństwa na temat hipotezy zerowej jest bez znaczenia. Jeśli chcesz porozmawiać o prawdopodobieństwie hipotezy, wykonaj właściwe statystyki bayesowskie, użyj definicji prawdopodobieństwa bayesowskiego, zacznij od wcześniejszego i oblicz prawdopodobieństwo prawdopodobieństwa, że ​​hipoteza jest prawdziwa. Po prostu nie myl wartości p z bayesowską posturą.


3

OK, inne, nieco inne podejście do tego:

Pierwszym podstawowym problemem jest wyrażenie „z powodu [losowej] szansy”. Idea nieokreślonej „szansy” przychodzi naturalnie dla studentów, ale jest niebezpieczna dla jasnego myślenia o niepewności i katastrofalna dla prowadzenia rozsądnych statystyk. Przy czymś takim jak sekwencja rzutów monetą łatwo jest założyć, że „los” jest opisany przez układ dwumianowy z prawdopodobieństwem 0,5. Jest z pewnością pewna naturalność, ale ze statystycznego punktu widzenia nie jest to bardziej naturalne niż przyjęcie 0,6 lub czegoś innego. W przypadku innych mniej „oczywistych” przykładów, np. Dotyczących rzeczywistych parametrów, zupełnie niepomocne jest zastanawianie się, jak wyglądałaby „szansa”.

W odniesieniu do pytania kluczową ideą jest zrozumienie, jaki rodzaj „szansy” opisuje H0, tj. Jakie jest rzeczywiste prawdopodobieństwo / nazwy H0 MZD. Po wprowadzeniu tej koncepcji uczniowie w końcu przestają rozmawiać o tym, co dzieje się „przypadkiem”, i zaczynają pytać, czym właściwie jest H0. (Stwierdzili również, że rzeczy mogą być spójne z dość szeroką gamą H, aby uzyskać przewagę w przedziałach ufności za pomocą testów odwróconych).

Drugi problem polega na tym, że jeśli jesteś na drodze do definicji p-wartości Fishera, powinieneś (imho) zawsze wyjaśnić to najpierw pod względem zgodności danych z H0, ponieważ celem p jest dostrzec to, a nie interpretować obszar ogona jako rodzaj działania „przypadkowego” (lub szczerze mówiąc w ogóle, aby to zinterpretować). Oczywiście jest to kwestia retorycznego nacisku, ale wydaje się, że pomaga.

Krótko mówiąc, szkoda polega na tym, że ten sposób opisu rzeczy nie uogólnia na żaden nietrywialny model, o którym mogliby następnie pomyśleć. W najgorszym przypadku może to tylko zwiększyć poczucie tajemnicy, jaką badanie statystyk generuje już u ludzi, do których skierowane są takie opisy.


1

Jeśli wezmę pod uwagę, „wartość p jest prawdopodobieństwem, że efekt wynika z przypadku”, wydaje się sugerować, że efekt jest spowodowany przez przypadek. Ale każdy efekt jest częściowo spowodowany przypadkiem. W lekcji statystyki, w której wyjaśnia się potrzebę sprawdzenia losowej zmienności, jest to dość magiczne i przesadne stwierdzenie. Nadaje wartości p mocom, których nie mają.

Jeśli zdefiniujesz przypadek w konkretnym przypadku jako hipotezę zerową, to stwierdzasz, że wartość p daje prawdopodobieństwo, że obserwowany efekt jest spowodowany hipotezą zerową. Wydaje się to okropnie bliskie prawidłowemu stwierdzeniu, ale twierdzenie, że przyczyną prawdopodobieństwa jest przyczyna tego prawdopodobieństwa, ponownie sięga zbyt daleko. Prawidłowe stwierdzenie, że wartość p jest prawdopodobieństwem efektu, biorąc pod uwagę hipotezę zerową, jest prawdziwe, nie przypisuje przyczyny efektowi zerowemu. Przyczyny są różne, w tym prawdziwy efekt, zmienność wokół efektu i losowa szansa. Wartość p nie mierzy prawdopodobieństwa żadnego z nich.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.