Czy poprzedni badacze nie wykryli gorącej ręki po prostu z powodu błędu statystycznego?


11

Wielu fanów / graczy koszykówki uważa, że ​​po kilku rzutach z rzędu, bardziej prawdopodobne jest, że trafi następny. To jest czasami nazywane gorącą ręką.

Zaczynając (jak sądzę) od Gilovicha, Mallone i Tversky'ego (1985) , „udowodniono”, że w rzeczywistości był to błąd. Nawet jeśli oddano kilka strzałów z rzędu, następne trafienie nie będzie bardziej prawdopodobne, niż wskazywałby to średni procent strzelania.

Miller i Sanjurjo (2015) twierdzą, że gorąca ręka faktycznie istnieje, a poprzedni badacze po prostu padli ofiarą dość podstawowego błędu statystycznego. Ich argument jest mniej więcej taki:

Rzuć monetą cztery razy. Oblicz prawdopodobieństwo, że H podąża za H. Aby podać kilka przykładów: HHTT miałoby prawdopodobieństwo 1/2, HTHT miałoby prawdopodobieństwo 0/2, TTHH miałoby prawdopodobieństwo 0/1 1/1, a zarówno TTTT, jak i TTTH byłyby NA

Punktem wyjścia Millera i Sanjurjo jest to, że oczekiwana wartość tego prawdopodobieństwa nie wynosi 0,5, ale ≈0,4. Błąd popełniony przez poprzednich badaczy polegał na niepoprawnym założeniu, że oczekiwana wartość tego prawdopodobieństwa wynosi 0,5. Jeśli więc na przykład ci poprzedni badacze przeprowadzili powyższy eksperyment polegający na rzucie monetą i stwierdzili, że średnie prawdopodobieństwo wynosi 0,497, błędnie stwierdzili, że nie było dowodów na gorącą rękę (nie różniącą się znacząco od 0,5), podczas gdy w rzeczywistości było bardzo mocne dowody gorącej ręki (znacząco różne od 0,4).

Moje pytanie brzmi: czy Miller i Sanjurjo mają rację, że poprzedni badacze nie wykryli gorącej ręki tylko z powodu tego błędu? Przejrzałem tylko jeden lub dwa artykuły na ten temat, więc chciałem uzyskać potwierdzenie od kogoś tutaj, kto mógłby lepiej poznać tę literaturę. Wydaje się to zaskakująco głupim błędem, który utrzymywał się przez trzy dekady lub dłużej.


3
Jest to niebezpieczne pytanie dla tej witryny, ponieważ jest dość trudne do oceny, szczególnie dla osób z zewnątrz. I w ten sposób „określamy” najlepsze odpowiedzi, głosując większością głosów. Przeczytaj wszystkie odpowiedzi i głosuj tylko w górę na te, które wydają się poprawne po przeczytaniu ich wszystkich, i głosuj w dół te, które pozostawiają cię niezadowolonym / podejrzanym.
FooBar

1
Jest tak, ponieważ poprawna odpowiedź może być sprzeczna z intuicją. Gdyby taka strona istniała 60 lat temu, nie sądzę, aby poprawna odpowiedź na problem Monty Hall - który ma podobne właściwości - byłaby najważniejsza w głosowaniu większościowym.
FooBar

@FooBar, aby dodać do tego, że od razu pojawiają się tutaj dwa skomplikowane pytania: (1) „Jaki jest matematyczny efekt, o którym dyskutują Miller i Sanjuro” --- to nie jest pytanie, które zadał Kenny LJ, ale jest dobre pytanie, ponieważ potrzeba dużo czytania, aby zrozumieć i jest względnie obiektywne. Następnie (2) brzmi „Czy to unieważnia wcześniejsze badania”, co wydaje się subiektywne i oparte na opiniach…
usul

@usul: W niektórych przypadkach w ekonomii to drugie pytanie („Czy to unieważnia wcześniejsze badania?”) jest rzeczywiście bardziej kontrowersyjne i oparte na opiniach - np. kontrowersje wokół pracy Reinharta i Rogoffa (2010). Myślę jednak, że w tym przypadku mamy jasno określony problem matematyczny. I jak próbowałem pokazać w mojej odpowiedzi poniżej (którą właśnie przepisałem ponownie dla jasności i zwięzłości), Miller i Sanjurjo (2015) rzeczywiście skutecznie unieważniają wnioski Gilovicha, Mallone i Tversky'ego (1985).
Kenny LJ

@KennyLJ, wykazali, że jeden z dowodów w pracy z 1985 roku jest nieważny. Jest to zupełnie inne pytanie niż wykazanie, że wniosek jest nieważny, np. Wykazanie, że efekt gorącej ręki zdecydowanie istnieje.
usul

Odpowiedzi:


6

(Ta odpowiedź została całkowicie przepisana dla większej przejrzystości i czytelności w lipcu 2017 r.)

Rzuć monetą 100 razy z rzędu.

Zbadaj klapkę natychmiast po serii trzech ogonów. Niech p ( H | 3 T ) będzie proporcja monety koziołki po każdym passę trzech ogonach z rzędu, które są głowice. Podobnie, niech p ( H | 3 H ) jako część rzut monetą po każdym pasmem trzech głowic w rzędzie, które są głowice. ( Przykład na dole tej odpowiedzi. )p^(H|3T)p^(H|3H)

Niech .x:=p^(H|3H)p^(H|3T)

Jeśli rzuty monetą są identyczne, wówczas „oczywiście” w wielu sekwencjach 100 rzutów monetą,

(1) Oczekuje się, że zdarza się tak często, jak x < 0 .x>0x<0

(2) .E(X)=0

Generujemy milion sekwencji po 100 rzutów monetą i otrzymujemy następujące dwa wyniki:

(I) zdarza się mniej więcej tak często, jak x < 0 .x>0x<0

(II) ( ˉ x to średnia x w milionach sekwencji).x¯0x¯x

W związku z tym dochodzimy do wniosku, że rzuty monetą są rzeczywiście iid i nie ma dowodów na gorącą rękę. Tak właśnie zrobił GVT (1985) (ale ze strzałami do koszykówki zamiast rzutu monetą). I tak doszli do wniosku, że gorąca ręka nie istnieje.


Poncz: Szokująco, (1) i (2) są niepoprawne. Jeśli rzuty monetą są identyczne, to powinno tak być

(Z poprawką 1) występuje tylko w około 37% przypadków, podczas gdy x < 0 występuje w około 60% przypadków. (W pozostałych 3% przypadków x = 0 lub x jest niezdefiniowany - albo dlatego, że nie było serii 3H lub serii 3T na 100 rzutów.)x>0x<0x=0x

(Z korekcją 2) .E(X)0.08

Intuicja (lub kontr-intuicja) jest podobna do tej w kilku innych znanych łamigłówkach prawdopodobieństwa: problem Monty Hall, problem dwóch chłopców i zasada ograniczonego wyboru (w brydżu gry karcianej). Ta odpowiedź jest już wystarczająco długa, więc pominę wyjaśnienie tej intuicji.

Tak więc same wyniki (I) i (II) uzyskane przez GVT (1985) są faktycznie mocnymi dowodami na korzyść gorącej ręki. Właśnie to pokazali Miller i Sanjurjo (2015).


Dalsza analiza tabeli 4 GVT.

Wielu (np. @ Scerwin poniżej) - bez zawracania sobie głowy czytaniem GVT (1985) - wyraziło niedowierzanie, że każdy „wyszkolony statystyk kiedykolwiek” przyjąłby średnie w tym kontekście.

Ale dokładnie tak postąpił GVT (1985) w tabeli 4. Patrz tabela 4, kolumny 2-4 i 5-6, dolny wiersz. Odkryli, że uśredniono wyniki dla 26 graczy,

p^(H|1M)0.47p^(H|1H)0.48

p^(H|2M)0.47p^(H|2H)0.49

p^(H|3M)0.45p^(H|3H)0.49

k=1,2,3p^(H|kH)>p^(H|kM)

Ale jeśli zamiast wziąć średnie średnie (ruch uważany przez niektórych za niewiarygodnie głupi), ponownie dokonamy ich analizy i zsumujemy 26 graczy (100 strzałów dla każdego, z pewnymi wyjątkami), otrzymamy następującą tabelę średnich ważonych.

Any                     1175/2515 = 0.4672

3 misses in a row       161/400 = 0.4025
3 hits in a row         179/313 = 0.5719

2 misses in a row       315/719 = 0.4381
2 hits in a row         316/581 = 0.5439        

1 miss in a row         592/1317 = 0.4495
1 hit in a row          581/1150 = 0.5052

Tabela mówi na przykład, że 26 graczy wykonało w sumie 2515 zdjęć, z których wykonano 1175 lub 46,72%.

A z 400 przypadków, w których gracz spudłował 3 z rzędu, po 161 lub 40,25% natychmiast nastąpiło trafienie. Z 313 przypadków, w których gracz trafił 3 z rzędu, 179 lub 57,19% natychmiast spowodowało trafienie.

Powyższe średnie ważone wydają się być mocnym dowodem na korzyść gorącej ręki.

Pamiętaj, że eksperyment strzelania został skonfigurowany tak, aby każdy gracz strzelał z miejsca, w którym ustalono, że może wykonać około 50% swoich strzałów.

(Uwaga: dość „dziwnie”, w Tabeli 1 do bardzo podobnej analizy podczas strzelania Sixers w grze, GVT zamiast tego przedstawiają średnie ważone. Więc dlaczego nie zrobili tego samego dla Tabeli 4? Domyślam się, że oni z pewnością obliczył średnie ważone dla Tabeli 4 - liczby, które przedstawiłem powyżej, nie spodobały się temu, co zobaczyły, i postanowiłem je stłumić. Takie zachowanie jest niestety równe kursowi akademickiemu).


HHHTTTHHHHHHp^(H|3T)=1/1=1

p^(H|3H)=91/920.989


Tabela 4 GVT PS (1985) zawiera kilka błędów. Zauważyłem co najmniej dwa błędy zaokrąglania. Również w przypadku gracza 10 wartości w nawiasach w kolumnach 4 i 6 nie sumują się o jeden mniej niż w kolumnie 5 (w przeciwieństwie do uwagi na dole). Skontaktowałem się z Gilovichem (Tversky nie żyje, a Vallone nie jestem tego pewien), ale niestety nie ma już oryginalnych sekwencji trafień i chybień. Tabela 4 to wszystko, co mamy.


Patrząc na tabelę 4 GMT 1985, przebadali 26 indywidualnych studentów i znaleźli tylko jeden przykład statystycznie istotnej „gorącej ręki” (sprawdzili każdy przypadek z p <0,05). To efekt zielonej galaretki . Nawiasem mówiąc, jeśli każdy uczeń byłby dokładnie ustawiony w taki sposób, aby mógł wykonać około 50% swoich ujęć, to wielu mniej niż 7 uczniów powinno mieć wskaźniki trafień poza zakresem 40–60 na 100 (chyba że jest ogromny efekt gorącej ręki)
Henry,

4

(Zastrzeżenie: Nie znam tej literatury.) Wydaje mi się, że Miller i Sanjurjo mają uzasadnioną krytykę określonej miary statystycznej. Nie wiem, czy należy to uznać za unieważniające wszystkie wcześniejsze prace nad efektem gorącej ręki, ponieważ koncentrują się one tylko na tym konkretnym środku.

Miarą jest

M:=P(make shot | made previous shot)P(make shot | miss previous shot)
P(X)X

MEM>0EM=0

EM<0M

M


3

Żaden z dwóch artykułów nie jest wystarczająco jasny w odniesieniu do ich zastosowania statystyk, więc w tej odpowiedzi postaram się wyjaśnić.

Gilovich, Mallone i Tversky (1985) w swoim streszczeniu definiują „efekt gorącej dłoni” w następujący sposób:

Gracze zarówno w koszykówkę, jak i fani uważają, że szansa trafienia strzału jest większa po trafieniu niż w przypadku chybienia w poprzednim strzale ”.

kHkkMk

(1)P(HHk)>P(HMk),k1

gdzie dla zwięzłości rozumie się, że dany strzał jest tym, który następuje bezpośrednio po kolejnych trafieniach lub chybieniach. Są to teoretyczne prawdopodobieństwa warunkowe (tj. Stałe), a nie warunkowe względne częstotliwości empiryczne.

P^(HHk),P^(HMk)

Ho:P(HHk)P(HMk)=0

P(H)

TP^(HHk)P^(HMk)

T

T

Dlatego, jeśli występuje problem z Gilovichem i in. papier, nie jest to definicja Hot-Hand, nie jest sformułowanie hipotezy zerowej, nie jest to wybór statystyki, która ma być zastosowana: jest to ważność wartości krytycznych użytych do wykonania testów ( i tak z domyślnego założenia dystrybucyjnego), jeśli rzeczywiście skończony, mały próbka (pod hipotezą zerową) jest wyraźnie nieśrodkowany na zero, a także asymetryczny.

W takich przypadkach zwykle uzyskuje się poprzez symulację specjalnych wartości krytycznych w celu przeprowadzenia testu (pamiętaj na przykład o specjalnych wartościach krytycznych dla testu Dickeya-Fullera dla pierwiastka). Nie dostrzegłem takiego podejścia w pracy Millera-Sanjurjo, zamiast tego dokonują one „korekty średniego odchylenia” i stwierdziłem, że po tej korekcie wnioski z testu są odwrócone. Nie jestem pewien, czy to jest właściwa droga.

200n=100p=0.5
T3=P^(HH3)P^(HM3)0.08070.07262.5%wartości są ujemne. Histogram empiryczny to

wprowadź opis zdjęcia tutaj


1

Moim zdaniem Miller i Sanjurjo po prostu nieprawidłowo obliczyli częstotliwości względne w tabeli 1. Ich tabela jest pokazana poniżej z dodanymi dwoma nowymi kolumnami, które zliczają liczbę podsekwencji HH i HT, które występują w każdej sekwencji 4 rzutów monetą. Aby uzyskać pożądane prawdopodobieństwo warunkowe p (H | H), należy zsumować te liczby N (HH) i N (HT), a następnie podzielić, jak pokazano poniżej. Wykonanie tego daje p (H | H) = 0,5, zgodnie z oczekiwaniami. Z jakiegoś powodu Miller i Sanjurjo najpierw obliczyli częstotliwość względną dla każdej sekwencji, a następnie uśrednili dla sekwencji. Po prostu źle.

Sequence     Subsequences       N(HH) N(HT)    p(H|H)
TTTT  ->  TT.. , .TT. , ..TT      0     0        -  
TTTH  ->  TT.. , .TT. , ..TH      0     0        -  
TTHT  ->  TT.. , .TH. , ..HT      0     1       0.0 
THTT  ->  TH.. , .HT. , ..TT      0     1       0.0 
HTTT  ->  HT.. , .TT. , ..TT      0     1       0.0 
TTHH  ->  TT.. , .TH. , ..HH      1     0       1.0 
THTH  ->  TH.. , .HT. , ..TH      0     1       0.0 
THHT  ->  TH.. , .HH. , ..HT      1     1       0.5 
HTTH  ->  HT.. , .TT. , ..TH      0     1       0.0 
HTHT  ->  HT.. , .TH. , ..HT      0     2       0.0 
HHTT  ->  HH.. , .HT. , ..TT      1     1       0.5 
THHH  ->  TH.. , .HH. , ..HH      2     0       1.0 
HTHH  ->  HT.. , .TH. , ..HH      1     1       0.5 
HHTH  ->  HH.. , .HT. , ..TH      1     1       0.5 
HHHT  ->  HH.. , .HH. , ..HT      2     1       0.66
HHHH  ->  HH.. , .HH. , ..HH      3     0       1.0 
                                 --    --       ----
                                 12    12       0.40
                            p(H|H)=N(HH)/N(H*)
                                  =12/(12+12)
                                  =0.5

Ich argumentem jest to, że zamiast obliczać poszczególne wystąpienia TT i TH (tak jak ty), prawdopodobieństwa p (H | H) należy uśrednić (ponieważ wszystkie sekwencje są jednakowo prawdopodobne).
Giskard

1
Może prostsza tabela sprawi, że ich błąd stanie się bardziej oczywisty. Dopuszczamy tylko dwie konkretne sekwencje 4-flip: TTHT i HHHH. Dają one następujące sekwencje 2-flip: TT, TH, HT, HH, HH, HH. Z tej listy jest dość oczywiste, że kiedy pierwsza rzucona moneta pokazuje H, najprawdopodobniej nastąpi kolejna H (dzieje się to 3 na 4 razy). Rzeczywiście „gorąca moneta”! Ale metoda Millera i Sanjurjo nie przewiduje wcale ciepła, ponieważ średnia częstotliwości dla TTHT i HHHH (0,0 i 1,0) wynosi 0,5. Z drugiej strony zwykła metoda daje prawidłową odpowiedź: p (H | H) = 3 / (3 + 1) = 0,75.
scerwin

Myślę, że ich celem jest to, że wspomniany „błąd” był dokładnie tym, co zrobili wcześniejsi badacze.
Kenny LJ

1
Może. Ale czy to twierdzenie o poprzednich badaczach jest słuszne? Żaden wyszkolony statystyk nigdy nie wyliczyłby prawdopodobieństwa, tak jak Miller i Sanjurjo w Tabeli 1. Jest to analogiczne do obliczenia średniej mrugnięcia dla gracza w baseball, najpierw obliczając jego średnią dla każdej gry, a następnie uśredniając z gier. To po prostu źle.
scerwin

„Ale czy to twierdzenie o poprzednich badaczach jest prawidłowe? Żaden wyszkolony statystyk nigdy nie obliczyłby prawdopodobieństwa, tak jak Miller i Sanjurjo w tabeli 1.” Być może powinieneś poświęcić trochę czasu na przeczytanie tych artykułów. Zwłaszcza GVT (1985).
Kenny LJ

0

W dowolnej zaobserwowanej sekwencji „brak” ostatniego warunku w tym sensie, że później nie ma żadnej wartości. Autorzy zajmują się tym, po prostu ignorując przypadki, w których tak się dzieje, mówiąc, że są niezdefiniowane. Jeśli seria jest krótka, wybór ten będzie miał oczywisty wpływ na obliczenia. Rycina 1 to dobra ilustracja tego pomysłu.


-1

Zamienię komentarz, który napisałem powyżej, na odpowiedź i twierdzę, że odpowiedź na oryginalne pytanie brzmi: oryginalne dokumenty są poprawne. Autorzy artykułu z 2015 r. Wyrzucają sekwencje, które logicznie należy uwzględnić w ich analizie, jak to opisuję w komentarzu, a zatem wprowadzają stronniczość, która popiera ich twierdzenia. Świat działa tak, jak powinien.

Dodatek w odpowiedzi na komentarz: Patrzymy na tabelę 1 w artykule. Widzimy, że wyrzucamy 4 wartości z ostatniej kolumny, więc aby uzyskać oczekiwaną różnicę, uśredniamy tylko 12 z 16 sekwencji. Jeśli spojrzymy na te prawdopodobieństwa jako częstotliwości i powiedzmy, dla częstotliwości TTTT pierwszej linii, jaka jest częstotliwość, z jaką głowa podąża za głową, to logicznie rzecz biorąc, zawsze tak się dzieje i powinniśmy umieścić 1 na p (H, H ), a nie myślnik. Robimy to dla pozostałych trzech sekwencji, które wyrzuciliśmy i dochodzimy do wniosku, że oczekiwana wartość różnicy wynosi 0, a nie -33. Nie możemy po prostu wyrzucić takich danych, gdy istnieje jasna logiczna interpretacja danych.

Zauważ, że aby zniknąć dryf, musimy poprawnie obliczyć prawdopodobieństwa, czego nie zrobiono w pracy. Prawdopodobieństwa w tabeli są określane jako „prawdopodobieństwo, że głowa podąża za ogonem, w tej podanej sekwencji czterech rzutów”. I widzimy, że w wierszu TTTH powinniśmy wierzyć, że prawdopodobieństwo wynosi 1/3. To nie jest. W rzędzie są cztery rzuty, a jednym z czterech rzutów w tym rzędzie jest zdarzenie „głowa podąża za ogonem”. Prawdopodobieństwo wynosi 1/4. Więc oblicz poprawnie prawdopodobieństwa i użyj wszystkich wierszy, a otrzymasz odpowiedź, która została zaakceptowana przez 30 lat.


Pytanie brzmi, czy Miller i Sanjurjo (2015) mają rację, wskazując, że poprzedni badacze popełnili błąd (a więc nie wykryli gorącej ręki). Jeśli tak, proszę wyjaśnić. Jeśli nie, proszę również wyjaśnić. Pytanie nie brzmi, czy możemy „po prostu wyrzucić takie dane”, czy „świat działa tak, jak powinien”.
Kenny LJ

Miller i Sanjuro nie mają racji, ponieważ wyrzucają dane, które logicznie należą do analizy, a zatem wprowadzają błąd, którego nie ma na świecie.
user164740,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.