Regresja do średniej w „Myśleniu, szybko i powoli”

W Thinking, Fast and Slow , Daniel Kahneman stawia następujące pytanie hipotetyczne:

(Str. 186) Julie jest obecnie starszą uczelnią państwową. Płynnie czytała, gdy miała cztery lata. Jaka jest jej średnia ocen (GPA)?

Jego intencją jest zilustrowanie tego, jak często nie uwzględniamy regresji do średniej podczas prognozowania niektórych statystyk. W dalszej dyskusji doradza:

(Str. 190) Przypomnijmy, że korelacja między dwiema miarami - w obecnym przypadku wiekiem czytania i GPA - jest równa proporcji wspólnych czynników między ich wyznacznikami. Jaka jest Twoja najlepsza ocena tego odsetka? Moje najbardziej optymistyczne przypuszczenie wynosi około 30%. Zakładając to oszacowanie, mamy wszystko, czego potrzebujemy, aby stworzyć obiektywną prognozę. Oto wskazówki, jak się tam dostać w czterech prostych krokach:

Zacznij od oszacowania średniego GPA.

Określ GPA, który pasuje do twojego wrażenia na temat dowodów.

Oszacuj korelację między wstępnym odczytem a GPA.

Jeśli korelacja wynosi 0,30, przenieś 30% odległości od średniej do pasującego GPA.

Moja interpretacja jego rad jest następująca:

Użyj „Czytała płynnie, gdy miała cztery lata”, aby ustalić standardowy wynik dla predykcji czytania Julie.
Określ GPA, który ma odpowiadający standardowy wynik. (Racjonalny GPA do przewidzenia odpowiadałby temu standardowemu wynikowi, gdyby korelacja między GPA a dokładnością odczytu była idealna).
Oszacuj, jaki procent zmian GPA można wytłumaczyć zmianami w predykcji odczytu. (Zakładam, że w tym kontekście odnosi się do współczynnika determinacji z „korelacją”?)
Ponieważ tylko 30% standardowego wyniku predykcji czytania Julie można wytłumaczyć czynnikami, które mogą również wyjaśnić standardowy wynik jej GPA, mamy uzasadnione przewidywanie, że standardowy wynik GPA Julie wyniesie 30% tego, co by to było w przypadku idealnej korelacji.

Czy moja interpretacja procedury Kahnemana jest poprawna? Jeśli tak, to czy istnieje bardziej formalne matematyczne uzasadnienie jego procedury, szczególnie krok 4? Zasadniczo jaki jest związek między korelacją między dwiema zmiennymi a zmianami / różnicami w ich standardowych wynikach?

standard-deviation regression-coefficients regression-to-the-mean

— Racje żywnościowe
źródło

Odpowiedzi:

Czy moja interpretacja procedury Kahnemana jest poprawna?

Jest to nieco trudne do powiedzenia, ponieważ krok 2 Kahnemana nie został sformułowany bardzo precyzyjnie: „Określ GPA, który pasuje do twojego wrażenia na temat dowodów” - co dokładnie to ma znaczyć? Jeśli czyjeś wrażenia są dobrze skalibrowane, nie będzie potrzeby korygowania względem średniej. Jeśli czyjeś wrażenia są rażąco złe, powinny raczej poprawić jeszcze silniejsze.

Zgadzam się więc z @AndyW, że rada Kahnemana jest jedynie ogólną zasadą.

Powiedział, że jeśli interpretować krok Kahneman za nr 2, jak interpretować go w krokach Interpretacji ## 1--2 IE, aby podjąć GPA z tej samej -score jako -score czytania afektację jako „pasujących wrażenie dowody ”, wtedy twoja procedura jest dokładnie matematycznie poprawna, a nie ogólna zasada. $z$ $z$

[...] czy istnieje bardziej formalne matematyczne uzasadnienie jego procedury, szczególnie krok 4? Zasadniczo jaki jest związek między korelacją między dwiema zmiennymi a zmianami / różnicami w ich standardowych wynikach?

Jeśli przewiduje z i obydwa izomery przekształcono do -Wyniki, czyli średnią zero i wariancji jednostkowej, i korelacji pomiędzy sobą, to można łatwo wykazać, że równanie regresji będzie tzn. współczynnik regresji będzie równy współczynnikowi korelacji. $y$ $x$ $z$ $\rho$

y = ρ x,

$y=\rho x,$

Z tego miejsca natychmiast wynika, że jeśli znasz wartość (np. Znasz standardowy wynik z dokładności odczytu), to przewidywana wartość (standardowy wynik GPA) będzie razy większa niż to. $x$ $y$ $\rho$

To właśnie nazywa się „regresją do średniej”. Niektóre formuły i pochodne można zobaczyć w dyskusji na Wikipedii .

— ameba mówi Przywróć Monikę
źródło

Kolejność numerów nie zgadza się z cytatem z Kahneman. Z tego powodu wygląda na to, że brakuje Ci ogólnego punktu.

Punkt pierwszy Kahnemana jest najważniejszy. Oznacza dosłownie oszacowanie średniego GPA - dla każdego. Chodzi o to, że to twoja kotwica. Wszelkie podane przez Ciebie prognozy powinny odnosić się do zmian wokół tego punktu kontrolnego. Nie jestem pewien, czy widzę ten krok w żadnym z twoich punktów!

Kahneman używa akronimu WYSIATI, wszystko, co widzisz, to wszystko. Jest to ludzka tendencja do przeceniania znaczenia obecnie dostępnych informacji. Dla wielu osób informacja o umiejętności czytania zmusiłaby ludzi do myślenia, że Julie jest mądra, a więc ludzie zgadliby GPA inteligentnej osoby.

Ale zachowanie dziecka w wieku czterech lat zawiera bardzo niewiele informacji związanych z zachowaniem dorosłych. Prawdopodobnie lepiej jest zignorować to przy tworzeniu prognoz. Powinno cię tylko nieznacznie oderwać od twojej kotwicy. Ponadto ludzie domyślają się, że osoby inteligentne GPA mogą być bardzo niedokładne. Z powodu selekcji większość seniorów w college'u ma ponadprzeciętną inteligencję.

W tym pytaniu jest kilka innych ukrytych informacji poza umiejętnością czytania Julie w wieku czterech lat.

Julie będzie prawdopodobnie żeńskim imieniem
Uczęszcza na uniwersytet stanowy
Ona jest starsza

Podejrzewam, że wszystkie trzy z tych cech nieznacznie podnoszą średnią GPA w porównaniu do ogólnej populacji studentów. Na przykład założę się, że Seniorzy „prawdopodobnie mają wyższy GPA niż Sophmores”, ponieważ ponieważ studenci z bardzo złym GPA odpadają.

Procedura Kahnemana (jako hipotetyczna) przebiegałaby w ten sposób.

Średni GPA dla kobiety starszej na uniwersytecie stanowym wynosi 3,1.
Sądzę, że w oparciu o zaawansowaną umiejętność czytania Julie przy 4, jej GPA wynosi 3,8
Myślę, że umiejętność czytania w wieku 4 lat ma korelację 0,3 z GPA
Zatem 30% zakresu między 3.1 a 3.8 to 3.3 (tj. 3.1 + (3.8-3.1)*0.3)

Zatem w tej hipotetycznej domysłach dla GPA Julie jest 3,3.

Regresja do średniej w podejściu Kahnemana polega na tym, że krok 2 może być rażąco zawyżonym szacunkiem ważności dostępnych informacji. Lepszą strategią jest więc cofnięcie naszych prognoz do ogólnej średniej. Kroki 3 i 4 to (ad hoc) sposoby oszacowania, ile należy regresować.

— Andy W.
źródło

Rozumiem intuicję stojącą za procedurą, ale nie matematyczne uzasadnienie. Moja interpretacja jest taka, że celem oszacowania średniego GPA jest umożliwienie oszacowania określonych GPA pod względem standardowych wyników; w przeciwnym razie nie można by ich znacząco porównać do wcześniejszego czytania. (Cd.)

— Racje żywnościowe

Kahneman wspomina, że większość ludzi zgaduje GPA = 3,7 lub 3,8, co prawdopodobnie odpowiada standardowemu wynikowi, który kojarzą ze wstępną dokładnością czytania Julie, ale domyślnie zakłada również, że korelacja między tymi dwiema zmiennymi jest idealna. Jestem głównie zdezorientowany, czy krok 4 to praktyczna zasada oparta na intuicji, czy prawdziwa, statystycznie ważna procedura (tj. Czy można traktować standardowe wyniki dodatnio i przyjmować ich proporcje w oparciu o korelację?). Jeśli jest to zwykła zasada laika, czy istnieje bardziej statystycznie rygorystyczna metoda przybliżenia?

— Racje żywnościowe

Przez „addytywnie” odnoszę się do naszego założenia, że (1) pewna część standardowego wyniku GPA Julie jest wyjaśniona przez czynniki, które mogą również wyjaśnić jej predykcję czytania, że (2) pozostała część jej standardowego wyniku GPA jest wyjaśniona przez czynniki unikalne dla wyjaśnienia GPA, że (3) zsumowane wkłady są równe ostatecznemu standardowemu wynikowi GPA, który przewidujemy dla Julie, i że (4) możemy skorygować naszą prognozę, po prostu biorąc część naszej stronniczej prognozy. Czy praca z takimi proporcjami odchyleń standardowych - w przeciwieństwie do, powiedzmy, ich pierwiastków kwadratowych - jest prawidłowa?

— Racje żywnościowe

Jest to reguła ad hoc. Kroki drugi i trzeci niekoniecznie są ze sobą logicznie spójne. (Są dwa różne sposoby mówienia tej samej informacji, jeden to rozmiar efektu, a drugi to znormalizowany rozmiar efektu.)

— Andy W