Andrew Gelman w jednym ze swoich najnowszych postów na blogu mówi:
Nie sądzę, aby scenariusz Simpsona wymagał działania alternatywnego lub potencjalnych wyników. Mówię to, ponieważ można skonfigurować paradoks Simpsona ze zmiennymi, których nie można manipulować lub dla których manipulacje nie są bezpośrednio interesujące.
Paradoks Simpsona jest częścią bardziej ogólnego problemu, że współczynniki regresji zmieniają się, jeśli dodasz więcej predyktorów, zmiana znaku nie jest tak naprawdę konieczna.
Oto przykład, którego używam w moim nauczaniu, który ilustruje oba punkty:
Potrafię przeprowadzić regresję przewidującą dochody z płci i wzrostu. Uważam, że płeć seksualna wynosi 10 000 USD (tzn. Porównując mężczyznę i kobietę tego samego wzrostu, średnio mężczyzna zarobi 10 000 USD więcej), a współczynnik wzrostu wynosi 500 USD (tj. Porównanie dwóch mężczyzn lub dwóch kobiet o różnych wysokościach, średnio wyższa osoba zarobi 500 USD więcej na cal wysokości).
Jak mogę interpretować te cefy? Wydaje mi się, że cewkę wzrostu można łatwo zinterpretować (łatwo sobie wyobrazić porównanie dwóch osób tej samej płci o różnych wysokościach), w rzeczy samej wydawałoby się, że „źle” jest regresować się na wysokości bez kontroli seksu, podobnie jak większość różnicę między niskimi i wysokimi ludźmi można „wyjaśnić” poprzez różnice między mężczyznami i kobietami. Ale cewka seksu w powyższym modelu wydaje się bardzo trudna do interpretacji: po co na przykład porównywać mężczyznę i kobietę o wzroście 66 cali? To byłoby porównanie niskiego mężczyzny z wysoką kobietą. Całe to rozumowanie wydaje się niejasno przyczynowe, ale nie sądzę, że warto myśleć o tym z wykorzystaniem potencjalnych wyników.
Zastanawiałem się nad tym (a nawet skomentowałem ten post) i myślę, że jest coś, co prosi o zrozumienie tutaj z większą jasnością.
Aż do części dotyczącej interpretacji płci jest w porządku. Ale nie rozumiem, na czym polega problem porównywania niskiego mężczyzny i wysokiej kobiety. Oto moja uwaga: w rzeczywistości ma to jeszcze większy sens (biorąc pod uwagę założenie, że mężczyźni są średnio wyżsi). Nie można porównać „niskiego mężczyzny” i „niskiej” kobiety z dokładnie tego samego powodu, że różnicę w dochodach tłumaczy się po części różnicą wysokości. To samo dotyczy wysokich mężczyzn i wysokich kobiet, a tym bardziej niskich kobiet i wysokich mężczyzn (co, że tak powiem, nie wchodzi w rachubę). Zasadniczo więc wpływ wzrostu jest eliminowany tylko w przypadku porównania niskich mężczyzn i wysokich kobiet (a to pomaga w interpretacji współczynnika płci). Czy nie dzwoni podobnymi koncepcjami leżącymi u podstaw popularnych pasujących modeli?
Idea paradoksu Simpsona polega na tym, że efekt populacji może różnić się od mądrych efektów podgrupy. Jest to w pewnym sensie związane z jego punktem 2 i faktem, że przyznaje on, że wzrost nie powinien być kontrolowany sam (co, jak mówimy, pomija zmienne odchylenie). Nie mogłem jednak odnieść tego do kontrowersji dotyczącej współczynnika płci.
Może będziesz w stanie wyrazić to jaśniej? Lub skomentuj moje zrozumienie?