Czy paradoks Simpsona obejmuje wszystkie przypadki odwrócenia się od ukrytej zmiennej?

Poniżej znajduje się pytanie dotyczące wielu wizualizacji przedstawionych jako „dowód za obrazem” istnienia paradoksu Simpsona i być może pytanie dotyczące terminologii.

Paradoks Simpsona jest dość prostym zjawiskiem, które można opisać i podać numeryczne przykłady (powód, dla którego może się to zdarzyć, jest głęboki i interesujący). Paradoks polega na tym, że istnieją tabele warunkowe 2x2x2 (Agresti, Analiza danych kategorialnych), w których powiązanie brzeżne ma inny kierunek niż każde powiązanie warunkowe.

Oznacza to, że porównanie wskaźników w dwóch subpopulacjach może iść w jednym kierunku, ale porównanie w połączonej populacji idzie w innym kierunku. W symbolach:

Istnieją takie, że $a,b,c,d,e,f,g,h$

\frac{a + b}{c + d} > \frac{e + f}{g + h}

$\frac{a+b}{c+d} > \frac{e+f}{g+h}$

ale oraz

\frac{a}{c} < \frac{e}{g}

$\frac{a}{c} < \frac{e}{g}$

\frac{b}{d} < \frac{f}{h}

$\frac{b}{d} < \frac{f}{h}$

Jest to dokładnie przedstawione w następującej wizualizacji (z Wikipedii ):

Ułamek jest po prostu nachyleniem odpowiednich wektorów i łatwo zauważyć w przykładzie, że krótsze wektory B mają większe nachylenie niż odpowiadające wektory L, ale połączony wektor B ma mniejsze nachylenie niż połączony wektor L.

Istnieje bardzo powszechna wizualizacja w wielu formach, szczególnie w przedniej części tej Wikipedii na stronie Simpsona:

To świetny przykład pomieszania, w jaki sposób ukryta zmienna (która oddziela dwie subpopulacje) może wykazywać inny wzorzec.

Jednak matematycznie taki obraz w żaden sposób nie wyświetla tabel awaryjnych, które są podstawą zjawiska znanego jako paradoks Simpsona . Po pierwsze, linie regresji są nad danymi z zestawu punktów o wartościach rzeczywistych, a nie zliczają danych z tabeli awaryjnej.

Można również tworzyć zestawy danych z dowolną relacją nachyleń w liniach regresji, ale w tabelach awaryjnych istnieje ograniczenie, jak różne mogą być nachylenia. Oznacza to, że linia regresji populacji może być ortogonalna do wszystkich regresji danych subpopulacji. Ale w paradoksie Simpsona proporcje subpopulacji, choć nie nachylenie regresji, nie mogą zbytnio oddalić się od mieszanej populacji, nawet jeśli w przeciwnym kierunku (ponownie, patrz porównanie obrazu z Wikipedii).

Dla mnie to wystarczy, aby być zaskoczonym za każdym razem, gdy widzę ten ostatni obraz jako wizualizację paradoksu Simpsona. Ale ponieważ widzę przykłady (które nazywam źle) wszędzie, jestem ciekawy, aby wiedzieć:

Czy brakuje mi subtelnej transformacji z oryginalnych przykładów tabel nieprzewidzianych Simpsona / Yule w rzeczywiste wartości uzasadniające wizualizację linii regresji?
Z pewnością Simpson jest szczególnym przypadkiem mylącego błędu. Czy termin „paradoks Simpsona” jest teraz utożsamiany z mylącym błędem, tak więc bez względu na matematykę każdą zmianę kierunku za pomocą ukrytej zmiennej można nazwać paradoksem Simpsona?

Dodatek: Oto przykład uogólnienia na tablicę 2xmxn (lub 2 na metr ciągłą):

Jeśli połączysz rodzaj strzału, wygląda na to, że gracz wykonuje więcej strzałów, gdy obrońcy są bliżej. Pogrupowane według rodzaju strzału (naprawdę odległość od kosza), im bardziej intuicyjnie spodziewana sytuacja, im więcej strzałów, tym bardziej obrońcy są dalej.

Ten obraz uważam za uogólnienie Simpsona w bardziej ciągłą sytuację (dystans obrońców). Ale wciąż nie rozumiem, jak przykład linii regresji jest przykładem Simpsona.

— Mitch
źródło

Paradoks Simpsona nie dotyczy tylko kategorycznych danych docelowych. Ciągłe dane docelowe z wpływającym na nie kategorycznym czynnikiem, jak na ostatecznym wykresie, mogą podlegać paradoksowi. Kluczem jest to, że „czynnik kategoryczny”, a nie to, czy zmienna będąca przedmiotem zainteresowania jest kategoryczna, czy też którykolwiek lub wszystkie inne czynniki wpływające na zmienną będącą przedmiotem zainteresowania są kategoryczne.

— jbowman

@ jbowman OK, widzę być może, że SP może być generalizowalny poza danymi kategorialnymi do ciągłego (nie widziałem tego uogólnienia; SP wydaje się zawsze mieć tabele zdarzeń), ale nie widzę, jak odpowiada drugi wykres. Mam na myśli oczywistą, ale niejasną metaforę „ukryta zmienna może zmienić kierunek”, ale po prostu nie widzę, jak uogólnienie działa matematycznie / precyzyjnie.

— Mitch

Masz ukryty czynnik kategoryczny, który powoduje, że „prawdziwe” dane podążają za dwiema kolorowymi liniami, ale bez wiedzy o nich dane wydają się podążać za linią przerywaną. Rozważ wypadki drogowe według wieku jako zmienne docelowe i zmienne osi X - bez kategorii. Wydają się spadać z wiekiem, prawda? Teraz dodaj „ukryty czynnik” „jazdy pod wpływem alkoholu”. Niebieska linia oznaczałaby „jazdę po pijanemu”, czerwona „jazdę po pijanemu”. Biorąc pod uwagę ten ukryty czynnik, skorelowany z młodością, wypadki rosną z wiekiem! (Nie jest to najbardziej realistyczny przykład, muszę przyznać, ale liczy się pomysł ...)

— jbowman

@jbowman To brzmi jak wyjaśnienie mylącego błędu zamiast SP. Może mówisz, że SP i dezorientacja są takie same. Ale to brzmi w kierunku odpowiedzi; może mógłbyś sformalizować to trochę bardziej i uściślić związek z SP (matematycznie wyjaśnić, jak linie regresji są jak porównania porównań w przypadku tabeli kontyngencji).

— Mitch

x

$x$

p

$p$

Odpowiedzi:

Paradoks polega na tym, że istnieją tabele nieprzewidziane 2x2x2 (Agresti, Categorical Data Analysis), w których powiązanie brzeżne ma inny kierunek niż każde powiązanie warunkowe [...] Czy brakuje mi subtelnej transformacji z oryginalnych przykładów tabel nieprzewidzianych Simpson / Yule w prawdziwe wartości uzasadniające wizualizację linii regresji?

Głównym problemem jest to, że utożsamiasz jeden prosty sposób pokazania paradoksu jako samego paradoksu. Prostym przykładem tabeli awaryjnej nie jest sam w sobie paradoks. Paradoks Simpsona dotyczy sprzecznych przyczynowych intuicji przy porównywaniu marginalnych i warunkowych skojarzeń, najczęściej ze względu na odwrócenie znaków (lub ekstremalne tłumienie, takie jak niezależność, jak w oryginalnym przykładzie podanym przez samego Simpsona , w którym nie ma odwrócenia znaku). Paradoks powstaje, gdy interpretujesz oba szacunki przyczynowo, co może prowadzić do różnych wniosków - czy leczenie pomaga czy krzywdzi pacjenta? A jakich szacunków powinieneś użyć?

$\frac{\partial E(Y|X)}{\partial X} > 0$ $\frac{\partial E(Y|X, C = c)}{\partial X} < 0, \forall c$

Z pewnością Simpson jest szczególnym przypadkiem mylącego błędu.

To jest niepoprawne! Paradoks Simpsona nie jest szczególnym przypadkiem mylącego błędu - gdyby tak było, wówczas w ogóle nie byłoby paradoksu. W końcu, jeśli jesteś pewien, że jakaś relacja jest zakłócona, nie zdziwiłbyś się widząc odwrócenie znaków lub osłabienie w tabelach awaryjnych lub współczynnikach regresji - może nawet byś tego oczekiwał.

Tak więc, chociaż paradoks Simpsona odnosi się do odwrócenia (lub skrajnego osłabienia) „efektów” przy porównywaniu skojarzeń marginalnych i warunkowych, może to nie wynikać z pomieszania i a priori nie można wiedzieć, czy tabela marginalna czy warunkowa jest „poprawna” „jeden do konsultacji, aby odpowiedzieć na twoje pytanie przyczynowe. Aby to zrobić, musisz dowiedzieć się więcej o przyczynowej strukturze problemu.

Rozważ te przykłady podane w Pearl :

$X$ $Y$ $Z$ $Z$ $Z$ $Z$ $Z$

Wyjaśnienie Pearl, dlaczego uznano to za „paradoks” i dlaczego nadal intryguje ludzi, jest bardzo prawdopodobne. Weźmy na przykład prosty przypadek przedstawiony w (a): efekty przyczynowe nie mogą tak po prostu odwrócić. Dlatego też, jeśli jesteśmy błędnie zakładając, że oba szacunki są przyczynowy (marginalna i warunkowe), chcielibyśmy być zaskoczony, aby zobaczyć coś takiego dzieje --- a ludzie wydają się być przewodowy zobaczyć związku przyczynowego w większości stowarzyszeń.

Wróćmy do głównego pytania (tytułowego):

Czy paradoks Simpsona obejmuje wszystkie przypadki odwrócenia się od ukrytej zmiennej?

W pewnym sensie jest to obecna definicja paradoksu Simpsona. Ale oczywiście zmienna warunkowa nie jest ukryta, należy ją obserwować, w przeciwnym razie nie zobaczysz paradoksu. Większość zagadkowej części paradoksu wynika z przyczyn przyczynowych, a ta „ukryta” zmienna niekoniecznie jest myląca.

Tabele zakaźności i regresja

$y$ $x$ $z$

$y$ $x$

\frac{a + b}{c + d} - \frac{e + f}{g + h} = \frac{c o v (y, x)}{v a r (x)}

$\frac{a+b}{c+d} - \frac{e+f}{g+h} = \frac{cov(y,x)}{var(x)}$

$z$ $z=1$

\frac{a}{c} - \frac{e}{g} = \frac{c o v (y, x | z = 1)}{v a r (x | z = 1)}

$\frac{a}{c} - \frac{e}{g} = \frac{cov(y,x|z =1)}{var(x|z=1)}$

$z =0$

\frac{b}{d} - \frac{f}{h} = \frac{c o v (y, x | z = 0)}{v a r (x | z = 0)}

$\frac{b}{d} - \frac{f}{h} = \frac{cov(y,x|z=0)}{var(x|z=0)}$

$\left(\frac{cov(y,x)}{var(x)}\right)$ $\left(\frac{cov(y,x|z)}{var(x|z)}\right)$ $\left(\frac{cov(y,x)}{var(x)}\right)$

— Carlos Cinelli
źródło

Wydaje się, że twoim zdaniem paradoks Simpsona odnosi się nie tylko do możliwości różnicy w powiązaniach marginalnych i warunkowych, ale także do pomyłki, która z nich jest „właściwa” przy interpretacji danych? I Pearl pokazuje, że struktura przyczynowa jest tym, czego powinniśmy użyć, aby podjąć taką decyzję?

— Paul

„Paradoks Simpsona dotyczy sprzecznych intuicji przy porównywaniu marginalnych i warunkowych skojarzeń”. Nie zgadzam się tutaj, paradoks Simpsona odnosi się konkretnie do przełomu przy porównywaniu surowych i stratyfikowanych wyników.

— AdamO,

@AdamO, podczas gdy większość ludzi używa skrajnego przypadku odwrócenia znaku jako „ścisłej” definicji paradoksu Simpsona, oryginalny przykład Simpsona faktycznie nie miał odwrócenia znaku.

— Carlos Cinelli,

@Paul to dokładnie prawda.

— Carlos Cinelli,

@AdamO Wydaje mi się, że wyjaśnienie Pearl, dlaczego uznano to za „paradoks” i dlaczego nadal intryguje ludzi, jest prawdopodobne. Na przykład w prostym przypadku (a) efekty przyczynowe nie mogą tak po prostu odwrócić. Dlatego też, jeśli myślimy przyczynowo w obu przypadkach, bylibyśmy zaskoczeni, widząc, że coś takiego się dzieje --- a ludzie wydają się być tak przygotowani, by dostrzec przyczynę w większości skojarzeń.

— Carlos Cinelli,

Czy brakuje mi subtelnej transformacji z oryginalnych przykładów tabel nieprzewidzianych Simpsona / Yule w rzeczywiste wartości uzasadniające wizualizację linii regresji?

Tak. Podobna reprezentacja analiz kategorycznych jest możliwa poprzez wizualizację logarytmicznych szans odpowiedzi na osi Y. Paradoks Simpsona pojawia się w podobny sposób, gdy „prymitywna” linia przebiega w stosunku do trendów specyficznych dla warstwy, ważonych w odległości zgodnie z logarytmicznymi szansami wyniku dla warstwy.

Oto przykład z danymi dotyczącymi przyjęć w Berkeley

Tutaj płeć jest kodem męsko-żeńskim, na osi X znajduje się prymitywny logarytm przyjęć dla mężczyzn w stosunku do kobiet, ciężka przerywana czarna linia pokazuje preferencje płci: dodatnie nachylenie sugeruje uprzedzenie w stosunku do przyjęć mężczyzn. Kolory reprezentują wstęp do określonych działów. We wszystkich przypadkach oprócz dwóch nachylenie linii preferencji płciowej dla danego działu jest ujemne. Jeśli wyniki te zostaną uśrednione razem w modelu logistycznym nie uwzględniającym interakcji, ogólnym efektem jest odwrócenie faworyzowania przyjęć kobiet. Stosowali się do trudniejszych działów częściej niż mężczyźni.

Z pewnością Simpson jest szczególnym przypadkiem mylącego błędu. Czy termin „paradoks Simpsona” jest teraz utożsamiany z mylącym błędem, tak więc bez względu na matematykę każdą zmianę kierunku za pomocą ukrytej zmiennej można nazwać paradoksem Simpsona?

W skrócie nie. Paradoks Simpsona jest jedynie „co”, podczas gdy mylące jest „dlaczego”. Dominująca dyskusja skupiła się na tym, gdzie się zgadzają. Zamieszanie może mieć minimalny lub nieistotny wpływ na oszacowania, a na przemian paradoks Simpsona, choć dramatyczny, może być spowodowany przez osoby nieprzeszkadzające. Uwaga: zmienne „ukryte” lub „czające się” są nieprecyzyjne. Z punktu widzenia epidemiologa staranna kontrola i projekt badań powinny umożliwić pomiar lub kontrolę potencjalnych czynników przyczyniających się do mylącego nastawienia. Nie muszą być „ukryte”, aby stanowić problem.

Są chwile, w których szacunki punktowe mogą się drastycznie różnić, aż do punktu odwrócenia, który nie wynika z pomyłki. Zderzacze i mediatorzy również zmieniają efekty, prawdopodobnie odwracając je. Rozumowanie przyczynowe ostrzega, że do badania efektów główny efekt powinien być badany w oderwaniu, a nie uwzględniać go, ponieważ oszacowanie warstwowe jest błędne. (Jest to podobne do wnioskowania, niepoprawnie, że wizyta u lekarza wywołuje zachorowanie lub że pistolety zabijają ludzi, a zatem ludzie nie zabijają ludzi).

— AdamO
źródło

Powiedziałbyś więc, że oryginalny przykład Simpsona nie jest przypadkiem „paradoksu Simpsona”?

— Carlos Cinelli,

@CarlosCinelli do jakiego przykładu chciałbyś się odwołać? Nie mam dostępu do pracy Simpsona z 1951 r., Ale biorąc pod uwagę, że została opublikowana w JRSS i nie ma odniesienia do zastosowanego przykładu w streszczeniu, wydaje się, że jest to praca czysto teoretyczna.

— AdamO,

Jest to numeryczny przykład w paragrafach 9 i 10, w którym podaje te same tabele zdarzeń z dwiema różnymi historiami, które doprowadziłyby do dwóch różnych interpretacji przyczynowych. W tym przykładzie nie ma odwrócenia znaku, jedynie marginalna niezależność.

— Carlos Cinelli,

Aby zobaczyć, dlaczego odwrócenie znaku jest tutaj nieistotne, po prostu wyobraź sobie sytuację, w której leczenie wykazuje niezwykle silny związek zarówno dla mężczyzn, jak i kobiet, ale pokazuje tylko niewielki związek w całej populacji. Nadal byłoby to paradoksalne dla większości ludzi, gdyby interpretowano je przyczynowo.

— Carlos Cinelli,

@CarlosCinelli Powiedziałbym, że to był przykład zakłopotania, ale nie paradoksu Simpsona per se, ale nie będę się nad tym zastanawiał, myślę, że podjąłeś dobry argument i być może miałem błędne założenia co do tego, co było, a co nie nieuchwytny fenomen Paradoksu Simpsona.

— AdamO,