Oto ogólne podejście do algebraicznego rozumienia paradoksu Simpsona dla danych zliczania.
Załóżmy, że mamy dane dotyczące przeżycia dla ekspozycji i tworzymy tabelę zdarzeń awaryjnych 2x2. Dla uproszczenia będziemy mieć takie same liczby w każdej komórce. Moglibyśmy to rozluźnić, ale spowodowałoby to bałagan w algebrze.
NarażonyNienaświetlonyZmarłyXXPrzetrwałXXŚmiertelność0,50,5
W tym przypadku wskaźnik śmiertelności jest taki sam zarówno w grupach narażonych, jak i nienaświetlonych.
Teraz, jeśli podzielimy dane, powiedzmy na jedną grupę dla kobiet i inną grupę dla mężczyzn, otrzymamy 2 tabele, z następującymi liczbami:
Mężczyźni:
NarażonyNienaświetlonyZmarłyXzaXdoPrzetrwałXbXreŚmiertelnośćzaa + bdoc + d
a dla kobiet:
NarażonyNienaświetlonyZmarłyX( a - 1 )X( c - 1 )PrzetrwałX( b - 1 )X( d- 1 )Śmiertelnośća - 1a + b - 2c - 1c + d- 2
gdzie a , b , c , d∈ [ 0 , 1 ] to proporcje każdej komórki w zagregowanej tabeli danych, które są płci męskiej.
Paradoks Simpsona pojawi się, gdy śmiertelność narażonych mężczyzn będzie większa niż śmiertelność nienaświetlonych mężczyzn ORAZ śmiertelność narażonych kobiet jest większa niż śmiertelność nieeksponowanych kobiet. Alternatywnie, nastąpi to również wtedy, gdy śmiertelność narażonych mężczyzn jest mniejsza niż śmiertelność nienaświetlonych mężczyzn ORAZ śmiertelność narażonych kobiet jest mniejsza niż śmiertelność nieeksponowanych kobiet. To jest, kiedy
( aa + b< cc + d) i ( a - 1a + b - 2< c - 1c + d- 2)
Lub
( aa + b> cc + d) i ( a - 1a + b - 2> c - 1c + d- 2)
Jako konkretny przykład niech X= 100 , a a=0.5,b=0.8,c=0.9 . Będziemy mieli paradoks Simpsona, gdy:
(0.50.8+0.9<0.90.9+d) and (0.5−10.5+0.8−2<0.9−10.9+d−2)
(−9<d<1.44) and (0.96<d<1.1)
Z którego wnioskujemy, że d musi leżeć (0.96,1]
Drugi zestaw nierówności daje:
(0.50.8+0.9>0.90.9+d) and (0.5−10.5+0.8−2> 0,9 - 10,9 + d- 2)
( d< - 0,9 lub d> 1,44 ) i ( 0,96 < d lub d> 1,44 )
re∈ [ 0 , 1 ]
a , b ,dore0,99
0,5 / ( 0,5 + 0,8 ) = 38 % w grupie narażonej
0,9 / ( 0,9 + 0,99 ) = 48 % w grupie nienaświetlonej
a dla kobiet:
( 0,5 - 1 ) / ( 0,5 + 0,8 - 2 ) = 71 % w grupie narażonej
( 0,9 - 1 ) / ( 0,9 + 0,99 - 2 ) = 91 % w grupie nienaświetlonej
Tak więc mężczyźni mają wyższą śmiertelność w grupie nie narażonej niż w grupie narażonej, a kobiety również mają wyższy wskaźnik śmiertelności w grupie nie narażonej niż grupa narażona, jednak wskaźniki zgonów w danych zbiorczych są takie same dla narażonych i nienaświetlonych .