Poniżej znajduje się pytanie dotyczące wielu wizualizacji przedstawionych jako „dowód za obrazem” istnienia paradoksu Simpsona i być może pytanie dotyczące terminologii.
Paradoks Simpsona jest dość prostym zjawiskiem, które można opisać i podać numeryczne przykłady (powód, dla którego może się to zdarzyć, jest głęboki i interesujący). Paradoks polega na tym, że istnieją tabele warunkowe 2x2x2 (Agresti, Analiza danych kategorialnych), w których powiązanie brzeżne ma inny kierunek niż każde powiązanie warunkowe.
Oznacza to, że porównanie wskaźników w dwóch subpopulacjach może iść w jednym kierunku, ale porównanie w połączonej populacji idzie w innym kierunku. W symbolach:
Istnieją takie, że a + b
ale oraz
Jest to dokładnie przedstawione w następującej wizualizacji (z Wikipedii ):
Ułamek jest po prostu nachyleniem odpowiednich wektorów i łatwo zauważyć w przykładzie, że krótsze wektory B mają większe nachylenie niż odpowiadające wektory L, ale połączony wektor B ma mniejsze nachylenie niż połączony wektor L.
Istnieje bardzo powszechna wizualizacja w wielu formach, szczególnie w przedniej części tej Wikipedii na stronie Simpsona:
To świetny przykład pomieszania, w jaki sposób ukryta zmienna (która oddziela dwie subpopulacje) może wykazywać inny wzorzec.
Jednak matematycznie taki obraz w żaden sposób nie wyświetla tabel awaryjnych, które są podstawą zjawiska znanego jako paradoks Simpsona . Po pierwsze, linie regresji są nad danymi z zestawu punktów o wartościach rzeczywistych, a nie zliczają danych z tabeli awaryjnej.
Można również tworzyć zestawy danych z dowolną relacją nachyleń w liniach regresji, ale w tabelach awaryjnych istnieje ograniczenie, jak różne mogą być nachylenia. Oznacza to, że linia regresji populacji może być ortogonalna do wszystkich regresji danych subpopulacji. Ale w paradoksie Simpsona proporcje subpopulacji, choć nie nachylenie regresji, nie mogą zbytnio oddalić się od mieszanej populacji, nawet jeśli w przeciwnym kierunku (ponownie, patrz porównanie obrazu z Wikipedii).
Dla mnie to wystarczy, aby być zaskoczonym za każdym razem, gdy widzę ten ostatni obraz jako wizualizację paradoksu Simpsona. Ale ponieważ widzę przykłady (które nazywam źle) wszędzie, jestem ciekawy, aby wiedzieć:
- Czy brakuje mi subtelnej transformacji z oryginalnych przykładów tabel nieprzewidzianych Simpsona / Yule w rzeczywiste wartości uzasadniające wizualizację linii regresji?
- Z pewnością Simpson jest szczególnym przypadkiem mylącego błędu. Czy termin „paradoks Simpsona” jest teraz utożsamiany z mylącym błędem, tak więc bez względu na matematykę każdą zmianę kierunku za pomocą ukrytej zmiennej można nazwać paradoksem Simpsona?
Dodatek: Oto przykład uogólnienia na tablicę 2xmxn (lub 2 na metr ciągłą):
Jeśli połączysz rodzaj strzału, wygląda na to, że gracz wykonuje więcej strzałów, gdy obrońcy są bliżej. Pogrupowane według rodzaju strzału (naprawdę odległość od kosza), im bardziej intuicyjnie spodziewana sytuacja, im więcej strzałów, tym bardziej obrońcy są dalej.
Ten obraz uważam za uogólnienie Simpsona w bardziej ciągłą sytuację (dystans obrońców). Ale wciąż nie rozumiem, jak przykład linii regresji jest przykładem Simpsona.