Jak wyjaśnić różnicę między ryzykiem względnym a ryzykiem bezwzględnym?


12

Pewnego dnia miałem konsultację z epidemiologiem. Jest doktorem medycyny ze stopniem zdrowia publicznego w dziedzinie epidemiologii i ma dużą wiedzę statystyczną. Doradza swoim pracownikom badawczym i rezydentom oraz pomaga im w kwestiach statystycznych. Całkiem dobrze rozumie testowanie hipotez. Miała typowy problem z porównaniem dwóch grup, aby sprawdzić, czy istnieje różnica w ryzyku związanym z wystąpieniem zastoinowej niewydolności serca (CHF). Zbadała średnią różnicę w odsetku pacjentów otrzymujących CHF. Wartość p wynosiła 0,08. Następnie postanowiła spojrzeć na ryzyko względne i uzyskała wartość p wynoszącą 0,027. Zapytała więc, dlaczego jedno jest ważne, a drugie nie. Patrząc na 95% dwustronne przedziały ufności dla różnicy i dla stosunku, zauważyła, że ​​średni przedział różnicy zawierał 0, ale górny limit ufności dla tego współczynnika był mniejszy niż 1. Dlaczego więc otrzymujemy niespójne wyniki. Moja odpowiedź, choć technicznie poprawna, nie była zbyt satysfakcjonująca. Powiedziałem: „Są to różne statystyki i mogą dawać różne wyniki. Obie wartości p mieszczą się w obszarze marginalnie znaczącym. Może się to łatwo zdarzyć”. Myślę, że muszą istnieć lepsze sposoby, aby odpowiedzieć lekarzom na to pytanie, aby pomóc im zrozumieć różnicę między testowaniem ryzyka względnego a ryzykiem bezwzględnym. W badaniach epi problem ten pojawia się bardzo często, ponieważ często przyglądają się rzadkim zdarzeniom, w których częstość występowania w obu grupach jest bardzo mała, a wielkość próby nie jest bardzo duża. Pomyślałem o tym trochę i mam kilka pomysłów, którymi się podzielę. Ale najpierw chciałbym usłyszeć, jak niektórzy z was sobie z tym poradzą. Wiem, że wielu z was pracuje lub konsultuje się w dziedzinie medycyny i prawdopodobnie musieli zmierzyć się z tym problemem. Co byś zrobił?


Czy modele uwzględniają inne zmienne towarzyszące oprócz efektu grupy?
onestop

@onstop Istnieją zmienne towarzyszące, którymi są zainteresowani, ale rzeczywisty test polegał jedynie na porównaniu głównego efektu. Jeśli chcesz skomentować, zakładając, że test był oparty na modelu regresji lub zdarzeniu, załóż, że mieliśmy czas na dane zdarzenia pasujące do modelu regresji Coxa, prosimy o komentarz. Chciałbym usłyszeć twoje spostrzeżenia. Moje pytanie dotyczy ogólnego problemu, a nie tylko konkretnego przykładu.
Michael R. Chernick

Miałem na myśli, czy test porównujący główny (grupowy) efekt został dostosowany do zmiennych towarzyszących, czy nieskorygowany? Jeśli nie zostanie skorygowany, pomocne może być przekazanie nam tabeli 2 × 2 lub podobnej do skupienia pomysłów.
onestop

Nie dostosowano do tych konkretnych testów.
Michael R. Chernick

Odpowiedzi:


7

Cóż, z tego, co już powiedziałeś, wydaje mi się, że większość z nich została uwzględniona, ale po prostu musisz to ująć w jej języku: jeden to różnica ryzyka, jeden to stosunek. Zatem jeden test hipotez pyta, czy podczas gdy drugi pyta, czy p 2p2)-p1=0. Czasami są one „bliskie”, czasem nie. (Zamknij w cudzysłów, ponieważ wyraźnie nie są one zbliżone w zwykłym znaczeniu arytmetycznym). Jeśli ryzyko jest rzadkie, zwykle są one „daleko od siebie”. np..002/.001=2(daleko od 1), podczas gdy.002-.001=.001(blisko 0); ale jeśli ryzyko jest wysokie, wówczas są one „bliskie”:.2/.1=2(daleko od 0) i.2-.1=.1(również daleko od 0, przynajmniej w porównaniu z rzadkim przypadkiem.p2)p1=1.002/.001=2).002-.001=.001.2/.1=2).2-.1=.1


2
Masz jeden z moich pomysłów, gdy liczba jest niewielka, co jest powszechne w badaniu niskich częstości występowania, różnice wydają się małe, ale wskaźniki nadal wydają się duże. Twój numeryczny przykład jest bardzo przekonujący. Kusi mnie, aby dodać coś o stabilności szacunków w ramach hipotezy zerowej. Dla niektórych może to być zbyt techniczne, ale na jej poziomie zaawansowania może nie. Załóżmy, że dwie populacje mają nominalne rozkłady oznaczają zero i znaną powszechną wariancję. Następnie znormalizowana różnica wynosi N (0,1) pod hipotezą zerową, co daje bardzo stabilną statystykę testową.
Michael R. Chernick

1
Ale przy tych założeniach stosunek ma rozkład Cauchy'ego i może być bardzo duży. Być może ten argument wymaga modyfikacji, ponieważ częstości występowania muszą być dodatnie i być może rozkład jest bardzo wypaczony. Wydaje mi się, że to, czego chcę, to przykład pokazujący, że różnica ma bardzo stabilny rozkład, a stosunek nie jest szczególnie, ponieważ wielkość próbki jest niewielka, a mianownik może być bardzo bliski 0. Czy ktoś ma dobry przykład ilustrujący?
Michael R. Chernick

@Peter Czy chodziło Ci napisać trzy nie s dwa? Jeśli tak, czy mógłbyś zdefiniować swój zapis? pja
onestop

Myślę, że miał na myśli p1, kiedy napisał p0. Tylko podstawowy błąd. Posiadanie trzech ps w tym kontekście nie ma sensu.
Michael R. Chernick

1
Dokonałem zmiany dla Petera. Krzycz na mnie, gdybym zrobił coś złego!
Michael R. Chernick

6

Pamiętaj, że w obu testach testujesz zupełnie inną hipotezę przy różnych założeniach. Wyniki nie są porównywalne i jest to zbyt powszechny błąd.

W ryzyku bezwzględnym testujesz, czy (średnia) różnica proporcji różni się znacznie od zera. Hipoteza leżąca u podstaw tego standardowego testu zakłada, że ​​różnice w proporcjach są zwykle rozkładane. Może to dotyczyć małych proporcji, ale nie dużych. Technicznie oblicza się następujące prawdopodobieństwo warunkowe:

P.(p1-p2)=0|X)

p1p2)Xb

p=za+bX+ϵ

ϵN.(0,σ)

X

P.(losol(p1p2))=0|X)

co jest równoważne z testowaniem nachylenia w następującym modelu logistycznym:

losol(p1-p)=za+bX+ϵ

losol(p1-p)

Powód, dla którego to robi różnicę, podano w odpowiedzi Petera Floma: niewielka różnica w bezwzględnym ryzyku może prowadzić do dużej wartości szans. W twoim przypadku oznacza to, że odsetek osób zarażonych chorobą nie różni się znacznie, ale prawdopodobieństwo bycia w jednej grupie jest znacznie większe niż prawdopodobieństwo bycia w drugiej grupie. To jest całkowicie rozsądne.


1
Myślę, że jak dotąd wszyscy zgadzamy się, że główną przyczyną problemu jest to, że niewielkie różnice w ryzyku bezwzględnym mogą prowadzić do dużych różnic w ryzyku względnym. W końcu .2 do 1 ma takie samo ryzyko względne jak 0,0002 do 0,0001. Myślę, że to przesłanie możemy przekazać laikowi do domu. Twoje wyjaśnienie jest świetne dla statystyków, ale nie jestem pewien, czy zrozumiałoby to dla laika i można by powiedzieć: „A co jeśli przetestujesz inną hipotezę.
Michael R. Chernick

Nadal próbujesz ustalić, gdzie stawki są różne. Nawet jeśli hipotezy są różne, wyniki powinny być spójne. W końcu p1-p2 = 0 jest tym samym, co p1 / p2 = 1. „Myślę więc, że różne hipotezy pomijają sens i nie są zadowalającym wyjaśnieniem.
Michael R. Chernick

@MichaelChernick Już miałem powiedzieć, że różnice proporcji są warunkowe, a iloraz szans nie. Ale tak nie jest, oba dają dokładnie taki sam wynik po transponowaniu tabeli (w przypadku tabeli 2X2). Przeprowadziłem kilka symulacji, ale nie mogę wymusić wartości p prop.test(lub chisq.testtak jak w przypadku 2x2) i fisher.testbyć w odległości większej niż 0,005. Zastanawiam się więc, jakich testów użyła ...
Joris Meys

Byłby to albo chi kwadrat, albo test Fishera. Najprawdopodobniej test Fishera, ponieważ w małych próbkach wie, że przybliżenie chi-kwadrat nie jest dobre. Kiedy robię dla nich statystyki, używam SAS. Wykonała swoją pracę przy użyciu STATA. Prawdopodobnie mogę wykopać właściwy stół.
Michael R. Chernick

2
losol(p1p0)=losol(p1)-losol(p0)p1-p0
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.