Wyjaśnij dostosowanie modelu, w prostym języku angielskim

14

Czytając o metodach i wynikach analizy statystycznej, szczególnie w epidemiologii, bardzo często słyszę o dostosowaniu lub kontroli modeli.

Jak wytłumaczyłbyś niestatystycznemu cel tego? Jak interpretujesz swoje wyniki po kontrolowaniu pewnej zmiennej?

Mały spacer po Stata lub R, lub wskaźnik do jednego online, byłby prawdziwym klejnotem.

regression modeling epidemiology

— radek
źródło

29

Najłatwiej wyjaśnić na przykładzie:

Wyobraź sobie, że badania pokazują, że osoby, które oglądały finał Pucharu Świata częściej cierpiały na zawał serca podczas meczu lub w ciągu kolejnych 24 godzin niż ci, którzy go nie oglądali. Czy rząd powinien zakazać piłkarskiej telewizji? Ale mężczyźni częściej oglądają piłkę nożną niż kobiety, a mężczyźni częściej mają zawał serca niż kobiety. Tak więc związek między oglądaniem piłki nożnej a atakami serca można wyjaśnić trzecim czynnikiem, takim jak seks, który wpływa na oba te czynniki . (Socjologowie rozróżniliby tutaj płeć , kulturową konstrukcję związaną z oglądaniem piłki nożnej i seks, kategoria biologiczna związana z występowaniem zawału serca, ale te dwie są wyraźne, bardzo silnie skorelowane, więc dla uproszczenia zignoruję to rozróżnienie).

Statystycy, a zwłaszcza epidemiologowie, nazywają taki trzeci czynnik pomieszaczem , a zjawisko mylącym . Najbardziej oczywistym sposobem na rozwiązanie tego problemu jest przyjrzenie się związkowi między oglądaniem piłki nożnej a występowaniem zawału serca u mężczyzn i kobiet osobno lub w żargonie, w celu podziału według płci. Jeśli stwierdzimy, że związek (jeśli nadal istnieje) jest podobny u obu płci, możemy wówczas wybrać połączenie dwóch oszacowań związku dla obu płci. Wynikające stąd oszacowanie związku między oglądaniem piłki nożnej a występowaniem zawału serca jest następnie korygowane lub kontrolowane pod kątem seksu.

Prawdopodobnie chcielibyśmy również kontrolować inne czynniki w ten sam sposób. Wiek jest kolejnym oczywistym (w rzeczywistości epidemiolodzy albo stratyfikują, albo korygują / kontrolują prawie każdy związek według wieku i płci). Klasa społeczno-ekonomiczna jest prawdopodobnie inną. Inni mogą stać się trudniejsi, np. Czy powinniśmy dostosować się do konsumpcji piwa podczas oglądania meczu? Może tak, jeśli interesuje nas stres związany z oglądaniem pojedynku; ale może nie, jeśli zastanowimy się nad zakazem nadawania piłki nożnej na Mistrzostwach Świata, co zmniejszyłoby również spożycie piwa. To, czy dana zmienna jest pomieszana, czy nie, zależy dokładnie od pytania, na które chcemy odpowiedzieć, a to może wymagać bardzo dokładnego przemyślenia i stać się dość skomplikowane, a nawet sporne.

Oczywiście możemy chcieć dostosować / kontrolować kilka czynników, z których niektóre mogą być mierzone w kilku kategoriach (np. Klasa społeczna), podczas gdy inne mogą być ciągłe (np. Wiek). Moglibyśmy poradzić sobie z ciągłymi, dzieląc je na grupy (wiekowe), a tym samym przekształcając je w kategorie jakościowe. Powiedzmy, że mamy 2 płcie, 5 grup społecznych i 7 grup wiekowych. Możemy teraz spojrzeć na związek między oglądaniem piłki nożnej a występowaniem zawału serca w warstwach 2 × 5 × 7 = 70. Ale jeśli nasze badanie jest dość małe, więc niektóre z tych warstw zawierają bardzo niewiele osób, napotkamy problemy z tym podejściem. W praktyce możemy chcieć dostosować kilkanaście lub więcej zmiennych. Alternatywny sposób dostosowania / kontrolowania zmiennych, który jest szczególnie przydatny, gdy jest ich wiele, zapewnia analiza regresjiz wieloma zmiennymi zależnymi, czasami znanymi jako analiza regresji wielowymiarowej . (Istnieją różne typy modeli regresji w zależności od rodzaju zmiennej wyniku: regresja metodą najmniejszych kwadratów, regresja logistyczna, regresja hazardu proporcjonalnego (Cox) ...). W badaniach obserwacyjnych, w przeciwieństwie do eksperymentów, prawie zawsze chcemy dostosować się do wielu potencjalnych czynników zakłócających, więc w praktyce korekta / kontrola dla czynników zakłócających jest często dokonywana przez analizę regresji, chociaż istnieją też inne alternatywy, takie jak standaryzacja, ważenie, skłonność dopasowywanie wyników ...

— jeden przystanek
źródło

3

+1 (chociaż zasługuje przynajmniej na +3) - bardzo dokładny i kompleksowy. Sprawiło, że cała sprawa stała się dla mnie bardziej przejrzysta. Dzięki!

— radek

„Alternatywny sposób dostosowywania / kontrolowania zmiennych, który jest szczególnie przydatny, gdy jest ich wiele, zapewnia analiza regresji z wieloma zmiennymi zależnymi, czasami znana jako analiza regresji wielowymiarowej”. czy to ma być „niezależne”, czy też nie rozumiem? i czy w tym przypadku jest bardziej powszechny żargon, „regresja wielokrotna”? (wiem, że jest to dyskusyjne)

— Richard DiSalvo

10

Onestop wyjaśnił to całkiem dobrze, dam prosty przykład R z gotowymi danymi. Powiedzmy, że x to waga, ay to wzrost, i chcemy dowiedzieć się, czy istnieje różnica między mężczyznami i kobietami:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

Widać, że bez kontroli wagi (w anova (lm1)) istnieje bardzo niewielka różnica między płciami, ale kiedy waga jest uwzględniona jako zmienna towarzysząca (kontrolowana w lm2), różnica staje się bardziej widoczna.

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)

— Matt Albrecht
źródło