Głównym celem regresji liniowej jest oszacowanie średniej różnicy wyników w porównaniu sąsiednich poziomów regresora. Istnieje wiele rodzajów środków. Najbardziej znamy średnią arytmetyczną.
AM(X)=(X1+X2+…+Xn)n
AM jest szacowany przy użyciu OLS i zmiennych nietransformowanych. Średnia geometryczna jest inna:
GM(X)=(X1×X2×…×Xn)−−−−−−−−−−−−−−−−−√n=exp(AM(log(X))
Praktycznie różnica GM jest różnicą multiplikatywną: płacisz X% premii odsetkowej przy zaciągnięciu pożyczki, poziom hemoglobiny zmniejsza się o X% po rozpoczęciu metforminy, wskaźnik awaryjności sprężyn zwiększa się o X% jako ułamek szerokości. We wszystkich tych przypadkach surowa średnia różnica ma mniej sensu.
Przekształcenie logu szacuje średnią geometryczną różnicę. Jeśli log przekształcenia wyników i model go w regresji liniowej stosując następującą specyfikację wzoru: log(y) ~ x
współczynnik jest średnia różnica w wynikach log porównywanie sąsiednich jednostek . Jest to praktycznie bezużyteczne, dlatego wykładnik parametru interpretujemy jako średnią geometryczną różnicę. X e β 1β1Xeβ1
Na przykład w badaniu miana wirusa HIV po 10 tygodniach podawania ART, możemy oszacować średnią geometryczną prepost . Oznacza to, że niezależnie od początkowego miana wirusa, było ono średnio o 60% niższe lub miało 0,6-krotny spadek w czasie obserwacji. Gdyby obciążenie wynosiło 10 000 w punkcie początkowym, mój model przewidywałby, że będzie to 4000 w czasie obserwacji, gdyby było 1000 w punkcie początkowym, mój model przewidywałby, że będzie to 400 w czasie obserwacji (mniejsza różnica w skali surowej, ale proporcjonalnie to samo).eβ1=0.40
Jest to ważne rozróżnienie od innych odpowiedzi : Konwencja mnożenia współczynnika skali logarytmicznej przez 100 wynika z przybliżenia gdy jest małe. Jeżeli współczynnik (w skali logarytmicznej) to znaczy, a następnie 0,05 , a interpretacja jest: 5% „wzrost” w wyniku dla 1 jednostka „wzrost” w . Jednakże, jeżeli współczynnik wynosi 0,5, a następnie i interpretuje to jako 65% „wzrost” w dla 1 jednostka „wzrost” w . NIE jest to wzrost o 50%.X exp ( 0,05 ) ≈ 1,05 X exp ( 0,5 ) = 1,65 Y Xlog(x)≈1−xXexp(0.05)≈1.05Xexp(0.5)=1.65YX
Załóżmy, że log przekształcić predyktorem: y ~ log(x, base=2)
. Tutaj interesuje mnie multiplikatywna zmiana a nie surowa różnica. I teraz jestem zainteresowany porównywanie uczestników różniących się 2-krotnie w . Załóżmy na przykład, że jestem zainteresowany pomiarem infekcji (tak / nie) po ekspozycji na patogen przenoszony przez krew w różnych stężeniach przy użyciu modelu ryzyka addytywnego. Model biologiczny może sugerować, że ryzyko wzrasta proporcjonalnie do każdego podwojenia stężenia. Następnie nie przekształcam swojego wyniku, ale szacowany współczynnik jest interpretowany jako różnica ryzyka porównująca grupy narażone na dwukrotne różnice stężeń materiału zakaźnego.X β 1xXβ1
Wreszcie, po log(y) ~ log(x)
prostu stosuje obie definicje, aby uzyskać mnożnikową różnicę porównującą grupy różniące się mnożnie poziomami narażenia.