Model liniowy z odpowiedzią przekształconą logarytmicznie a uogólniony model liniowy z łączem logarytmicznym


46

W artykule zatytułowanym „WYBÓR WŚRÓD OGÓLNYCH MODELI LINIOWYCH STOSOWANYCH DO DANYCH MEDYCZNYCH” autorzy piszą:

W uogólnionym modelu liniowym średnia jest przekształcana przez funkcję link, zamiast przekształcać samą odpowiedź. Dwie metody transformacji mogą prowadzić do zupełnie różnych wyników; na przykład średnia odpowiedzi transformowanych logarytmicznie nie jest taka sama jak logarytm średniej odpowiedzi . Ogólnie rzecz biorąc, tego pierwszego nie można łatwo przekształcić w średnią odpowiedź. Tak więc przekształcenie średniej często pozwala na łatwiejszą interpretację wyników, zwłaszcza w tym, że średnie parametry pozostają w tej samej skali co mierzone odpowiedzi.

Wydaje się, że zalecają dopasowanie uogólnionego modelu liniowego (GLM) z łączem logarytmicznym zamiast modelu liniowego (LM) z odpowiedzią transformowaną logarytmicznie. Nie rozumiem zalet tego podejścia i wydaje mi się to dość niezwykłe.

Moja zmienna odpowiedzi wygląda na log-normalnie rozłożoną. Otrzymuję podobne wyniki pod względem współczynników i ich standardowych błędów przy obu podejściach.

Nadal zastanawiam się: jeśli zmienna ma rozkład logarytmiczno-normalny, to czy nie jest lepsza średnia zmiennej transformowanej logarytmicznie niż log średniej zmiennej nietransformowanej , ponieważ średnia jest naturalnym podsumowaniem rozkładu normalnego i log -transformowana zmienna jest zwykle rozkładana, podczas gdy sama zmienna nie jest?


3
Zgadzam się z twoją wskazówką, jeśli mamy logarytmiczną zmienną rozproszoną. Jednak średnia potrzeba „wstecznej transformacji”, aby uzyskać łatwo zrozumiałą statystykę opartą na oryginalnej skali danych. To może wyjaśniać konkluzję artykułu. Ponadto po transformacji logów możemy nie otrzymać normalnie dystrybuowanej zmiennej iw tym przypadku nie wiem, które podejście byłoby lepsze.
soufanom

Odpowiedzi:


46

Chociaż może się wydawać, że średnia zmiennych przekształcanych logarytmicznie jest lepsza (ponieważ w ten sposób logarytm normalny jest zwykle parametryzowany), z praktycznego punktu widzenia log średniej jest zwykle znacznie bardziej użyteczny.

Jest to szczególnie prawdziwe, gdy twój model nie jest dokładnie poprawny, i cytując George'a Boxa: „Wszystkie modele są złe, niektóre są przydatne”

Załóżmy, że pewna ilość to log normalnie rozłożony, ciśnienie krwi mówi (nie jestem medykiem!), A mamy dwie populacje, mężczyzn i kobiet. Można postawić hipotezę, że średnie ciśnienie krwi jest wyższe u kobiet niż u mężczyzn. To dokładnie odpowiada pytaniu, czy log średniego ciśnienia krwi jest wyższy u kobiet niż u mężczyzn. To nie to samo, co pytanie, czy średnia wartość logarytmicznego ciśnienia krwi jest wyższa u kobiet niż u mężczyzn .

Nie daj się zwieść parametryzowanemu rozkładowi podręczników - nie ma on żadnego „rzeczywistego” znaczenia. Rozkład log-normalny jest parametryzowany za pomocą logarytmu ( ) ze względu na matematyczną wygodę, ale równie dobrze moglibyśmy sparametryzować go za pomocą jego rzeczywistej średniej i wariancjiμln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

Oczywiście, czyniąc to, algebra jest strasznie skomplikowana, ale nadal działa i oznacza to samo.

Patrząc na powyższą formułę, widzimy ważną różnicę między przekształcaniem zmiennych a przekształcaniem średniej. Log średniej, , rośnie wraz ze wzrostem , podczas gdy średnia logu, nie.σ 2 ln μ lnln(μ)σln2μln

Oznacza to, że kobiety mogą mieć średnio wyższe ciśnienie krwi niż mężczyźni, mimo że średnia para log normalnego rozkładu ( ) jest taka sama, po prostu dlatego, że parametr wariancji jest większy. Fakt ten zostałby pominięty w teście wykorzystującym log (ciśnienie krwi).μln

Do tej pory zakładaliśmy, że ciśnienie krwi rzeczywiście jest log-normalne. Jeśli prawdziwe rozkłady nie są całkiem logiczne, wówczas transformacja danych (zwykle) pogorszy sytuację - ponieważ nie będziemy do końca wiedzieć, co tak naprawdę oznacza nasz parametr „średni”. Tzn. Nie poznamy tych dwóch równań dla średniej i wariancji, które podałem powyżej, są poprawne. Użycie ich do przekształcenia tam iz powrotem spowoduje dodatkowe błędy.



2
Corone, podkreśliłem dwa ważne zdania w twojej odpowiedzi. Mam nadzieję, że nie masz nic przeciwko. Jeśli się nie zgadzasz, wycofaj się.
Stefan

17

Oto moje dwa centy z kursu zaawansowanej analizy danych, który podjąłem podczas studiów biostatystycznych (chociaż nie mam żadnych referencji innych niż notatki mojego profesora):

Sprowadza się to do tego, czy musisz zająć się liniowością i heteroscedastycznością (nierównymi wariancjami) w swoich danych, czy po prostu liniowością.

Zauważa, że ​​przekształcenie danych wpływa zarówno na założenia liniowości, jak i wariancji modelu. Na przykład, jeśli twoje resztki wykazują problemy z obydwoma, możesz rozważyć przekształcenie danych, co potencjalnie może rozwiązać oba. Transformacja przekształca błędy, a tym samym ich wariancję.

Natomiast użycie funkcji link wpływa tylko na założenie liniowości, a nie na wariancję. Log jest pobierany ze średniej (wartości oczekiwanej), a zatem nie ma wpływu na wariancję reszt.

Podsumowując, jeśli nie masz problemu z niestałą wariancją, sugeruje ona użycie funkcji link zamiast transformacji, ponieważ w tym przypadku nie chcesz zmieniać swojej wariancji (już spełniasz założenie).


6
Podczas gdy funkcja link wpływa tylko na średnią, funkcja link jest tylko jedną częścią GLM. Twoje komentarze działają dla gaussowskiego glm z linkiem do dziennika. Gamma GLM z linkiem dziennika będzie miał taką samą założenie wariancji-funkcyjny (wariancji proporcjonalna do kwadratu) oznacza, jak biorąc dzienniki i zamontowanie stałej wariancji na tej skali logarytmicznej. Inne rodziny w ramach GLM będą miały inne funkcje wariancji. Niestety, tabela na stronie Wikipedii dla GLM pomija funkcje wariancji dla rodzin dystrybucji, które daje.
Glen_b

2
Podają tu jednak kilka przykładów . Oto gamma
Glen_b

-1

Jeśli prawdziwa odpowiedź nie jest symetryczna (nie rozkłada się normalnie), ale odpowiedź transformowana logarytmicznie jest normalna, wówczas stosuje się regresję liniową po transformacji odpowiedzi, a współczynnik wykładniczy daje nam stosunek średniej geometrycznej.

Jeśli odpowiedź jest symetryczna (rozkład normalny), ale zależność między wyjaśnieniem (X) a odpowiedzią nie jest liniowa, ale log oczekiwana wartość jest funkcją liniową X, wówczas należy zastosować GLM z logarytmem i współczynnik wykładniczy daje nam stosunek średniej arytmetycznej


Ta odpowiedź nie jest jasna. Miałeś na myśli „zmienną”, a nie „prawdziwą”?
Michael Chernick

To jest fragment odpowiedzi. Musisz wyjaśnić, w jaki sposób odnosi się to do pytania i jaka w rzeczywistości odpowiedź na pytanie opiera się na tej wiedzy.
ReneBt
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.