Interpretowanie proporcji, które sumują się jako jedna zmienna niezależna w regresji liniowej


13

Znam pojęcie zmiennych kategorialnych i odpowiednie kodowanie zmiennych zastępczych, które pozwalają nam dopasować jeden poziom jako poziom podstawowy, aby uniknąć kolinearności. Znam również sposób interpretacji oszacowań parametrów z takich modeli: Przewidywana zmiana wyniku dla danego dopasowanego poziomu predyktora jakościowego w stosunku do kategorii podstawowej.

Nie jestem pewien, jak interpretować zestaw niezależnych zmiennych, które są proporcjami, które sumują się do jednego . Ponownie mamy kolinearność, jeśli dopasujemy wszystkie proporcje w modelu, więc prawdopodobnie musielibyśmy pominąć jedną kategorię jako linię bazową. Zakładam również, że spojrzałbym na SS typu III dla ogólnego testu istotności tej zmiennej. Jak jednak interpretujemy oszacowania parametrów dla tych poziomów pasujących do modelu w porównaniu z wartościami uznanymi za wyjściowe?

Przykład : na poziomie kodu pocztowego zmienną niezależną jest proporcja skał metamorficznych, magmowych i osadowych. Jak zapewne wiesz, są to trzy główne rodzaje skał, a wszystkie skały są sklasyfikowane jako jeden z nich. W związku z tym proporcje wszystkich trzech sumują się do 1. Wynikiem jest średni poziom radonu w odpowiednim kodzie pocztowym.

Gdybym dopasował, powiedzmy, proporcje metamorficzne i magmowe jako predyktory w modelu, pozostawiając osad jako linię bazową, ogólny test SS F typu III z dwóch dopasowanych poziomów oznaczałby, czy rodzaj skały jako całości jest ważny predyktor wyniku (średni poziom radonu). Następnie mogłem spojrzeć na poszczególne wartości p (w oparciu o rozkład t ), aby ustalić, czy jeden lub oba rodzaje skał różniły się znacząco od linii podstawowej.

Jednak jeśli chodzi o oszacowania parametrów, mój mózg wciąż chce interpretować je wyłącznie jako przewidywaną zmianę wyniku między grupami (rodzaje skał) i nie rozumiem, jak uwzględnić fakt, że są one odpowiednie jako proporcje .

Jeśli oszacowanie dla metamorfizmu wynosi , powiedzmy, 0,43, interpretacja nie polega po prostu na tym, że przewidywany średni poziom radonu wzrasta o 0,43 jednostki, gdy skała jest metamorficzna w porównaniu z osadową. Jednak interpretacja ta nie dotyczy tylko pewnego rodzaju wzrostu jednostki (powiedzmy 0,1) w proporcji rodzaju skały metamorficznej, ponieważ nie odzwierciedla to faktu, że jest ona również zależna od linii podstawowej ( osadowej ), a ponadto zmiany proporcja metamorficzna z natury zmienia proporcję dopasowania drugiego poziomu skały w modelu, magmowa .β

Czy ktoś ma źródło, które zapewnia interpretację takiego modelu, czy mógłbyś podać tutaj krótki przykład, jeśli nie?


2
+1 Często proporcje nie mają liniowych zależności z odpowiedzią. Jeżeli zmiany parametrów, takie jak π i = exp ( λ i )(π1,π2),,πk)
πja=exp(λja)exp(λ1)++exp(λk)

1
Nie, ale przypuszczam, że będzie to problematyczne, zwłaszcza, że ​​wiele „proporcji” faktycznie wyszło jako 0 i 1 lub wartości bardzo zbliżone do 0 i 1, a zatem i tak działają w zasadzie jako binarne. W związku z tym prawdopodobnie utworzymy z nich rzeczywiste grupy (i pozbędziemy się proporcji), ale nadal wzbudziło moje zainteresowanie hipotetyczną poprawną interpretacją.
Meg

W porządku - to dobre pytanie.
whuber

2
λjaπ
log(πja/πjot)=λja-λjot.
πjaλja-λjotkk-1λjaπja=0πja=1

2
λja=log(πja)
log(πja/πjot)=λja-λjot
exp(λja)exp(λ1)++exp(λk)=πjaπ1+π2)++πk=π11=πja

Odpowiedzi:


8

Jako kontynuacja i, moim zdaniem, prawidłowa odpowiedź (wydaje mi się rozsądna): wysłałem to pytanie do usługi list ASA Connect i otrzymałem następującą odpowiedź od Thomasa Sextona z Stony Brook:

„Twój szacowany model regresji liniowej wygląda następująco:

ln (Radon) = (wyrażenie liniowe w innych zmiennych) + 0,43 M + 0,92 I

gdzie M i ja reprezentują odpowiednio procent skał metamorficznych i magmowych w kodzie pocztowym. Jesteś ograniczony przez:

M + I + S = 100

gdzie S oznacza procent skał osadowych w kodzie pocztowym.

Interpretacja 0,43 jest taka, że ​​wzrost M o jeden punkt procentowy jest związany ze wzrostem o 0,43 in ln (Radon), w którym wszystkie pozostałe zmienne w modelu są ustalone . Zatem wartość I nie może się zmienić, a jedynym sposobem na zwiększenie M o jeden punkt procentowy przy spełnieniu tego ograniczenia jest zmniejszenie S o jeden punkt procentowy, kategorii pominiętej.

Oczywiście zmiana ta nie może wystąpić w kodach pocztowych, w których S = 0, ale w takich kodach pocztowych możliwy byłby spadek M i odpowiedni wzrost S ”.

Oto link do wątku ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561-4427476dambfsff

Podaję to jako przyjętą poprawną odpowiedź, ale nadal jestem otwarty na dalszą dyskusję, jeśli ktoś ma coś do dodania.


Jedną radą byłoby przejść do wątku ASA, ponieważ istnieje sporo dyskusji, która kwestionuje udzieloną tutaj odpowiedź.
Maxim.K

@ Maxim.K: Czy masz na myśli mój własny wątek ASA, który podlinkowałem powyżej? Jeśli tak, tak, było wiele ostrzeżeń bez odpowiedzi i nadal nie jestem całkowicie pewien „poprawnej” odpowiedzi (jeśli taka istnieje). Właśnie dlatego dodałem kwalifikator: „Podaję to jako przyjętą poprawną odpowiedź, ale nadal jestem otwarty na dalszą dyskusję, jeśli ktoś ma coś do dodania”.
Meg
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.