Czy powinienem uruchamiać osobne regresje dla każdej społeczności, czy może społeczność może po prostu być zmienną kontrolującą w modelu zagregowanym?


11

Korzystam z modelu OLS z ciągłą zmienną indeksu aktywów jako DV. Moje dane są agregowane z trzech podobnych społeczności znajdujących się blisko siebie. Mimo to uważałem, że ważne jest, aby używać społeczności jako zmiennej kontrolującej. Jak się okazuje, społeczność jest znacząca na poziomie 1% (wynik t -4,52). Społeczność jest zmienną nominalną / kategorialną zakodowaną jako 1,2,3 dla 1 z 3 różnych społeczności.

Moje pytanie brzmi, czy ten wysoki stopień znaczenia oznacza, że ​​powinienem robić regresje w społecznościach indywidualnie, a nie jako agregację. W przeciwnym razie, czy używanie społeczności jako zmiennej sterującej zasadniczo to robi?


Czy miałoby sens zastosowanie modelu hierarchicznego ze społecznością jako efektu losowego? Społeczności nie są twoją główną troską, prawda? Korzystając z modelu hierarchicznego, dzielisz siłę.
Wayne

Odpowiedzi:


14

Pytanie sugeruje porównanie trzech powiązanych modeli. Aby wyjaśnić porównanie, niech będzie zmienną zależną, niech będzie bieżącym kodem wspólnoty i zdefiniuj i X 2 jako wskaźniki odpowiednio społeczności 1 i 2. (Oznacza to, że X 1 = 1 dla społeczności 1 i X 1 = 0 dla społeczności 2 i 3; X 2 = 1 dla społeczności 2 i X 2 =YX{1,2,3}X1X2)X1=1X1=0X2)=1 dla społeczności 1 i 3.)X2)=0

Obecna analiza może być jedną z następujących czynności: albo

Y=α+βX+ε(pierwszy model)

lub

Y=α+β1X1+β2)X2)+ε(drugi model).

W obu przypadkach reprezentuje zestaw identycznie rozmieszczonych niezależnych zmiennych losowych z zerowym oczekiwaniem. Drugi model prawdopodobnie jest zamierzony, ale pierwszy model jest tym, który będzie pasował do kodowania opisanego w pytaniu.ε

Wynikiem regresji OLS jest zestaw dopasowanych parametrów (oznaczonych symbolami „czapki”) wraz z oszacowaniem powszechnej wariancji błędów. W pierwszym modelu jest jeden test t porównać β do 0 . W drugim modelu są dwa testy t: jeden do porównania ^ β 1 do 0, a drugi do porównania ^ β 2 do 0 . Ponieważ pytanie dotyczy tylko jednego testu t, zacznijmy od zbadania pierwszego modelu.β^0β1^0β2)^0

Stwierdziwszy, że β jest znacząco różne od 0 , można dokonać oszacowania Y = E [ α + β X + ε ] = α + β Xβ^0Ymi[α+βX+ε]α+βX dla każdej społeczności:

dla społeczności 1 a oszacowanie wynosi α + βX=1α+β ;

dla społeczności 2 a oszacowanie wynosi α + 2 βX=2)α+2)β ; i

dla społeczności 3, a oszacowanie wynosi α + 3 β . X=3)α+3)β

W szczególności pierwszy model wymusza postęp arytmetyczny w efektach społeczności. Jeśli kodowanie społeczności ma być jedynie arbitralnym sposobem różnicowania społeczności, to wbudowane ograniczenie jest równie arbitralne i prawdopodobnie błędne.

Pouczające jest wykonanie tej samej szczegółowej analizy prognoz drugiego modelu:

Dla społeczności 1, gdzie i X 2 = 0 , przewidywana wartość Y jest równa α + β 1 . Konkretnie,X1=1X2)=0Yα+β1

Y(społeczność 1)=α+β1+ε.

Dla społeczności 2, gdzie i X 2 = 1 , przewidywana wartość Y jest równa α + β 2 . Konkretnie,X1=0X2)=1Yα+β2)

Y(społeczność 2)=α+β2)+ε.

Dla społeczności 3, gdzie , przewidywana wartość Y jest równa α . Konkretnie,X1=X2)=0Yα

Y(społeczność 3)=α+ε.

Trzy parametry skutecznie dają drugiemu modelowi pełną swobodę osobnego oszacowania trzech oczekiwanych wartości Y Testy t oceniają, czy (1) ; to znaczy, czy istnieje różnica między społecznościami 1 i 3; oraz (2) p 2, = 0 ; to znaczy, czy istnieje różnica między społecznościami 2 i 3. Ponadto można przetestować „kontrast” β 2 - β 1 za pomocą testu t, aby sprawdzić, czy społeczności 2 i 1 różnią się: działa to, ponieważ ich różnica wynosi ( α + β 2 ) - ( αβ1=0β2)=0β2)-β1 = β 2 - β 1 .(α+β2))-(α+β1)β2)-β1

Teraz możemy ocenić efekt trzech oddzielnych regresji. Oni by byli

Y(społeczność 1)=α1+ε1,

Y(społeczność 2)=α2)+ε2),

Y(społeczność 3)=α3)+ε3).

Porównując to do drugiego modelu, widzimy, że powinien zgadzać się z α + β 1 , α 2 powinien zgadzać się z α + β 2 , a α 3 powinien zgadzać się z α . Pod względem elastyczności dopasowania parametrów oba modele są jednakowo dobre. Założenia w tym modelu dotyczące terminów błędów są jednak słabsze. Wszystkie ε 1 muszą być niezależne i identycznie rozmieszczone (iid); wszystkie ε 2 muszą być iid, a wszystkie ε 3 muszą być iid,α1α+β1α2)α+β2)α3)αε1ε2)ε3)ale nie zakłada się niczego o relacjach statystycznych między poszczególnymi regresjami. Oddzielne regresje pozwalają zatem na dodatkową elastyczność:

  • Co najważniejsze, rozkład może różnić się od rozkładu ε 2, który może różnić się od rozkładu ε 3 .ε1ε2)ε3)

  • W niektórych sytuacjach może być skorelowane z ε j . Żaden z tych modeli nie obsługuje tego wyraźnie, ale przynajmniej na trzeci model (osobne regresje) nie będzie miał negatywnego wpływu.εjaεjot

Ta dodatkowa elastyczność oznacza, że ​​wyniki testu t parametrów będą prawdopodobnie różnić się między drugim a trzecim modelem. (Nie powinno to jednak skutkować różnymi oszacowaniami parametrów.)

Aby sprawdzić, czy potrzebne są osobne regresje , wykonaj następujące czynności:

Zamontuj drugi model. Wykreśl resztki względem społeczności, na przykład jako zestaw równoległych wykresów pudełkowych lub trio histogramów lub nawet jako trzy wykresy prawdopodobieństwa. Poszukaj dowodów na różne kształty dystrybucji, a zwłaszcza znacznie różne wariancje. Jeśli nie ma takich dowodów, drugi model powinien być w porządku. Jeśli jest obecny, osobne regresje są uzasadnione.

Gdy modele są wielowymiarowe - to znaczy obejmują inne czynniki - możliwa jest podobna analiza, z podobnymi (ale bardziej skomplikowanymi) wnioskami. Zasadniczo wykonywanie oddzielnych regresji jest równoznaczne z włączeniem wszystkich możliwych dwukierunkowych interakcji ze zmienną społeczności (kodowaną jak w drugim modelu, a nie pierwszym) i dopuszczeniem różnych rozkładów błędów dla każdej społeczności.


-3
  • wybór modelu (IMHO) wprowadź opis zdjęcia tutajmoże być zalecany. Ponieważ złożone modele (Oddzielne nachylenie) będą podlegały silniejszej karze, dlatego bardziej zwięzłe i łatwiejsze do interpretacji modele będą „lepsze”.

1
Nie jest do końca jasne, co tu polecasz, ani jak odnosi się do tego tabela.
Scortchi - Przywróć Monikę
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.