Pytanie sugeruje porównanie trzech powiązanych modeli. Aby wyjaśnić porównanie, niech będzie zmienną zależną, niech będzie bieżącym kodem wspólnoty i zdefiniuj i X 2 jako wskaźniki odpowiednio społeczności 1 i 2. (Oznacza to, że X 1 = 1 dla społeczności 1 i X 1 = 0 dla społeczności 2 i 3; X 2 = 1 dla społeczności 2 i X 2 =YX∈ { 1 , 2 , 3 }X1X2)X1= 1X1= 0X2)= 1 dla społeczności 1 i 3.)X2)= 0
Obecna analiza może być jedną z następujących czynności: albo
Y= α + βX+ ε(pierwszy model)
lub
Y= α + β1X1+ β2)X2)+ ε(drugi model) .
W obu przypadkach reprezentuje zestaw identycznie rozmieszczonych niezależnych zmiennych losowych z zerowym oczekiwaniem. Drugi model prawdopodobnie jest zamierzony, ale pierwszy model jest tym, który będzie pasował do kodowania opisanego w pytaniu.ε
Wynikiem regresji OLS jest zestaw dopasowanych parametrów (oznaczonych symbolami „czapki”) wraz z oszacowaniem powszechnej wariancji błędów. W pierwszym modelu jest jeden test t porównać β do 0 . W drugim modelu są dwa testy t: jeden do porównania ^ β 1 do 0, a drugi do porównania ^ β 2 do 0 . Ponieważ pytanie dotyczy tylko jednego testu t, zacznijmy od zbadania pierwszego modelu.β^0β1^0β2^0
Stwierdziwszy, że β jest znacząco różne od 0 , można dokonać oszacowania Y = E [ α + β X + ε ] = α + β Xβ^0YE[α+βX+ε]α+βX dla każdej społeczności:
dla społeczności 1 a oszacowanie wynosi α + βX=1α+β ;
dla społeczności 2 a oszacowanie wynosi α + 2 βX=2α+2β ; i
dla społeczności 3, a oszacowanie wynosi α + 3 β . X=3α+3β
W szczególności pierwszy model wymusza postęp arytmetyczny w efektach społeczności. Jeśli kodowanie społeczności ma być jedynie arbitralnym sposobem różnicowania społeczności, to wbudowane ograniczenie jest równie arbitralne i prawdopodobnie błędne.
Pouczające jest wykonanie tej samej szczegółowej analizy prognoz drugiego modelu:
Dla społeczności 1, gdzie i X 2 = 0 , przewidywana wartość Y jest równa α + β 1 . Konkretnie,X1=1X2=0Yα+β1
Y(community 1)=α+β1+ε.
Dla społeczności 2, gdzie i X 2 = 1 , przewidywana wartość Y jest równa α + β 2 . Konkretnie,X1=0X2=1Yα+β2
Y(community 2)=α+β2+ε.
Dla społeczności 3, gdzie , przewidywana wartość Y jest równa α . Konkretnie,X1= X2)= 0Yα
Y( wspólnota 3 ) = α + ε .
Trzy parametry skutecznie dają drugiemu modelowi pełną swobodę osobnego oszacowania trzech oczekiwanych wartości Y Testy t oceniają, czy (1) ; to znaczy, czy istnieje różnica między społecznościami 1 i 3; oraz (2) p 2, = 0 ; to znaczy, czy istnieje różnica między społecznościami 2 i 3. Ponadto można przetestować „kontrast” β 2 - β 1 za pomocą testu t, aby sprawdzić, czy społeczności 2 i 1 różnią się: działa to, ponieważ ich różnica wynosi ( α + β 2 ) - ( αβ1= 0β2)= 0β2)- β1 = β 2 - β 1 .( α + β2)) - ( α + β1)β2)- β1
Teraz możemy ocenić efekt trzech oddzielnych regresji. Oni by byli
Y( wspólnota 1 ) = α1+ ε1,
Y( wspólnota 2 ) = α2)+ ε2),
Y( wspólnota 3 ) = α3)+ ε3).
Porównując to do drugiego modelu, widzimy, że powinien zgadzać się z α + β 1 , α 2 powinien zgadzać się z α + β 2 , a α 3 powinien zgadzać się z α . Pod względem elastyczności dopasowania parametrów oba modele są jednakowo dobre. Założenia w tym modelu dotyczące terminów błędów są jednak słabsze. Wszystkie ε 1 muszą być niezależne i identycznie rozmieszczone (iid); wszystkie ε 2 muszą być iid, a wszystkie ε 3 muszą być iid,α1α + β1α2)α + β2)α3)αε1ε2)ε3)ale nie zakłada się niczego o relacjach statystycznych między poszczególnymi regresjami. Oddzielne regresje pozwalają zatem na dodatkową elastyczność:
Co najważniejsze, rozkład może różnić się od rozkładu ε 2, który może różnić się od rozkładu ε 3 .ε1ε2)ε3)
W niektórych sytuacjach może być skorelowane z ε j . Żaden z tych modeli nie obsługuje tego wyraźnie, ale przynajmniej na trzeci model (osobne regresje) nie będzie miał negatywnego wpływu.εjaεjot
Ta dodatkowa elastyczność oznacza, że wyniki testu t parametrów będą prawdopodobnie różnić się między drugim a trzecim modelem. (Nie powinno to jednak skutkować różnymi oszacowaniami parametrów.)
Aby sprawdzić, czy potrzebne są osobne regresje , wykonaj następujące czynności:
Zamontuj drugi model. Wykreśl resztki względem społeczności, na przykład jako zestaw równoległych wykresów pudełkowych lub trio histogramów lub nawet jako trzy wykresy prawdopodobieństwa. Poszukaj dowodów na różne kształty dystrybucji, a zwłaszcza znacznie różne wariancje. Jeśli nie ma takich dowodów, drugi model powinien być w porządku. Jeśli jest obecny, osobne regresje są uzasadnione.
Gdy modele są wielowymiarowe - to znaczy obejmują inne czynniki - możliwa jest podobna analiza, z podobnymi (ale bardziej skomplikowanymi) wnioskami. Zasadniczo wykonywanie oddzielnych regresji jest równoznaczne z włączeniem wszystkich możliwych dwukierunkowych interakcji ze zmienną społeczności (kodowaną jak w drugim modelu, a nie pierwszym) i dopuszczeniem różnych rozkładów błędów dla każdej społeczności.