W rzeczywistości, jak słusznie zauważyłeś, w przypadku jednej zmiennej kategorialnej (potencjalnie większej niż 2 poziomy) jest rzeczywiście średnią odniesienia, a druga jest różnicą między średnia tego poziomu kategorii i średnia odniesienia.β^0β^
Jeśli rozszerzymy nieco twój przykład, aby uwzględnić trzeci poziom w kategorii wyścigu (powiedzmy azjatycki ) i wybraliśmy biały jako punkt odniesienia, to masz:
- β^0= x¯W.h i t e
- β^B l a c k= x¯B l a c k- x¯W.h i t e
- β^A s i a n= x¯A s i a n- x¯W.h i t e
W takim przypadku interpretacja wszystkich jest łatwa, a znalezienie średniej z dowolnego poziomu kategorii jest proste. Na przykład:β^
- x¯A s i a n= β^A s i a n+ β^0
Niestety w przypadku wielu zmiennych kategorycznych poprawna interpretacja przechwytywania nie jest już tak jasna (patrz uwaga na końcu). Gdy istnieje n kategorii, każda z wieloma poziomami i jednym poziomem odniesienia (np. W tobie biały i męski ), ogólna forma przechwytywania jest:
β^0= ∑ni = 1x¯r e fe r e n c e , i- ( n - 1 ) x¯,
gdzie
x¯r e fe r e n c e , i jest średnią poziomu odniesienia i-tej zmiennej kategorialnej,
x¯ jest średnią z całego zestawu danych
Inne są takie same, jak w przypadku jednej kategorii: są różnicą między średnią tego poziomu kategorii a średnią poziomu odniesienia tej samej kategorii.β^
Gdybyśmy wrócili do twojego przykładu, otrzymalibyśmy:
- β^0= x¯W.h i t e+ x¯M.a l e- x¯
- β^B l a c k= x¯B l a c k- x¯W.h i t e
- β^A s i a n= x¯A s i a n- x¯W.h i t e
- β^fae m a l e= x¯fae m a l e- x¯M.a l e
Zauważysz, że średnia z kategorii krzyżowych (np. Białe samce ) nie występuje w żadnej z . W rzeczywistości nie można dokładnie obliczyć tych środków na podstawie wyników tego rodzaju regresji .β^
Powodem tego jest to, że liczba zmiennych predykcyjnych (tj. ) jest mniejsza niż liczba kategorii krzyżowych (o ile masz więcej niż 1 kategorię), więc idealne dopasowanie nie zawsze jest możliwe. Jeśli wrócimy do twojego przykładu, liczba predyktorów wynosi 4 (tj. i ), podczas gdy liczba krzyżowych kategorii wynosi 6.β^β^0, β ^B l a c k, β ^A s i a nβ^fae m a l e
Przykład numeryczny
Pozwól, że pożyczę od @Gung na przykład w postaci liczbowej w puszce:
d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
y =c(0, 3, 7, 8, 9, 10))
d
# Sex Race y
# 1 Male White 0
# 2 Female White 3
# 3 Male Black 7
# 4 Female Black 8
# 5 Male Asian 9
# 6 Female Asian 10
W takim przypadku różne średnie, które będą brane pod uwagę przy obliczaniu to:β^
aggregate(y~1, d, mean)
# y
# 1 6.166667
aggregate(y~Sex, d, mean)
# Sex y
# 1 Male 5.333333
# 2 Female 7.000000
aggregate(y~Race, d, mean)
# Race y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5
Możemy porównać te liczby z wynikami regresji:
summary(lm(y~Sex+Race, d))
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 0.6667 0.6667 1.000 0.4226
# SexFemale 1.6667 0.6667 2.500 0.1296
# RaceBlack 6.0000 0.8165 7.348 0.0180
# RaceAsian 8.0000 0.8165 9.798 0.0103
Jak widać, różne oszacowane na podstawie regresji wszystkie są zgodne z powyższymi wzorami. Na przykład podaje:
Co daje:β^β^0
β^0= x¯W.h i t e+ x¯M.a l e- x¯
1.5 + 5.333333 - 6.166667
# 0.66666
Uwaga na temat wyboru kontrastu
Ostatnia uwaga na ten temat, wszystkie wyniki omówione powyżej odnoszą się do kategorycznych regresji z zastosowaniem leczenia kontrastem (domyślny typ kontrastu w R). Istnieją różne rodzaje kontrastów, które można zastosować (w szczególności Helmerta i suma) i zmieniłoby to interpretację różnych . Nie zmieniłoby to jednak ostatecznych przewidywań z regresji (np. Przewidywanie dla białych mężczyzn jest zawsze takie samo, bez względu na zastosowany rodzaj kontrastu).β^
Moim osobistym ulubionym jest suma kontrastu, ponieważ uważam, że interpretacja uogólnia się lepiej, gdy istnieje wiele kategorii. Dla tego rodzaju kontrastu nie ma poziomu odniesienia, a raczej odniesienie jest średnią całej próbki i masz następujący :β^c o n t r . a U mβ^c o n t r . a U m
- β^c o n t r . a U m0= x¯
- β^c o n t r . a U mja= x¯ja- x¯
Jeśli wrócimy do poprzedniego przykładu, miałbyś:
- β^c o n t r . a U m0= x¯
- β^c o n t r . a U mW.h i t e= x¯W.h i t e- x¯
- β^c o n t r . a U mB l a c k= x¯B l a c k- x¯
- β^c o n t r . a U mA s i a n= x¯A s i a n- x¯
- β^c o n t r . a U mM.a l e= x¯M.a l e- x¯
- β^c o n t r . a U mfae m a l e= x¯fae m a l e- x¯
Zauważysz, że ponieważ Białe i Męskie nie są już poziomami odniesienia, ich nie są już 0. Fakt, że są to 0, jest specyficzny dla leczenia kontrastem.β^c o n t r . a U m