To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R:
a.lm = lm(Y ~ x1 + x2)
x1
jest zmienną ciągłą. x2
jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej więcej takie:
summary(a.lm)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.521 0.20 1.446 0.19
x1 -0.61 0.11 1.451 0.17
x2Low -0.78 0.22 -2.34 0.005
x2Medium -0.56 0.45 -2.34 0.005
Rozumiem, że R wprowadza pewien rodzaj fałszywego kodowania na takich czynnikach ( x2
będąc czynnikiem). Zastanawiam się tylko, jak interpretować x2
wartość „Wysoka”? Na przykład, jaki wpływ mają „wysokie” x2
na zmienną odpowiedzi w podanym tutaj przykładzie?
Widziałem przykłady tego gdzie indziej (np. Tutaj ), ale nie znalazłem wyjaśnienia, które mógłbym zrozumieć.