whuber powiedział ci w komentarzach, że kodowanie kodowania 0-3 lub 1-4 zamiast tworzenia zmiennych zastępczych nie jest tym, czego chcesz. To jest próba - mam nadzieję, że wyjaśnię, co zrobiłbyś z tym modelem i dlaczego jest on błędny.
Jeśli kodujesz zmienną X tak, że jeśli A to X = 1, jeśli B to X = 2, jeśli C to X = 3, jeśli D to X = 4, to po wykonaniu regresji otrzymasz tylko jeden parametr. Powiedzmy, że ostatecznie oszacowany parametr związany z X wynosił 2. Oznaczałoby to, że oczekiwana różnica między średnią B i średnią A wynosi 2. Mówi również, że oczekiwana różnica między średnią C a średnia B wynosi 2. Niektóre dla D i C. Wymusilibyście różnice w średnich dla tych grup, aby stosować ten bardzo ścisły wzór. Ten jeden parametr mówi dokładnie, jak wszystkie grupy oznaczają wzajemne relacje.
Więc jeśli wykonałeś tego rodzaju kodowanie, musisz założyć, że nie tylko poprawnie zamówiłeś (ponieważ w tym przypadku, jeśli spodziewasz się wzrostu z A do B, musisz spodziewać się wzrostu z B do C i z C do D), ale musisz także założyć, że ta różnica jest taka sama!
Jeśli zamiast tego wykonasz zasugerowane kodowanie, pozwalasz każdej grupie mieć własne środki - bez ograniczeń. Ten model jest znacznie bardziej rozsądny i odpowiada na pytania, które chcesz.