Byłoby interesujące docenić, że rozbieżność dotyczy rodzaju zmiennych , a zwłaszcza rodzajów zmiennych objaśniających . W typowej ANOVA mamy zmienną kategorialną z różnymi grupami i próbujemy ustalić, czy pomiar zmiennej ciągłej różni się między grupami. Z drugiej strony OLS jest postrzegany przede wszystkim jako próba oceny związku między ciągłą regresją lub zmienną odpowiedzi a jednym lub wieloma regresorami lub zmiennymi objaśniającymi . W tym sensie regresję można postrzegać jako inną technikę, nadającą się do przewidywania wartości na podstawie linii regresji.
jednak różnica ta nie oznacza rozszerzenia ANOVA na resztę analizy zupy alfabetycznej wariancji (ANCOVA, MANOVA, MANCOVA); lub włączenie fałszywych zmiennych kodowanych do regresji OLS. Nie jestem pewien, co do konkretnych charakterystycznych punktów orientacyjnych, ale to tak, jakby obie techniki rozwinęły równoległe adaptacje w celu rozwiązania coraz bardziej złożonych modeli.
Na przykład widzimy, że różnice między ANCOVA a OLS ze zmiennymi fikcyjnymi (lub kategorycznymi) (w obu przypadkach z interakcjami) są co najwyżej kosmetyczne. Przepraszam za odejście od ograniczeń w tytule twojego pytania dotyczącego wielokrotnej regresji liniowej.
W obu przypadkach, model jest zasadniczo identyczne do tego, że w R funkcja służy do przeprowadzenia ANCOVA . Można go jednak przedstawić jako odmienny w odniesieniu do włączenia przecięcia odpowiadającego pierwszemu poziomowi (lub grupie) zmiennej czynnikowej (lub kategorialnej) w modelu regresji.lm
W modelu zrównoważonym (jednakowe rozmiary grupy, n 1 , 2 , ⋯i ) i tylko jedną zmienną towarzyszącą (aby uprościć prezentację macierzy), macierz modelową w ANCOVA można napotkać jako pewną odmianę:n1,2,⋯i
X=⎡⎣⎢1n10001n20001n3xn1000xn2000xn3⎤⎦⎥
dla grup zmiennej czynnikowej wyrażonej jako macierze blokowe.3
Odpowiada to modelowi liniowemu:
z a i ekwiwalentem różnych średnich grup w modelu ANOVA, podczas gdy różne β są nachyleniami współzmiennej dla każdej z grup.
y=αi+ β1xn1+ β2)xn2)+β3)xn3)+ ϵja
αjaβ
Prezentacja tego samego modelu w polu regresji, a konkretnie w R, uwzględnia ogólny punkt przecięcia, odpowiadający jednej z grup, a macierz modelu można przedstawić jako:
X= ⎡⎣⎢⎢⎢⋮jot3 n , 1⋮01n2)0001n3)⋮x⋮0000xn2)000xn3)⎤⎦⎥⎥⎥
równania OLS:
.
y= β0+ μja+ β1xn1+ β2)xn2)+ β3)xn3)+ ϵja
β0μja
Jak widać z macierzy modelu, prezentacja przeczy prawdziwej tożsamości między regresją a analizą wariancji.
Lubię ten rodzaj zweryfikować z niektórych linii kodu i mojego ulubionego zestawu danych mtcars
w R . Korzystam lm
z ANCOVA według artykułu Bena Bolkera dostępnego tutaj .
mtcars$cyl <- as.factor(mtcars$cyl) # Cylinders variable into factor w 3 levels
D <- mtcars # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),] # Ordering obs. for block matrices.
model.matrix(lm(mpg ~ wt * cyl, D)) # This is the model matrix for ANCOVA
Jeśli chodzi o część pytania o to, jakiej metody użyć (regresja z R!), Możesz znaleźć zabawny komentarz on-line , na który natknąłem się podczas pisania tego postu.