Po raz pierwszy zetknąłem się z ANOVA, gdy byłem studentem studiów magisterskich w Oksfordzie w 1978 r. Nowoczesne podejście, ucząc ciągłych i kategorycznych zmiennych razem w modelu regresji wielokrotnej, utrudnia młodym statystykom zrozumienie, co się dzieje. Pomocne może być powrót do prostszych czasów.
W swojej oryginalnej formie ANOVA jest ćwiczeniem arytmetycznym, w którym dzielisz całkowitą sumę kwadratów na części związane z obróbkami, blokami, interakcjami, cokolwiek. W zrównoważonym ustawieniu sumy kwadratów o intuicyjnym znaczeniu (jak SSB i SST) sumują się do skorygowanej sumy kwadratów. Wszystko to działa dzięki Twierdzeniu Cochrana . Korzystając z Cochran, możesz obliczyć oczekiwane wartości tych terminów zgodnie ze zwykłymi hipotezami zerowymi, a stamtąd płyną statystyki F.
Jako bonus, gdy zaczniesz myśleć o Cochran i sumach kwadratów, warto kroić i kroić swoje sumy kwadratów za pomocą kontrastów ortogonalnych. Każdy wpis w tabeli ANOVA powinien mieć interpretację, która jest istotna dla statystysty i dawać sprawdzalną hipotezę.
Niedawno napisałem odpowiedź, w której pojawiła się różnica między metodami MOM i ML. Pytanie dotyczyło oszacowania modeli efektów losowych. W tym momencie tradycyjne podejście ANOVA całkowicie dzieli firmę z maksymalnym oszacowaniem prawdopodobieństwa, a oszacowania skutków nie są już takie same. Gdy projekt jest niezrównoważony, nie otrzymujesz tych samych statystyk F.
Wcześniej, gdy statystycy chcieli obliczyć losowe efekty z planów podzielonego wykresu lub powtarzanych miar, wariancję losowych efektów obliczono na podstawie średnich kwadratów tabeli ANOVA. Więc jeśli masz wykres z wariancją a rezydualna wariancja to , możesz mieć, że oczekiwana wartość średniego kwadratu („oczekiwany średni kwadrat”, EMS) dla wykresów wynosi , oznacza liczbę podziałów na wykresie. średni kwadrat równy jego oczekiwaniom i rozwiązujesz dlaσ2)pσ2)σ2)+ n σ2)pnσ2)b^. ANOVA daje metodę estymatora momentów dla wariancji efektu losowego. Teraz mamy tendencję do rozwiązywania takich problemów za pomocą modeli efektów mieszanych, a składniki wariancji są uzyskiwane poprzez oszacowanie maksymalnego prawdopodobieństwa lub REML.
ANOVA jako taka nie jest metodą chwilową. Włącza się dzielenie sumy kwadratów (lub bardziej ogólnie, kwadratowej postaci odpowiedzi) na składniki, które dają sensowne hipotezy. Zależy to silnie od normalności, ponieważ chcemy, aby sumy kwadratów miały rozkłady chi-kwadrat dla działania testów F.
Ramy maksymalnego prawdopodobieństwa są bardziej ogólne i dotyczą sytuacji takich jak uogólnione modele liniowe, w których sumy kwadratów nie mają zastosowania. Niektóre programy (jak R) wywołują zamieszanie, określając metody anova do testów współczynnika wiarygodności z asymptotycznymi rozkładami chi-kwadrat. Można uzasadnić użycie terminu „anova”, ale ściśle mówiąc, leżąca u jego podstaw teoria jest inna.