Dlaczego test F jest tak wrażliwy na założenie normalności?

16

Dlaczego test F dla różnicy wariancji jest tak wrażliwy na założenie rozkładu normalnego, nawet dla dużego ? $N$

Próbowałem przeszukać sieć i odwiedziłem bibliotekę, ale żadna z nich nie dała dobrych odpowiedzi. Mówi, że test jest bardzo wrażliwy na naruszenie założenia normalnej dystrybucji, ale nie rozumiem dlaczego. Czy ktoś ma na to dobrą odpowiedź?

normality-assumption f-test

— Magnus Johannesen
źródło

6

Którym testem

F

$F$ jesteś zainteresowany?

— Stephan Kolassa

Test F do pomiaru różnicy wariancji.

— Magnus Johannesen

35

Zakładam, że masz na myśli test F dla stosunku wariancji podczas testowania pary wariancji próbki pod kątem równości (ponieważ jest to najprostszy, który jest dość wrażliwy na normalność; test F dla ANOVA jest mniej wrażliwy)

Jeśli próbki są pobierane z rozkładów normalnych, wariancja próbki ma skalowany rozkład chi-kwadrat

Wyobraź sobie, że zamiast danych pochodzących z normalnych rozkładów, miałeś rozkład bardziej ciężki niż normalny. Wtedy uzyskałbyś zbyt wiele dużych wariancji w stosunku do tego skalowanego rozkładu chi-kwadrat, a prawdopodobieństwo wariancji próbki dostania się do skrajnego prawego ogona bardzo reaguje na ogony rozkładu, z którego zostały pobrane dane =. (Będzie też zbyt wiele małych wariancji, ale efekt jest nieco mniej wyraźny)

Teraz, jeśli obie próbki zostaną pobrane z tego cięższego rozkładu ogona, większy ogon na liczniku wytworzy nadmiar dużych wartości F, a większy ogon na mianowniku wytworzy nadmiar małych wartości F (i odwrotnie dla lewego ogona)

Oba te efekty będą prowadzić do odrzucenia w teście dwustronnym, nawet jeśli obie próbki mają tę samą wariancję . Oznacza to, że gdy rzeczywisty rozkład jest cięższy niż zwykle, rzeczywiste poziomy istotności wydają się być wyższe niż chcemy.

I odwrotnie, wyciągnięcie próbki z jaśniejszego rozkładu ogona daje rozkład wariancji próbki, który ma zbyt krótki ogon - wartości wariancji wydają się być bardziej „średnie” niż dane z rozkładów normalnych. Ponownie uderzenie jest silniejsze w dalekim górnym ogonie niż w dolnym ogonie.

Teraz, jeśli obie próbki są pobierane z tego rozkładu o mniejszej liczbie ogonów, skutkuje to nadmiarem wartości F w pobliżu mediany i zbyt małą liczbą w obu ogonach (rzeczywiste poziomy istotności będą niższe niż pożądane).

Wydaje się, że efekty te niekoniecznie znacznie się zmniejszają przy większej wielkości próby; w niektórych przypadkach wydaje się gorzej.

Tytułem częściowej ilustracji podajemy 10000 wariancji próbek (dla $n=10$ ) dla rozkładów normalnych, $t_5$ i jednorodnych, skalowanych tak, aby miały taką samą średnią jak $\chi^2_9$ :

Trochę trudno jest zobaczyć tylny ogon, ponieważ jest stosunkowo niewielki w porównaniu ze szczytem (a dla $t_5$ obserwacje w ogonie rozciągają się dość daleko w miejscu, w którym planowaliśmy), ale możemy zobaczyć pewien wpływ na rozkład wariancji. Być może jeszcze bardziej pouczające jest przekształcenie ich przez odwrotność chi-kwadrat cdf,

który w normalnym przypadku wygląda jednolicie (tak jak powinien), w przypadku t ma duży pik w górnym ogonie (i mniejszy w dolnym ogonie), aw jednolitym przypadku jest bardziej podobny do wzgórza, ale z szerokim pik około 0,6 do 0,8, a skrajności mają znacznie mniejsze prawdopodobieństwo niż powinny, gdybyśmy próbkowali z rozkładów normalnych.

$F_{9,9}$

$t_5$

Byłoby wiele innych przypadków do zbadania dla pełnego badania, ale to przynajmniej daje poczucie rodzaju i kierunku działania, a także tego, jak powstaje.

— Glen_b - Przywróć Monikę
źródło

1

Naprawdę ładne demo

— shadowtalker

3

Jak Glen_b doskonale zilustrował w swoich symulacjach, test F dla współczynnika wariancji jest wrażliwy na ogony rozkładu. Powodem tego jest to, że wariancja wariancji próbki zależy od parametru kurtozy, a zatem kurtoza rozkładu leżącego u podstaw ma silny wpływ na rozkład współczynnika wariancji próbek.

$S_N^2$ $S_n^2$ $n<N$ $^\dagger$

\frac{S_{N}^{2}}{S_{n}^{2}} \overset{Approx}{\sim} \frac{n - 1}{N - 1} + \frac{N - n}{N - 1} \cdot F (D F_{C}, D F_{n}),

$\frac{S_N^2}{S_n^2} \overset{\text{Approx}}{\sim} \frac{n-1}{N-1} + \frac{N-n}{N-1} \cdot F(DF_C, DF_n),$

$\kappa$

D F_{n} = \frac{2 n}{κ - (n - 3) / (n - 1)} D F_{C} = \frac{2 (N - n)}{2 + (κ - 3) (1 - 2 / N + 1 / N n)} .

$DF_n = \frac{2n}{\kappa - (n-3)/(n-1)} \quad \quad \quad DF_C = \frac{2(N-n)}{2+(\kappa-3)(1-2/N+1/Nn)}.$

$\kappa=3$ $DF_n = n-1$ $DF_C = N-n$

$\hat{\kappa}$

$^\dagger$ $N-1$ $N$

— Przywróć Monikę
źródło

+1 To jest bardzo interesujący post. Z pewnością w przypadku rozkładów mezokurtycznych trudniej jest uzyskać rozkład współczynnika wariancji tak daleko od F, jak to możliwe przy pełnym zakresie wyboru dystrybucji, ale nie jest tak trudno zidentyfikować przypadki (przy wielkości próbki w mojej odpowiedzi 10 oraz 10) gdzie rzeczywisty poziom błędu typu I jest więcej niż trochę od nominalnego wskaźnika 0,05. Pierwsze 3 przypadki, które próbowałem (rozkłady z kurtozą populacji = 3 - wszystkie również symetryczne) miały współczynniki odrzucenia typu I wynoszące 0,0379, 0,0745 i 0,0785. ... ctd

— Glen_b -Reinstate Monica

ctd ... Nie mam wątpliwości, że bardziej ekstremalne przypadki można by zidentyfikować przy odrobinie myślenia o tym, jak pogorszyć to przybliżenie. Wyobrażam sobie, że to (że poziom istotności nie miałby większego wpływu) mogłoby jednak lepiej zachowywać się w większych próbkach.

— Glen_b