@DikranMarsupial ma oczywiście rację, ale przyszło mi do głowy, że miło jest zilustrować jego punkt widzenia, zwłaszcza że ta obawa zdaje się często pojawiać. W szczególności reszty modelu regresji powinny być normalnie rozłożone, aby wartości p były prawidłowe. Jednak nawet jeśli reszty są normalnie rozłożone, nie gwarantuje to, że będzie (nie, że to ma znaczenie ...); to zależy od rozkładu . XYX
Weźmy prosty przykład (który tworzę). Powiedzmy, że testujemy lek na izolowane nadciśnienie skurczowe (tj. Najwyższa wartość ciśnienia krwi jest zbyt wysoka). Przyjmijmy dalej, że skurczowe bp jest normalnie dystrybuowane w naszej populacji pacjentów, ze średnią 160 i SD wynoszącą 3, i że dla każdego mg leku, który pacjenci przyjmują każdego dnia, skurczowy bp spada o 1 mmHg. Innymi słowy, prawdziwa wartość wynosi 160, a to -1, a prawdziwa funkcja generowania danych to:
β 1 B P s y y = 160 - 1 x dziennie dawkowania leku + εβ0β1X
BPsys=160−1×daily drug dosage+εwhere ε∼N(0,9)
W naszym fikcyjnym badaniu 300 pacjentów jest losowo przydzielanych do przyjmowania 0 mg (placebo), 20 mg lub 40 mg tego nowego leku dziennie. (Zauważ, że nie jest zwykle dystrybuowany.) Następnie, po upływie odpowiedniego czasu, aby lek zaczął działać, nasze dane mogą wyglądać następująco:
X
(Drgałem dawki, aby punkty nie nakładały się tak bardzo, że trudno je było rozróżnić.) Teraz sprawdźmy rozkłady (tj. Rozkład marginalny / oryginalny) i reszty: Y
Wykresy qq pokazują nam, że nie jest wcale normalne, ale reszty są w miarę normalne. Wykresy gęstości jądra dają nam bardziej intuicyjnie dostępny obraz rozkładów. Oczywiste jest, że jest trójmodalny , podczas gdy reszty wyglądają podobnie do rozkładu normalnego. YYY
Ale co z dopasowanym modelem regresji, jaki jest efekt nietypowych i (ale normalnych reszt)? Aby odpowiedzieć na to pytanie, musimy określić, czym moglibyśmy się martwić w związku z typową wydajnością modelu regresji w takich sytuacjach. Pierwszą kwestią jest, czy bety są przeciętne, prawda? (Oczywiście będą się one odbijać, ale na dłuższą metę, czy rozkłady prób beta są skoncentrowane na prawdziwych wartościach?) To jest pytanie o stronniczość . Inną kwestią jest to, czy możemy ufać otrzymanym wartościom p? To znaczy, gdy prawdziwa hipoteza zerowa wynosiX p < 0,05 β 1YXp<.05tylko 5% czasu? Aby ustalić te rzeczy, możemy symulować dane z powyższego procesu generowania danych i równoległego przypadku, w którym lek nie ma wpływu, wiele razy. Następnie możemy wykreślić rozkłady próbkowania i sprawdzić, czy są wyśrodkowane na prawdziwej wartości, a także sprawdzić, jak często związek był „znaczący” w przypadku zerowym: β1
set.seed(123456789) # this make the simulation repeatable
b0 = 160; b1 = -1; b1_null = 0 # these are the true beta values
x = rep(c(0, 20, 40), each=100) # the (non-normal) drug dosages patients get
estimated.b1s = vector(length=10000) # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values = vector(length=10000)
for(i in 1:10000){
residuals = rnorm(300, mean=0, sd=3)
y.works = b0 + b1*x + residuals
y.null = b0 + b1_null*x + residuals # everything is identical except b1
model.works = lm(y.works~x)
model.null = lm(y.null~x)
estimated.b1s[i] = coef(model.works)[2]
estimated.b1ns[i] = coef(model.null)[2]
null.p.values[i] = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s) # the sampling distributions are centered on the true values
[1] -1.000084
mean(estimated.b1ns)
[1] -8.43504e-05
mean(null.p.values<.05) # when the null is true, p<.05 5% of the time
[1] 0.0532
Te wyniki pokazują, że wszystko działa dobrze.
Nie będę przechodził przez ruchy, ale gdyby był normalnie rozłożony, w innym przypadku z tą samą konfiguracją, pierwotny / krańcowy rozkład byłby normalnie rozłożony tak samo jak reszty (chociaż z większym SD). Nie zilustrowałem również efektów wypaczonego rozkładu (co było impulsem do postawienia tego pytania), ale punkt @ DikranMarsupial jest w tym przypadku równie ważny i można go zilustrować podobnie.Y XX YX