Ponieważ linia regresji dopasowana do zwykłych najmniejszych kwadratów musi koniecznie przejść przez średnią twoich danych (tj. ) - przynajmniej tak długo, jak nie tłumisz przecięcia - niepewność co do prawdziwej wartości nachylenia nie ma wpływu na pionowe położenie linii na środku (tj. w ). Przekłada się to na mniejszą niepewność pionową w niż jesteś dalej od którym jesteś. Jeśli punkt przecięcia, gdzie to , zminimalizuje to twoją niepewność co do prawdziwej wartościx(x¯,y¯)xy^x¯x¯x¯x=0x¯β0. Z matematycznego punktu widzenia przekłada się to na najmniejszą możliwą wartość standardowego błędu dla . β^0
Oto szybki przykład w R
:
set.seed(1) # this makes the example exactly reproducible
x0 = rnorm(20, mean=0, sd=1) # the mean of x varies from 0 to 10
x5 = rnorm(20, mean=5, sd=1)
x10 = rnorm(20, mean=10, sd=1)
y0 = 5 + 1*x0 + rnorm(20) # all data come from the same
y5 = 5 + 1*x5 + rnorm(20) # data generating process
y10 = 5 + 1*x10 + rnorm(20)
model0 = lm(y0~x0) # all models are fit the same way
model5 = lm(y5~x5)
model10 = lm(y10~x10)
Ta liczba jest nieco zajęta, ale możesz zobaczyć dane z kilku różnych badań, w których rozkład był bliższy lub większy od . Stoki różnią się nieco między badaniami, ale są w dużej mierze podobne. (Zauważ, że wszystkie przechodzą przez kółko X, które oznaczyłem .) Niemniej jednak niepewność co do prawdziwej wartości tych nachyleń powoduje, że niepewność co do rozszerza się w miarę, jak dalej , co oznacza, że jest bardzo szeroki dla danych, które próbkowano w sąsiedztwie , i bardzo wąski dla badania, w którym dane były próbkowane w pobliżu . x0(x¯,y¯)y^x¯SE(β^0)x=10x=0
Edytuj w odpowiedzi na komentarz: Niestety, wyśrodkowanie danych po ich uzyskaniu nie pomoże, jeśli chcesz poznać prawdopodobną wartość przy pewnej wartości . Zamiast tego musisz przede wszystkim skoncentrować gromadzenie danych na tym, na czym Ci zależy. Aby lepiej zrozumieć te problemy, możesz przeczytać moją odpowiedź tutaj: Interwał przewidywania regresji liniowej . yxxnew