Dlaczego standardowy błąd przechwytywania zwiększa się o dalsze

Standardowy błąd terminu przechwytującego ( ) w jest podawany przez gdzie to średnia z . $\hat{\beta}_0$ $y=\beta_1x+\beta_0+\varepsilon$

S E ({\hat{β}}_{0})^{2} = σ^{2} [\frac{1}{n} + \frac{{\bar{x}}^{2}}{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}]

$SE(\hat{\beta}_0)^2 = \sigma^2\left[\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right]$

\bar{x}

$\bar{x}$

x_{i}

$x_i$

Z tego, co rozumiem, SE określa twoją niepewność - na przykład w 95% próbek przedział będzie zawierał true . Nie rozumiem, w jaki sposób SE, miara niepewności, rośnie z . Jeśli po prostu zmienię dane, aby , moja niepewność spadła? To wydaje się nieracjonalne. $[\hat{\beta}_0-2SE,\hat{\beta}_0+2SE]$ $\beta_0$ $\bar{x}$ $\bar{x}=0$

Analogiczną interpretacją jest - w nieośrodkowej wersji moich danych odpowiada mojej prognozie dla , podczas gdy w danych wyśrodkowanych odpowiada mojej prognozie dla . Czy to zatem oznacza, że moja niepewność co do mojej prognozy przy jest większa niż moja niepewność co do mojej prognozy przy ? To również wydaje się nieuzasadnione, błąd ma tę samą wariancję dla wszystkich wartości , więc moja niepewność w moich przewidywanych wartościach powinna być taka sama dla wszystkich . $\hat{\beta}_0$ $x=0$ $\hat{\beta}_0$ $x=\bar{x}$ $x=0$ $x=\bar{x}$ $\epsilon$ $x$ $x$

Jestem pewien, że istnieją luki w moim rozumieniu. Czy ktoś mógłby mi pomóc zrozumieć, co się dzieje?

regression interpretation standard-error

— elexhobby
źródło

Czy kiedykolwiek zdarzyło Ci się cofnąć coś w stosunku do daty? Wiele systemów komputerowych zaczyna swoje daty w odległej przeszłości, często ponad 100 lub ponad 2000 lat temu. Punkt przecięcia szacuje wartość danych ekstrapolowanych wstecz do tego czasu początkowego. Jak możesz być pewien, powiedzmy, produktu krajowego brutto Iraku w roku 0 CE na podstawie regresji danych z XXI wieku?

— whuber

Zgadzam się, to ma sens, jeśli pomyślisz o tym w ten sposób. To i odpowiedź Gunga wyjaśniają wszystko.

— elexhobby

Ta odpowiedź daje intuicyjne wyjaśnienie, wraz ze schematami), w jaki sposób powstaje, rzucając dopasowaną linię pod względem dopasowania na średnią (dopasowana linia przechodzi przez ) i pokazuje, dlaczego pozycja, w której może przejść linia, rozkłada się, gdy odsuwasz się od (co jest spowodowane niepewnością na zboczu).

\bar{x}

$\bar x$

(\bar{x}, \bar{y})

$(\bar x,\bar y)$

\bar{x}

$\bar x$

— Glen_b

Ponieważ linia regresji dopasowana do zwykłych najmniejszych kwadratów musi koniecznie przejść przez średnią twoich danych (tj. ) - przynajmniej tak długo, jak nie tłumisz przecięcia - niepewność co do prawdziwej wartości nachylenia nie ma wpływu na pionowe położenie linii na środku (tj. w ). Przekłada się to na mniejszą niepewność pionową w niż jesteś dalej od którym jesteś. Jeśli punkt przecięcia, gdzie to , zminimalizuje to twoją niepewność co do prawdziwej wartości $(\bar x, \bar y)$ $x$ $\hat y_{\bar x}$ $\bar x$ $\bar x$ $x=0$ $\bar x$ $\beta_0$ . Z matematycznego punktu widzenia przekłada się to na najmniejszą możliwą wartość standardowego błędu dla . $\hat\beta_0$

Oto szybki przykład w R:

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

wprowadź opis zdjęcia tutaj

Ta liczba jest nieco zajęta, ale możesz zobaczyć dane z kilku różnych badań, w których rozkład był bliższy lub większy od . Stoki różnią się nieco między badaniami, ale są w dużej mierze podobne. (Zauważ, że wszystkie przechodzą przez kółko X, które oznaczyłem .) Niemniej jednak niepewność co do prawdziwej wartości tych nachyleń powoduje, że niepewność co do rozszerza się w miarę, jak dalej , co oznacza, że jest bardzo szeroki dla danych, które próbkowano w sąsiedztwie , i bardzo wąski dla badania, w którym dane były próbkowane w pobliżu . $x$ $0$ $(\bar x, \bar y)$ $\hat y$ $\bar x$ $SE(\hat\beta_0)$ $x=10$ $x=0$

Edytuj w odpowiedzi na komentarz: Niestety, wyśrodkowanie danych po ich uzyskaniu nie pomoże, jeśli chcesz poznać prawdopodobną wartość przy pewnej wartości . Zamiast tego musisz przede wszystkim skoncentrować gromadzenie danych na tym, na czym Ci zależy. Aby lepiej zrozumieć te problemy, możesz przeczytać moją odpowiedź tutaj: Interwał przewidywania regresji liniowej . $y$ $x$ $x_\text{new}$

— gung - Przywróć Monikę
źródło

Powiedzmy z jakiegoś powodu, że najbardziej interesuje mnie przewidywanie o wartości . Powyższe wyjaśnienie sugeruje, że nie powinienem wyśrodkowywać moich danych (tj. Przesunąć , aby ), ale zamiast tego przesunąć je tak, aby . Czy to jest poprawne?

x = x^{'}

$x=x'$

x

$x$

\bar{x} = 0

$\bar{x}=0$

\bar{x} = x^{'}

$\bar{x}=x'$

— elexhobby

Ogólna formuła ma w liczniku zamiast : przesunięcie nie jest potrzebne.

(x^{'} - \bar{x})^{2}

$(x^\prime - \bar{x})^2$

{\bar{x}}^{2}

$\bar{x}^2$

— whuber

@elexhobby, dodałem trochę informacji, aby odpowiedzieć na twój komentarz, możesz też zajrzeć do połączonego materiału. Daj mi znać, jeśli nadal potrzebujesz więcej.

— gung - Przywróć Monikę

Oto jak rozumiem - czytam gdzie indziej, że . Teraz błąd w przewidywanej wartości powodu tej niepewności na zboczu wynosi . Ponadto błąd spowodowany niepewnością w pionowym położeniu linii to . Połącz je razem, a otrzymamy niepewność w przewidywanej wartości z powodu niepewności w i is . Popraw mnie, jeśli się mylę.

S E ({\hat{β}}_{1}) = \frac{σ^{2}}{\sum (x_{i} - \bar{x})^{2}}

$SE(\hat{\beta}_1)=\frac{\sigma^2}{\sum(x_i-\bar{x})^2}$

x_{n e w}

$x_{new}$

S E ({\hat{β}}_{1}) (x_{n e w} - \bar{x})^{2}

$SE(\hat{\beta}_1)(x_{new}-\bar{x})^2$

\frac{σ^{2}}{n}

$\frac{\sigma^2}{n}$

{\hat{β}}_{1}

$\hat{\beta}_1$

{\hat{β}}_{0}

$\hat{\beta}_0$

\frac{σ^{2}}{n} + \frac{σ^{2} (x_{n e w} - \bar{x})^{2}}{\sum (x_{i} - \bar{x})^{2}}

$\frac{\sigma^2}{n}+\frac{\sigma^2(x_{new}-\bar{x})^2}{\sum(x_i-\bar{x})^2}$

— elexhobby

Ponadto jasne jest, dlaczego błąd w pozycji pionowej to - wiemy, że linia musi przejść przez przy . Teraz zawiera średnią z błędów i dlatego będzie miał SE równe . Łał! Bardzo dziękuję za twój schemat i jasne wyjaśnienie, naprawdę doceniam.

\frac{σ^{2}}{n}

$\frac{\sigma^2}{n}$

\bar{y}

$\bar{y}$

x = \bar{x}

$x=\bar{x}$

\bar{y}

$\bar{y}$

n

$n$

\frac{σ^{2}}{n}

$\frac{\sigma^2}{n}$

— elexhobby