Założenia dotyczące regresji resztkowej regresji


12

Dlaczego konieczne jest założenie podziału na błędy, tj

yi=Xβ+ϵi , z ϵiN(0,σ2) .

Dlaczego nie napisać?

yi=Xβ+ϵi , z yiN(Xβ^,σ2) ,

gdzie w obu przypadkach ϵi=yiy^ .
Podkreśliłem, że założenia dystrybucyjne dotyczą błędów, a nie danych, ale bez wyjaśnienia.

Naprawdę nie rozumiem różnicy między tymi dwoma sformułowaniami. W niektórych miejscach widzę, że na danych umieszczane są założenia dystrybucyjne (Bayesian, jak się wydaje, wydaje się to głównie), ale w większości przypadków założenia są oparte na błędach.

Dlaczego podczas modelowania / dlaczego ktoś powinien zacząć od założeń dotyczących jednego lub drugiego?


Po pierwsze, nie jest to „konieczne”, zależy od tego, co zamierzasz zrobić. Istnieje kilka dobrych odpowiedzi, ale myślę, że sednem jest podstawowe założenie przyczynowości, w sensie, że X „powodują” y, a jeśli spojrzysz na to w ten sposób, zobaczysz, że rozkład y jest „spowodowany” przez rozkład rh, to znaczy X i błędy (jeśli występują). Możesz wykonywać wiele ekonometrii przy bardzo ograniczonych założeniach dystrybucyjnych, a zwłaszcza bez normalności. Dzięki Bogu.
PatrickT

3
XpyE( Y )=e(y)=Xβy^ nie jest , a średnia populacji nie jest taka sama jak szacunkowa próbka tego. To znaczy, że druga rzecz nie jest w rzeczywistości tym samym, co pierwsza, ale jeśli zastąpisz ją oczekiwaniami ( ), oba będą równoważne. XβyE(y^)=E(y)=Xβ
Glen_b

Co to jest ? A jeśli zmienia się w , dlaczego zmienia? Zdecyduj, jakiej notacji chcesz użyć, wektora lub macierzy. Teraz, jeśli założymy, że twoja notacja jest czymś więcej niż bizzare: , tzn. definiujesz rozkład w kategoriach siebie i wszystkich innych obserwacji ! YIIXβ Y =X β Yi~N(x " i (Σxjx ' j )-1ΣxJrJ,Ď2)rıyjy^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2)yiyj
mpiktas

1
Głosowałem za pytaniem, ponieważ myślę, że notacja jest myląca, a to już spowodowało kilka subtelnie sprzecznych odpowiedzi.
mpiktas

Odpowiedzi:


9

W ustawieniach regresji liniowej często wykonuje się analizy i uzyskuje wyniki zależne od , tj. Zależne od „danych”. Potrzebne jest więc to, że jest normalny, to znaczy musi być normalny. Jak pokazuje przykład Petera Floma, można mieć normalność bez normalności , a zatem, ponieważ potrzebna jest normalność , jest to rozsądne założenie.y X ϵ ϵ y ϵXyXϵϵyϵ


9

Drugą definicję napisałbym jako

yiN(Xiβ,σ2)

lub (jak sugeruje Karl Oskar +1)

yi|XiN(Xiβ,σ2)

tj. założeniem modelowania jest to, że zmienna odpowiedzi jest zwykle rozkładana wokół linii regresji (która jest oszacowaniem średniej warunkowej), ze stałą wariancją . To nie to samo, co sugerowanie, że są normalnie rozłożone, ponieważ średnia rozkładu zależy od .y i X iσ2yiXi

Myślę, że widziałem podobne sformułowania w literaturze dotyczącej uczenia maszynowego; o ile widzę, jest to równoważne z pierwszą definicją, wszystko, co zrobiłem, to nieco inaczej wyrażać drugą formułę, aby wyeliminować i .Yϵiy^


3

Różnicę najłatwiej zilustrować przykładem. Oto prosty:

Załóżmy, że Y jest bimodalny, a modalność jest uwzględniana przez zmienną niezależną. Załóżmy na przykład, że Y jest wzrostem, a twoja próbka (z jakiegokolwiek powodu) składa się z dżokejów i koszykarzy. np. wR

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

pierwsza gęstość jest bardzo nienormalna. Ale resztki z modelu są bardzo bliskie normalności.

Jeśli chodzi o to, dlaczego ograniczenia zostały umieszczone w ten sposób - pozwolę komuś innemu na to odpowiedzieć.


1
Dziękuję Ci! Rozumiem, co masz na myśli z rozkładem bimodalnym. Dalsze pytanie: co, jeśli wariancje danych są różne (heteroscedastyczność?) Powiedz… wszyscy dżokeje są mali, ale wysokość koszykarzy jest bardzo zróżnicowana. Może dla nich wysoki <- rnorm (100,78,10). W jaki sposób taka sytuacja zmienia twoje założenia dotyczące lub ? ε iyiϵi
bill_e

W takim przypadku heteroscedastyczność byłaby problemem i musiałbyś użyć innej formy regresji lub ewentualnie transformacji, lub możesz dodać inną zmienną (w tym głupim przykładzie może to zrobić pozycja grana w koszykówkę).
Peter Flom - Przywróć Monikę

Nie jestem pewien, czy sformułowanie ma sugerować, że ys są normalnie rozmieszczone, tylko że mają normalny rozkład warunkowy.
Dikran Torbacz

2

Musisz dodać suscripted i do drugiego sformułowania: ponieważ musi być w stanie zmieniać się wraz z .
R x i

yiN(y^i,σε2)
y^xi

Jak już wspomniano, czym jest ? Jest to . Prowadzi to do sformułowania @DikranMarsupial przedstawia: Warto zauważyć, że jest to dokładnie to samo co twój pierwszy sformułowanie, ponieważ oba określają rozkład normalny, a oczekiwane wartości są równe. To znaczy: (I oczywiście wariancje są równe.) Innymi słowy, to jesty^ixiβ^

yiN(xiβ^,σε2)

E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]
nie różnica w założeniach, ale po prostu różnica notacyjna.

Powstaje więc pytanie, czy istnieje powód, aby preferować prezentowanie pomysłu przy użyciu pierwszego sformułowania?

Myślę, że odpowiedź jest twierdząca z dwóch powodów:

  1. Ludzie często mylą, czy surowe dane powinny być normalnie dystrybuowane (tj. ), czy też dane od / błędy powinny być normalnie dystrybuowane (tj. / ), na przykład patrz : Co jeśli resztki są normalnie rozłożone, ale nie jest?X T | X εYXY|Xε
  2. Ludzie często mylą to, co powinno być niezależne, surowe dane lub błędy. Co więcej, często wspominamy o tym, że coś powinno być identyfikowane (niezależne i identycznie dystrybuowane); jeśli myślisz w kategoriach może to być inne potencjalne źródło zamieszania, ponieważ może być niezależny, ale nie może być identycznie rozłożony, chyba że utrzyma się hipoteza zerowa (ponieważ średnia byłaby różna). Y | XY|XY|X

Uważam, że te konfuzje są bardziej prawdopodobne przy użyciu drugiego sformułowania niż pierwszego.


1
@Glen_b, nie śledzę twojego komentarza. Nie twierdzę, że jest równy , ale że jest równy . Indeksowaną indeksowania uwagi jest istotne. Chodzi o to, że przewidywana wartość dla danej obserwacji to . To nie ma nic do zrobienia w / średniej populacji . (Wygląda na to, że zapomniałem dodać czapki do moich bet, ale poprawiłem to teraz.) Xβ r ixi β I r ixi β Yy^Xβy^ixiβ^iy^ixiβ^Y
Gung - Przywróć Monikę

@Glen_b, gdyby to była próbka, oznacza, że ​​będzie to zamiast . Początkowo uznałem też, że notacja jest myląca, ale fakt, że wynika z oświadczeń, że i . Aby oba te elementy były prawdziwe, może być tylko . Y Y =XβRi=Xβ+εiεI=Yi - Y Y Xβy¯y^y^=Xβyi=Xβ+ϵiϵi=yiy^y^Xβ
Dikran Torbacz
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.