20

Przeczytałem, że są to warunki korzystania z modelu regresji wielokrotnej:

reszty modelu są prawie normalne,
zmienność reszt jest prawie stała
reszty są niezależne i
każda zmienna jest liniowo powiązana z wynikiem.

Czym różnią się 1 i 2?

Możesz go zobaczyć tutaj:

Tak więc powyższy wykres mówi, że reszta, która wynosi 2 odchylenia standardowe, jest oddalona o 10 od Y-hat. Oznacza to, że reszty mają rozkład normalny. Nie możesz wywnioskować z tego 2? Czy zmienność reszt jest prawie stała?

regression multiple-regression assumptions

— Jwan622
źródło

7

Twierdziłbym, że ich kolejność jest nieprawidłowa. W kolejności ważności powiedziałbym 4, 3, 2, 1. W ten sposób każde dodatkowe założenie pozwala na zastosowanie modelu do rozwiązania większego zestawu problemów, w przeciwieństwie do kolejności w twoim pytaniu, gdzie najbardziej restrykcyjne założenie jest pierwszy.

— Matthew Drury

2

Te założenia są wymagane w przypadku wnioskowania statystycznego. Nie poczyniono żadnych założeń, aby zminimalizować sumę błędów do kwadratu.

— David Lane

1

Myślę, że miałem na myśli 1, 3, 2, 4. 1 musi być spełniony przynajmniej w przybliżeniu, aby model był w ogóle przydatny, 3 jest potrzebne, aby model był spójny, tj. Zbiegał się w coś stabilnego, gdy otrzymujesz więcej danych , 2 jest potrzebne, aby oszacowanie było skuteczne, tzn. Nie ma innego lepszego sposobu wykorzystania danych do oszacowania tej samej linii, a 4 jest potrzebne, przynajmniej w przybliżeniu, do przeprowadzenia testów hipotez dotyczących oszacowanych parametrów.

— Matthew Drury

3

Obowiązkowy link do posta na blogu A. Gelmana na temat Jakie są kluczowe założenia regresji liniowej? .

— usεr11852 mówi Przywróć Monic

2

Podaj źródło diagramu, jeśli nie jest to Twoja własna praca.

— Nick Cox

44

1. Normalny rozkład resztek :

Warunek normalności ma zastosowanie, gdy próbujesz uzyskać przedziały ufności i / lub wartości p.

nie jestwarunkiem Gaussa Markowa. $\varepsilon\vert X\sim N (0,\sigma^2 I_n)$

Ten wykres próbuje zilustrować rozkład punktów w populacji na niebiesko (z linią regresji populacji jako ciągłą cyjanową linią), nałożoną na przykładowy zestaw danych w dużych żółtych kropkach (z oszacowaną linią regresji wykreśloną jako przerywana żółta linia). Oczywiście dotyczy to tylko konsumpcji pojęciowej, ponieważ dla każdej wartości byłyby punkty nieskończoności $X = x$ - więc jest to graficzna dyskretyzacja ikonograficzna pojęcia regresji jako ciągłego rozkładu wartości wokół średniej (odpowiadającej przewidywanej wartości zmiennej „niezależnej”) przy każdej podanej wartości regresora lub zmiennej objaśniającej.

Gdybyśmy uruchomili diagnostyczne wykresy R na symulowanych danych „populacji”, otrzymalibyśmy ...

Wariancja z reszt jest stała wzdłuż wszystkich wartości $X.$

Typowa fabuła to:

Koncepcyjnie wprowadzenie wielu regresorów lub zmiennych objaśniających nie zmienia idei. Uważam, że praktyczny samouczek pakietu jest swirl()niezwykle pomocny w zrozumieniu, w jaki sposób regresja wielokrotna jest tak naprawdę procesem regresji zmiennych zależnych względem siebie, przenosząc resztkową, niewyjaśnioną zmienność w modelu; lub prościej, wektorowa forma prostej regresji liniowej :

Ogólna technika polega na wybraniu jednego regresora i zastąpieniu wszystkich innych zmiennych resztami ich regresji względem tej.

2. Zmienność reszt jest prawie stała (Homoskedasticity) :

$E[ \varepsilon_i^2 \vert X ] = \sigma^2$

Problem naruszenie tego warunku jest:

Heteroskedastyczność ma poważne konsekwencje dla estymatora OLS. Chociaż estymator OLS pozostaje bezstronny, oszacowana SE jest błędna. Z tego powodu nie można polegać na przedziałach ufności i testach hipotez. Ponadto estymator OLS nie jest już NIEBIESKI.

Na tym wykresie wariancja rośnie wraz z wartościami regresora (zmiennej objaśniającej), a nie pozostaje stała. W tym przypadku reszty są zwykle rozkładane, ale wariancja tego rozkładu normalnego zmienia się (zwiększa) wraz ze zmienną objaśniającą.

Zauważ, że „prawdziwa” (regresyjna) linia regresji nie zmienia się w stosunku do linii regresji populacyjnej pod homoskedastycznością na pierwszym wykresie (jednolity ciemnoniebieski), ale intuicyjnie jasne jest, że szacunki będą bardziej niepewne.

Wykresy diagnostyczne w zestawie danych to ...

które odpowiadają rozkładowi „ciężkiego ogona” , co ma sens, gdybyśmy teleskopowali wszystkie pionowe wykresy gaussowskie „obok siebie” w jeden, który zachowałby swój kształt dzwonu, ale miałby bardzo długie ogony.

@Glen_b „... pełne uwzględnienie różnicy między nimi rozważałoby również homoskedastyczne, ale nie normalne”.

Reszty są mocno wypaczone, a wariancja wzrasta wraz z wartościami zmiennej objaśniającej.

To byłyby wykresy diagnostyczne ...

odpowiadający zaznaczonej prawej skośności.

Aby zamknąć pętlę, zobaczymy również wypaczenie w modelu homoskedastycznym z nie Gaussowskim rozkładem błędów:

z wykresami diagnostycznymi jako ...

— Antoni Parellada
źródło

2

Dziękuję Ci bardzo. Czułem, że konieczne jest zlikwidowanie rażącej dyskretyzacji populacji wykorzystywanej jako narzędzie do wizualizacji. Mogę opublikować kod, ale waham się, ponieważ był pewien stopień kreatywnej matematyki :-)

— Antoni Parellada

3

Ilustracja rozróżnienia między błędami normalnymi a błędami homoscedastycznymi, pokazująca wykres spełniający oba te kryteria, a następnie pokazująca normalny, ale nie homoskedastyczny, jest doskonała. Wydaje mi się, że pełne omówienie różnicy między nimi rozważałoby również homoskedastyczne, ale nie normalne. [Nie sugeruję dodania takiej ilustracji, ale jest to przydatne trzecie ramię, o którym ludzie

— powinni

7

To nie wina OP, ale zaczynam męczyć się czytając takie dezinformacje.

Przeczytałem, że są to warunki korzystania z modelu regresji wielokrotnej:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

„Model regresji wielokrotnej” to tylko etykieta deklarująca, że jedną zmienną można wyrazić jako funkcję innych zmiennych.

Ani prawdziwy warunek błędu, ani reszty modelu nie muszą być niczym szczególnym - jeśli reszty wyglądają normalnie, jest to dobre do późniejszego wnioskowania statystycznego.

Zmienność (wariancja) terminu błędu nie musi być prawie stała - jeśli nie jest, mamy model z heteroskedastycznością, który obecnie jest dość łatwy do opanowania.

Resztki w żadnym wypadku nie są niezależne, ponieważ każda jest funkcją całej próbki. Te prawdziwe warunki błędach nie muszą być niezależne -jeżeli nie są mamy model z autokorelacji, która, choć trudniejsze niż heteroskedastyczności, mogą być uregulowane do pewnego stopnia.

Każda zmienna nie musi być liniowo powiązana z wynikiem. W rzeczywistości rozróżnienie między regresją „liniową” i „nieliniową” nie ma nic wspólnego z relacją między zmiennymi - ale z tym, jak nieznane współczynniki wchodzą w relację.

Można powiedzieć, że jeśli pierwsze trzy trzymają się, a czwarty jest poprawnie określony, to otrzymujemy „Klasyczny normalny model regresji liniowej”, który jest tylko jednym (choć historycznie pierwszym) wariantem modeli regresji wielokrotnej.

— Alecos Papadopoulos
źródło

3

X β

$X\beta$

X

$X$

β

$\beta$

X

$X$

2

W pytaniu brakuje absolutnie fundamentalnego założenia, że warunkowe oczekiwanie na warunki błędu wynosi zero!

— Matthew Gunn

1

@MatthewGunn Cóż, ... otwiera to bardzo dużą dyskusję na temat tego, co robimy z tym modelem: jeśli weźmiemy pogląd „deterministyczny / inżynierski”, potrzebujemy tego założenia, aby upewnić się, że konkretność jest rzeczywiście deterministyczna. Jeśli chcemy oszacować funkcję warunkowego oczekiwania w odniesieniu do konkretnych regresorów , wówczas kodowanie jest automatycznie spełnione (lub przynajmniej jego słabsza postać, ortogonalność).

— Alecos Papadopoulos

1

@AlecosPapadopoulos Tak, w pewnym sensie zwykłe najmniejsze kwadraty zawsze dają oszacowanie czegoś! Ale to może nie być coś, czego chcesz. Jeśli PO chce po prostu liniowej, warunkowej funkcji oczekiwania w odniesieniu do konkretnych regresorów, zgadzam się, że warunek jest automatycznie przyjmowany. Ale jeśli OP próbuje oszacować jakiś parametr, uzasadnienie warunku ortogonalności ma kluczowe znaczenie!

— Matthew Gunn

@MatthewGunn Rzeczywiście tak jest.

— Alecos Papadopoulos

3

Antoni Parellada miał doskonałą odpowiedź z ładną ilustracją graficzną.

Chcę tylko dodać jeden komentarz, aby podsumować różnicę między dwoma stwierdzeniami

reszty modelu są prawie normalne

zmienność reszt jest prawie stała

Oświadczenie 1 podaje, że „kształt” reszty to „krzywa w kształcie dzwonu” .
Komunikat 2 poprawia rozpiętość w postaci „” (ciągły), na wykresie Antoni Parellada 3 na są 3 dzwon kształcie krzywych, ale są one różne rozproszonym.

— Haitao Du
źródło

1

Nie ma jednego unikalnego zestawu założeń regresji, ale istnieje kilka odmian. Niektóre z tych zestawów założeń są bardziej rygorystyczne, tj. Węższe niż inne. Ponadto w większości przypadków nie potrzebujesz, aw wielu przypadkach nie możesz naprawdę założyć, że rozkład jest normalny.

Przytoczone przez ciebie założenia są bardziej rygorystyczne niż większość, ale sformułowane są w niepotrzebnie luźnym języku. Na przykład, co dokładnie jest prawie ? Ponadto to nie resztki, na które narzucamy założenia, to błędy . Resztki są szacunkami błędów, których nie można zaobserwować. To mówi mi, że cytujesz z kiepskiego źródła. Wyrzuć to.

Krótka odpowiedź na twoje pytanie jest taka, że jeśli weźmiesz pod uwagę jakikolwiek rozkład, np. Rozkład t Studenta, dla twoich błędów (użyję poprawnego terminu w mojej odpowiedzi), możesz zobaczyć, jak błędy mogą mieć „prawie stałą” zmienność bez bycia z rozkładu normalnego i jak posiadanie „prawie stałej” wariancji nie wymaga rozkładu normalnego. Innymi słowy, nie, nie można wymyślić jednego założenia z drugiego bez dodatkowych wymagań.

y_{ja} = X_{ja} β + ε_{ja} ε_{ja} \sim N. (0, σ^{2)})

$y_i=X_i\beta+\varepsilon_i\\ \varepsilon_i\sim\mathcal N(0,\sigma^2)$

$\mathcal N(.)$
$\sigma$ $\varepsilon_i$
$\mathcal N$ $X$
$y=X\beta$

Kiedy więc w ten sposób połączymy wszystkie założenia w jedno lub dwa równania, może się wydawać, że wszystkie są od siebie zależne, co nie jest prawdą. Pokażę to później.

Przykład 1

y_{ja} = X_{ja} β + ε_{ja} ε_{ja} \sim t_{ν}

$y_i=X_i\beta+\varepsilon_i\\ \varepsilon_i\sim t_\nu$

ν

$\nu$

Przykład 2

y_{ja} = X_{ja} β + ε_{ja} ε_{ja} \sim N. (0, σ^{2)} ja)

$y_i=X_i\beta+\varepsilon_i\\ \varepsilon_i\sim\mathcal N(0,\sigma^2 i)$

i

$i$

— Aksakal
źródło

1

Próbowałem dodać nowy wymiar dyskusji i uczynić ją bardziej ogólną. Przepraszam, jeśli było zbyt szczątkowe.

Model regresji jest formalnym sposobem wyrażenia dwóch podstawowych składników relacji statystycznej:

$Y$ $X$
Rozrzut punktów wokół krzywej relacji statystycznej.

$Y$

Postulując, że:

$Y$ $X$
$X$

$Y$ (symetryczne, skośne) i na inne sposoby.

$Y$ $X$

$Y$ $X$ $Y$ $X$ w relacji statystycznej.

Źródło: Stosowane liniowe modele statystyczne, KNNL

$Y$ $X$

Y_{ja} = β_{0} + β_{1} X_{ja} + ϵ

$Y_i = \beta_0\ + \beta_1X_i + \epsilon$

$Y_i$ $X_i$

$\beta_0\\$ $\beta_1\\$ są parametrami

$\epsilon\\$ $N(O,\sigma^2)$

$i$

$E(Y|X)$ $\beta_0\\$ $\beta_1\\$ $\sigma^2$ $\beta_0\\$ $\beta_1\\$ $\sigma^2$

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

Czym różnią się 1 i 2?

Przechodzę do pytania

Pierwsze i drugie założenie, jak twierdzisz, to dwie części tego samego założenia normalności z zerową średnią i stałą wariancją. Myślę, że należy postawić pytanie jako konsekwencje dwóch założeń dla normalnego modelu regresji błędów, a nie różnicę między tymi dwoma założeniami. Mówię to, ponieważ wydaje się, że porównuje się jabłka z pomarańczami, ponieważ próbujesz znaleźć różnicę między założeniami dotyczącymi rozkładu rozproszenia punktów i założeń nad jego zmiennością. Zmienność jest własnością rozkładu. Postaram się więc odpowiedzieć na bardziej odpowiednie pytanie o konsekwencje obu założeń.

Przy założeniu normalności estymatory maksymalnego prawdopodobieństwa (MLE) są takie same jak estymatory najmniejszych kwadratów, a MLE mają właściwość bycia UMVUE, co oznacza, że mają minimalną wariancję między wszystkimi estymatorami.

$\beta_0\\$ $\beta_1\\$ $t$

— naiwny
źródło

1

To doskonały opis regresji. Ale jak odpowiada na konkretne pytanie w tym wątku?

— whuber

Założenia regresji wielokrotnej: czym różni się założenie normalności od założenia o stałej wariancji?

1. Normalny rozkład resztek :

2. Zmienność reszt jest prawie stała (Homoskedasticity) :

Przykład 1

Przykład 2