Regresja liniowa: jakikolwiek nienormalny rozkład dający tożsamość OLS i MLE?

13

To pytanie jest inspirowane długą dyskusją w komentarzach tutaj: W jaki sposób regresja liniowa wykorzystuje rozkład normalny?

W zwykłym modelu regresji liniowej, dla uproszczenia, zapisanym tutaj tylko z jednym predyktorem: gdzie są znanymi stałymi, a są zerowymi średnimi niezależnymi błędami. Jeśli dodatkowo przyjmiemy rozkład normalny dla błędów, wówczas zwykłe estymatory najmniejszych kwadratów i estymatory maksymalnego prawdopodobieństwa są identyczne.

Y_{i} = β_{0} + β_{1} x_{i} + ϵ_{i}

$Y_i = \beta_0 + \beta_1 x_i + \epsilon_i$

x_{i}

$x_i$

ϵ_{i}

$\epsilon_i$

β_{0}, β_{1}

$\beta_0, \beta_1$

Więc moje proste pytanie: czy istnieje jakikolwiek inny rozkład terminów błędu, taki że mle są identyczne ze zwykłym estymatorem najmniejszych squaeres? Jedna implikacja jest łatwa do pokazania, druga nie.

— kjetil b halvorsen
źródło

1

(+1) Musiałby to być rozkład wyśrodkowany wokół zera i wydaje się, że byłby pomocny, gdyby był symetryczny. Niektórzy kandydaci, którzy przychodzą na myśl, na przykład rozkład t- lub Laplace'a, nie wydają się załatwić sprawy, ponieważ MLE, nawet w stałym jedynym przypadku, nie jest dostępny w formie zamkniętej lub podawany odpowiednio przez medianę.

— Christoph Hanck

patrz także stats.stackexchange.com/questions/99014/… , wydaje się, że jest tylko tyle do znalezienia

— Christoph Hanck

Jestem pewien, że odpowiedź brzmi „nie”. Trudno jednak napisać dokładny dowód.

— Gordon Smyth

11

W celu oszacowania maksymalnego prawdopodobieństwa obliczamy

{\hat{β}}_{M L} : \sum \frac{\partial \ln f (ϵ_{i})}{\partial β} = 0 ⟹ \sum \frac{f^{'} (ϵ_{i})}{f (ϵ_{i})} x_{i} = 0

$\hat \beta_{ML}: \sum \frac {\partial \ln f(\epsilon_i)}{\partial \beta} = \mathbf 0 \implies \sum \frac {f'(\epsilon_i)}{f(\epsilon_i)}\mathbf x_i = \mathbf 0$

ostatnia zależność uwzględniająca strukturę liniowości równania regresji.

Dla porównania estymator OLS spełnia wymagania

\sum ϵ_{i} x_{i} = 0

$\sum \epsilon_i\mathbf x_i = \mathbf 0$

Aby uzyskać identyczne wyrażenia algebraiczne dla współczynników nachylenia, musimy mieć gęstość dla składnika błędu, tak aby

\frac{f^{'} (ϵ_{i})}{f (ϵ_{i})} = \pm c ϵ_{i} ⟹ f^{'} (ϵ_{i}) = \pm c ϵ_{i} f (ϵ_{i})

$\frac {f'(\epsilon_i)}{f(\epsilon_i)} = \pm \;c\epsilon_i \implies f'(\epsilon_i)= \pm \;c\epsilon_if(\epsilon_i)$

Są to równania różniczkowe postaci które mają rozwiązania $y' = \pm\; xy$

\int \frac{1}{y} d y = \pm \int x d x ⟹ \ln y = \pm \frac{1}{2} x^{2}

$\int \frac 1 {y}dy = \pm \int x dx\implies \ln y = \pm\;\frac 12 x^2$

⟹ y = f (ϵ) = \exp {\pm \frac{1}{2} c ϵ^{2}}

$\implies y = f(\epsilon) = \exp\left \{\pm\;\frac 12 c\epsilon^2\right\}$

Każda funkcja, która ma to jądro i integruje się z jednością w odpowiedniej domenie, sprawi, że MLE i OLS dla współczynników nachylenia będą identyczne. Mianowicie szukamy

g (x) = A \exp {\pm \frac{1}{2} c x^{2}} : \int_{a}^{b} g (x) d x = 1

$g(x)= A\exp\left \{\pm\;\frac 12 cx^2\right\} : \int_a^b g(x)dx =1$

Czy istnieje taki który nie jest normalną gęstością (lub półnormalną lub pochodną funkcji błędu)? $g$

Na pewno. Ale jeszcze jedną rzeczą, którą należy wziąć pod uwagę, jest następująca: jeśli użyjemy znaku plus w wykładniku i symetrycznej obsłudze na przykład wokół zera, otrzymamy gęstość, która ma unikalne minimum pośrodku i dwie lokalne maksima na granice wsparcia.

— Alecos Papadopoulos
źródło

Świetna odpowiedź (+1), ale jeśli używa się znaku plus w funkcji, czy jest to nawet gęstość? Wydaje się zatem, że funkcja ma całkę nieskończoną, a zatem nie może być znormalizowana do funkcji gęstości. W takim przypadku pozostaje nam jedynie rozkład normalny.

— Ben - Przywróć Monikę

1

@Ben Dzięki. Wydaje się, że domyślnie zakładasz, że zakres zmiennej losowej będzie miał wartość plus / minus nieskończoność. Ale możemy zdefiniować wartość rv do zasięgu w ograniczonym przedziale, w którym to przypadku możemy bardzo dobrze użyć znaku plus. Dlatego w moich wyrażeniach użyłem jako granic integracji .

(a, b)

$(a,b)$

— Alecos Papadopoulos

To prawda - zakładałem, że.

— Ben - Przywróć Monikę

5

Jeśli zdefiniujemy OLS jako rozwiązanie dla dowolnej gęstości takie, że jest akceptowalny. Oznacza to na przykład, że gęstości postaci są dopuszczalne ponieważ współczynnik nie zależy od parametru . Istnieje zatem nieskończona liczba takich rozkładów.

\arg_{β_{0}, β_{1}} min \sum_{i = 1}^{n} (y_{i} - β_{0} - β_{1} x_{i})^{2}

$\arg_{\beta_0,\beta_1}\min\sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2$

f (y | x, β_{0}, β_{1})

$f(y|x,\beta_0,\beta_1)$

\arg_{β_{0}, β_{1}} min \sum_{i = 1}^{n} \log {f (y_{i} | x_{i}, β_{0}, β_{1})} = \arg_{β_{0}, β_{1}} min \sum_{i = 1}^{n} (y_{i} - β_{0} - β_{1} x_{i})^{2}

$\arg_{\beta_0,\beta_1}\min\sum_{i=1}^n \log\{f(y_i|x_i,\beta_0,\beta_1)\}=\arg_{\beta_0,\beta_1}\min\sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2$

f (y | x, β_{0}, β_{1}) = f_{0} (y | x) \exp {- ω (y_{i} - β_{0} - β_{1} x_{i})^{2}}

$f(y|x,\beta_0,\beta_1)=f_0(y|x)\exp\{-\omega(y_i-\beta_0-\beta_1x_i)^2\}$

f_{0} (y | x)

$f_0(y|x)$

(β_{0}, β_{1})

$(\beta_0,\beta_1)$

Innym ustawieniem, w którym oba estymatory pokrywają się, jest to, gdy dane pochodzą z sferycznie symetrycznego rozkładu , a mianowicie, gdy dane (wektorowe) mają gęstość warunkową z funkcją malejącą. (W tym przypadku OLS jest nadal dostępny, chociaż założenie o niezależności tylko w przypadku Normalnym). $\mathbf{y}$

h (| | y - X β | |)

$h(||\mathbf{y}-\mathbf{X}\beta||)$

h (\cdot)

$h(\cdot)$

ϵ_{i}

$\epsilon_i$

— Xi'an
źródło

1

Nie wydaje mi się to poprawne. Jeśli użyjesz innego rozkładu sferyczno-symetrycznego, czy nie doprowadziłoby to do minimalizacji innej funkcji normy niż kwadrat (a zatem nie byłby to oszacowanie metodą najmniejszych kwadratów)?

— Ben - Przywróć Monikę

1

Nie wiedziałem o tym pytaniu, dopóki @ Xi'an nie zaktualizował się o odpowiedź. Istnieje bardziej ogólne rozwiązanie. Rozkłady wykładnicze rodziny z niektórymi parametrami ustalają wydajność na rozbieżności Bregmana. Dla takich rozkładów średnia to minimalizator. Środek minimalizujący OLS jest również środkiem. Dlatego dla wszystkich takich rozkładów powinny się one pokrywać, gdy funkcja liniowa jest powiązana ze średnim parametrem.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.75.6958&rep=rep1&type=pdf

— Cagdas Ozgenc
źródło