Zależność między MLE a najmniejszymi kwadratami w przypadku regresji liniowej

Hastie i Tibshirani wspominają w rozdziale 4.3.2 swojej książki, że w regresji liniowej podejście metodą najmniejszych kwadratów jest w rzeczywistości szczególnym przypadkiem maksymalnego prawdopodobieństwa. Jak możemy udowodnić ten wynik?

PS: Nie oszczędzaj żadnych szczegółów matematycznych.

regression maximum-likelihood least-squares

— Pradnyesh Joshi
źródło

To nie jest szczególny przypadek: są one identyczne, gdy rozkład błędów jest normalny.

— Zhanxiong

Model regresji liniowej

$Y = X\beta + \epsilon$ , gdzie $\epsilon \sim N(0,I\sigma^2)$

$Y \in \mathbb{R}^{n}$ , i $X \in \mathbb{R}^{n \times p}$ $\beta \in \mathbb{R}^{p}$

Zauważ, że nasz błąd modelu (resztkowy) to . Naszym celem jest znalezienie wektora ${\bf \epsilon = Y - X\beta}$ $\beta$ który minimalizuje $L_2$ norma podniesiona do kwadratu tego błędu.

Najmniejsze kwadraty

Podane dane $(x_1,y_1),...,(x_n,y_n)$ gdzie każdy $x_{i}$ jest $p$ wymiarowe, staramy się znaleźć:

{\hat{β}}_{L S} = \underset{β}{argmin} | | ϵ | |^{2} = \underset{β}{argmin} | | Y - X β | |^{2} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2}

$\widehat{\beta}_{LS} = {\underset \beta {\text{argmin}}} ||{\bf \epsilon}||^2 = {\underset \beta {\text{argmin}}} ||{\bf Y - X\beta}||^2 = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} ( y_i - x_{i}\beta)^2$

Maksymalne prawdopodobieństwo

Korzystając z powyższego modelu, możemy ustawić prawdopodobieństwo danych, biorąc pod uwagę parametry $\beta$ tak jak:

L (Y | X, β) = \prod_{i = 1}^{n} f (y_{i} | x_{i}, β)

$L(Y|X,\beta) = \prod_{i=1}^{n} f(y_i|x_i,\beta)$

gdzie $f(y_i|x_i,\beta)$ jest pdf rozkładu normalnego ze średnią 0 i wariancją $\sigma^2$ . Podłączanie:

L (Y | X, β) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}}

$L(Y|X,\beta) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_i - x_i\beta)^2}{2\sigma^2}}$

Teraz ogólnie, gdy mamy do czynienia z prawdopodobieństwami, matematycznie łatwiej jest wziąć dziennik przed kontynuowaniem (produkty stają się sumami, wykładnicze znikają), więc zróbmy to.

\log L (Y | X, β) = \sum_{i = 1}^{n} \log (\frac{1}{\sqrt{2 π σ^{2}}}) - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\log L(Y|X,\beta) = \sum_{i=1}^{n} \log(\frac{1}{\sqrt{2\pi\sigma^2}}) -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Ponieważ chcemy oszacowania maksymalnego prawdopodobieństwa, chcemy znaleźć maksimum powyższego równania w odniesieniu do $\beta$ . Pierwszy termin nie ma wpływu na nasze szacunki $\beta$ , abyśmy mogli to zignorować:

{\hat{β}}_{M L E} = \underset{β}{argmax} \sum_{i = 1}^{n} - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmax}}} \sum_{i=1}^{n} -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Należy zauważyć, że mianownik jest stałą w odniesieniu do $\beta$ . Na koniec zauważ, że przed sumą znajduje się znak ujemny. Znalezienie maksimum liczby ujemnej jest jak znalezienie minimum bez liczby ujemnej. Innymi słowy:

{\hat{β}}_{M L E} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2} = {\hat{β}}_{L S}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} (y_i - x_i\beta)^2 = \widehat{\beta}_{LS}$

Przypomnijmy, że aby to zadziałało, musieliśmy przyjąć pewne założenia modelu (normalność warunków błędu, średnia 0, stała wariancja). To sprawia, że najmniejszych kwadratów odpowiada MLE pod pewnymi warunkami. Zobacz tutaj i tutaj, aby uzyskać więcej dyskusji.

Dla kompletności zwróć uwagę, że rozwiązanie można zapisać jako:

β = (X^{T} X)^{- 1} X^{T} y

${\bf \beta = (X^TX)^{-1}X^Ty}$

— ilanman
źródło