Model regresji liniowej
Y=Xβ+ϵ , gdzieϵ∼N(0,Iσ2)
Y∈Rn , iX∈Rn×pβ∈Rp
Zauważ, że nasz błąd modelu (resztkowy) to . Naszym celem jest znalezienie wektoraϵ=Y−Xββ który minimalizujeL2 norma podniesiona do kwadratu tego błędu.
Najmniejsze kwadraty
Podane dane (x1,y1),...,(xn,yn) gdzie każdy xi jest p wymiarowe, staramy się znaleźć:
βˆLS=argminβ||ϵ||2=argminβ||Y−Xβ||2=argminβ∑i=1n(yi−xiβ)2
Maksymalne prawdopodobieństwo
Korzystając z powyższego modelu, możemy ustawić prawdopodobieństwo danych, biorąc pod uwagę parametry β tak jak:
L(Y|X,β)=∏i=1nf(yi|xi,β)
gdzie f(yi|xi,β) jest pdf rozkładu normalnego ze średnią 0 i wariancją σ2. Podłączanie:
L(Y|X,β)=∏i=1n12πσ2−−−−√e−(yi−xiβ)22σ2
Teraz ogólnie, gdy mamy do czynienia z prawdopodobieństwami, matematycznie łatwiej jest wziąć dziennik przed kontynuowaniem (produkty stają się sumami, wykładnicze znikają), więc zróbmy to.
logL(Y|X,β)=∑i=1nlog(12πσ2−−−−√)−(yi−xiβ)22σ2
Ponieważ chcemy oszacowania maksymalnego prawdopodobieństwa, chcemy znaleźć maksimum powyższego równania w odniesieniu do β. Pierwszy termin nie ma wpływu na nasze szacunkiβ, abyśmy mogli to zignorować:
βˆMLE=argmaxβ∑i=1n−(yi−xiβ)22σ2
Należy zauważyć, że mianownik jest stałą w odniesieniu do β. Na koniec zauważ, że przed sumą znajduje się znak ujemny. Znalezienie maksimum liczby ujemnej jest jak znalezienie minimum bez liczby ujemnej. Innymi słowy:
βˆMLE=argminβ∑i=1n(yi−xiβ)2=βˆLS
Przypomnijmy, że aby to zadziałało, musieliśmy przyjąć pewne założenia modelu (normalność warunków błędu, średnia 0, stała wariancja). To sprawia, że najmniejszych kwadratów odpowiada MLE pod pewnymi warunkami. Zobacz tutaj i tutaj, aby uzyskać więcej dyskusji.
Dla kompletności zwróć uwagę, że rozwiązanie można zapisać jako:
β=(XTX)−1XTy