Jak zauważył kjetil b halvorsen, na swój sposób cudem jest regresja liniowa dopuszczająca rozwiązanie analityczne. A dzieje się tak tylko dzięki liniowości problemu (w odniesieniu do parametrów). W OLS masz
który ma warunki pierwszego rzędu
- 2 ∑ i ( y i - x ′ i β ) x i = 0
W przypadku problemu z p
∑i(yi−x′iβ)2→minβ,
−2∑i(yi−x′iβ)xi=0
pZmienne (w tym na stałym poziomie, w razie potrzeby, istnieje kilka problemów regresji przez pochodzenie, za) jest to system z
równań i
p nieznanych. Co najważniejsze, jest to układ liniowy, dzięki czemu można znaleźć rozwiązanie przy użyciu standardowej
teorii i praktyki algebry liniowej . Ten system będzie miał rozwiązanie z prawdopodobieństwem 1, chyba że masz idealnie współliniowe zmienne.
pp
Teraz, dzięki regresji logistycznej, rzeczy nie są już takie proste. Zapisując funkcję log-wiarygodności,
a przy jego pochodna znaleźć MLE, mamy
∂ l
l ( y; x , β) = ∑jayjalnpja+ ( 1 - yja) ln( 1 - pja) ,pja= ( 1 + exp( - θja) )- 1,θja= x′jaβ,
Parametry
βwprowadzają to w bardzo nieliniowy sposób: dla każdego
iistnieje funkcja nieliniowa i są one dodawane razem. Nie ma rozwiązania analityczne (z wyjątkiem prawdopodobnie w banalnej sytuacji z dwóch obserwacji, czy coś takiego) i trzeba użyć
nieliniowych metod optymalizacji, aby znaleźć szacunki
p .
∂l∂β′=∑idpidθ(yipi−1−yi1−pi)xi=∑i[yi−11+exp(x′iβ)]xi
βiβ^
Nieco głębsze spojrzenie na problem (biorąc pod uwagę drugą pochodną) pokazuje, że jest to wypukły problem optymalizacji znalezienia maksimum funkcji wklęsłej (gloryfikowana parabola wielowymiarowa), więc jedno z nich istnieje i każdy rozsądny algorytm powinien go znaleźć szybko, albo wszystko wyleci w nieskończoność. To ostatnie dzieje się z regresją logistyczną, gdy dla niektórych cP r o b [ Yja= 1 | x′jaβ> c ] = 1do, tj. masz doskonałą prognozę. Jest to raczej nieprzyjemny artefakt: można by pomyśleć, że gdy masz doskonałą prognozę, model działa doskonale, ale co ciekawe, jest odwrotnie.