Tutaj czerpię wszystkie niezbędne właściwości i tożsamości, aby rozwiązanie było samodzielne, ale oprócz tego wyprowadzenie jest czyste i łatwe. Sformalizujmy naszą notację i napiszmy nieco funkcję zwartości. Rozważmy próbki takie, że i . Przypomnijmy, że w binarnej regresji logistycznej zwykle mamy funkcję hipotezy jest funkcją logistyczną. Formalniem{xi,yi}xi∈Rdyi∈Rhθ
hθ(xi)=σ(ωTxi)=σ(zi)=11+e−zi,
gdzie oraz . Funkcja straty (która moim zdaniem OP nie ma znaku ujemnego) jest następnie definiowana jako:ω∈Rdzi=ωTxi
l(ω)=∑i=1m−(yilogσ(zi)+(1−yi)log(1−σ(zi)))
Istnieją dwie ważne właściwości funkcji logistycznej, które wyprowadzam tutaj na przyszłość. Najpierw zauważ, że .1−σ(z)=1−1/(1+e−z)=e−z/(1+e−z)=1/(1+ez)=σ(−z)
Zauważ też, że
∂∂zσ(z)=∂∂z(1+e−z)−1=e−z(1+e−z)−2=11+e−ze−z1+e−z=σ(z)(1−σ(z))
Zamiast podejmować pochodnych w odniesieniu do komponentów, tutaj będziemy pracować bezpośrednio z wektorami (można przejrzeć pochodne wektorami tutaj ). Hessian funkcji straty jest podany przez , ale najpierw pamiętaj, że i .l(ω)∇⃗ 2l(ω)∂z∂ω=xTω∂ω=xT∂z∂ωT=∂ωTx∂ωT=x
Niech . Wykorzystując powyższe właściwości i regułę łańcuchali(ω)=−yilogσ(zi)−(1−yi)log(1−σ(zi))
∂logσ(zi)∂ωT∂log(1−σ(zi))∂ωT=1σ(zi)∂σ(zi)∂ωT=1σ(zi)∂σ(zi)∂zi∂zi∂ωT=(1−σ(zi))xi=11−σ(zi)∂(1−σ(zi))∂ωT=−σ(zi)xi
Teraz jest to banalne
∇⃗ li(ω)=∂li(ω)∂ωT=−yixi(1−σ(zi))+(1−yi)xiσ(zi)=xi(σ(zi)−yi)
uff!
Naszym ostatnim krokiem jest obliczenie Hesji
∇⃗ 2li(ω)=∂li(ω)∂ω∂ωT=xixTiσ(zi)(1−σ(zi))
Dla próbek mamy . Jest to równoważne konkatenację wektorów kolumny do macierzy o rozmiarze , tak że . Terminy skalarne są łączone w macierz diagonalną tak że . Wreszcie dochodzimy do wnioskum∇⃗ 2l(ω)=∑mi=1xixTiσ(zi)(1−σ(zi))xi∈RdXd×m∑mi=1xixTi=XXTDDii=σ(zi)(1−σ(zi))
H⃗ (ω)=∇⃗ 2l(ω)=XDXT
Szybsze podejście można uzyskać, biorąc pod uwagę wszystkie próbki od początku i zamiast tego pracować z pochodnymi macierzowymi. Dodatkowo, w tym sformułowaniu banalne jest wykazanie, że jest wypukły. Niech będzie dowolnym wektorem takim, że . Następniel(ω)δδ∈Rd
δTH⃗ (ω)δ=δT∇⃗ 2l(ω)δ=δTXDXTδ=δTXD(δTX)T=∥δTDX∥2≥0
od i . To implikuje, że jest dodatnio-pół-skończony, a zatem jest wypukły (ale nie silnie wypukły).D>0∥δTX∥≥0Hl