Wyprowadzenie BFGS jest bardziej intuicyjne, gdy weźmie się pod uwagę (ściśle) funkcjonały wypukłego kosztu:
Jednak niektóre
t informacje niezbędne jest: Załóżmy chce się minimalizować wypukłą funkcjonalny
Powiedz, że istnieje przybliżone rozwiązanie . Następnie przybliżamy minimum do minimum obciętego rozszerzenia Taylora
Oznacza to, że szuka się takiego, że jest minimalne i ustawia . Obliczenie gradientu - „względem ” - i ustawienie go na zero daje relację
H ( x k ) [ x k + 1 - x k ] = ∇ f ( x k + 1 ) - ∇ f ( x k ) , H
fa( x ) → minx ∈ Rn.
f f ( x k + p ) ≈ f ( x k ) + ∇ f ( x k ) T p + 1xkfafa( xk+ p ) ≈ f( xk) + ∇ f( xk)T.p + 12)pT.H.( xk) p .( ∗ )
p( ∗ )xk + 1: = xk+ p( ∗ )pH.( xk) [ xk + 1- xk] = ∇ f( xk + 1) - ∇ f( xk) ,
gdzie jest „jakobianem gradientu” lub macierzą Hesji.
H.
Ponieważ obliczenia i inwersja Hesjan są drogie ...
... krótka odpowiedź
(por. aktualizacja Broydena) może być tak, że aktualizacja BFGS minimalizuje
w inteligentnie wybranej ważonej normie Frobeniusa, z zastrzeżeniemH.- 1k + 1
∥ H.- 1k- H- 1∥W.
- H.[ xk + 1- xk] = ∇ f( xk + 1) - ∇ f( xk) - po to jest jeden - i
- H.T.= H , ponieważ Hesjan jest symetryczny.
Następnie wybór masy w jako odwrotność uśrednionego Heskiego , por. tutaj dla instrukcji, ale bez dowodu, podaje formułę aktualizacji BFGS (z ).W.∥ H.∥W.: = ∥ W.1 / 2H.W.1 / 2∥fa
G : = ∫10H.( xk+ τp ) dταk= 1
Główne punkty to:
- Próbuje się zbliżyć rozwiązanie do faktycznych kosztów przez rozwiązanie dla kwadratowego przybliżenia
- Obliczenia Hesji i ich odwrotności są drogie. Preferuje się proste aktualizacje.
- Aktualizacja jest wybierana optymalnie dla odwrotnego, a nie dla samego Hesji.
- To, że jest to aktualizacja rangi 2, jest konsekwencją konkretnego wyboru wag w normie Frobeniusa.
Już odpowiedź powinna zawierać jak wybrać wagi, jak do tej pracy za problemy nonconvex (gdzie pojawia się krzywizny stan, który wymaga skalowania kierunku szukaj ), i jak czerpać rzeczywistego wzoru na aktualizację. Referencje znajdują się tutaj (w języku niemieckim).p