TL; DR
Polecam korzystanie z LIPO. Jest to możliwe do udowodnienia, poprawne i lepsze niż zwykłe wyszukiwanie losowe (PRS). Jest także niezwykle prosty do wdrożenia i nie ma hiperparametrów. Nie przeprowadziłem analizy porównującej LIPO z BO, ale oczekuję, że prostota i wydajność LIPO implikuje, że przewyższy BO.
(Zobacz także: Jakie są niektóre z wad bayesowskiej optymalizacji hiperparametrów? )
Optymalizacja bayesowska
Metody typu Bayesian Optimization budują modele zastępcze procesu Gaussa do eksploracji przestrzeni parametrów. Główną ideą jest to, że krotki parametrów, które są bliżej siebie, będą miały podobne wartości funkcji, więc założenie struktury współwariancji między punktami pozwala algorytmowi na wykształcone domysły na temat tego, która krotka z najlepszym parametrem jest najbardziej warta wypróbowania w następnej kolejności. Ta strategia pomaga zmniejszyć liczbę ocen funkcji; w rzeczywistości motywacja metod BO polega na utrzymywaniu jak najniższej liczby ocen funkcji, przy jednoczesnym „korzystaniu z całego bawołu” w celu odgadnięcia, który punkt należy przetestować. Istnieją różne liczby zasług (oczekiwana poprawa, oczekiwana poprawa kwantylowa, prawdopodobieństwo poprawy ...), które są używane do porównywania punktów do odwiedzenia w następnej kolejności.
Porównaj to z czymś w rodzaju wyszukiwania siatki, która nigdy nie użyje żadnych informacji z poprzednich ocen funkcji, aby poinformować, gdzie iść dalej.
Nawiasem mówiąc, jest to również potężna technika optymalizacji globalnej i jako taka nie przyjmuje żadnych założeń dotyczących wypukłości powierzchni. Dodatkowo, jeśli funkcja jest stochastyczna (powiedzmy, że oceny zawierają pewne nieodłączne szumy losowe), można to bezpośrednio uwzględnić w modelu GP.
Z drugiej strony będziesz musiał dopasować co najmniej jednego lekarza ogólnego na każdej iteracji (lub kilka, wybierając „najlepsze” lub uśredniając alternatywy lub metody w pełni bayesowskie). Następnie model służy do tworzenia (prawdopodobnie tysięcy) prognoz, zwykle w postaci lokalnej optymalizacji wieloczęściowej, z obserwacją, że ocena funkcji prognozowania GP jest znacznie tańsza niż funkcja podlegająca optymalizacji. Ale nawet z tym narzutem obliczeniowym zdarza się, że nawet funkcje niewypukłe można zoptymalizować za pomocą stosunkowo niewielkiej liczby wywołań funkcji.
Często cytowanym artykułem na ten temat jest Jones i in. , „Skuteczna globalna optymalizacja drogich funkcji czarnej skrzynki”. Istnieje jednak wiele odmian tego pomysłu.
Wyszukiwanie losowe
p q
q= 0,95p = 0,95100 × ( 1 - q) = 5nqn= 0,95n1 - 0,95n. Łącząc to wszystko, mamy
1 - qn≥ p⟹n ≥ log( 1 - p )log( q)
n ≥ 59
n = 60n = 60
Ponieważ masz probabilistyczną gwarancję tego, jak dobre są wyniki, może to być przekonujące narzędzie, aby przekonać szefa, że nie trzeba przeprowadzać więcej eksperymentów.
LIPO i jego warianty
To ekscytujące przybycie, które, jeśli nie jest nowe , z pewnością jest dla mnie nowe. Przebiega przez naprzemienne umieszczanie świadomych granic funkcji i próbkowanie od najlepszej granicy oraz stosowanie przybliżeń kwadratowych. Nadal pracuję nad wszystkimi szczegółami, ale myślę, że jest to bardzo obiecujące. To jest miły artykuł na blogu , a artykuł napisali Cédric Malherbe i Nicolas Vayatis „ Globalna optymalizacja funkcji Lipschitza ”.