Słyszałem, jak Andrew Ng (w filmie, którego niestety już nie mogę znaleźć) opowiadał o tym, jak zmieniło się rozumienie lokalnych minimów w problemach głębokiego uczenia się w tym sensie, że są one obecnie uważane za mniej problematyczne, ponieważ w przestrzeniach wielowymiarowych (spotykanych w głębokie uczenie się) punkty krytyczne częściej są punktami siodłowymi lub płaskowyżami niż lokalnymi minimami.
Widziałem artykuły (np. Tę ), które omawiają założenia, zgodnie z którymi „każde lokalne minimum jest globalnym minimum”. Wszystkie te założenia są raczej techniczne, ale z tego, co rozumiem, mają tendencję do narzucania struktury sieci neuronowej, która czyni ją nieco liniową.
Czy uzasadnione jest twierdzenie, że w głębokim uczeniu się (w tym architekturach nieliniowych) płaskowyże są bardziej prawdopodobne niż lokalne minima? A jeśli tak, to czy kryje się za tym (prawdopodobnie matematyczna) intuicja?
Czy jest coś szczególnego w głębokim uczeniu się i punktach siodłowych?