Podczas uczenia sieci neuronowej za pomocą algorytmu propagacji wstecznej do określenia aktualizacji masy używana jest metoda opadania gradientu. Moje pytanie brzmi: Zamiast używać metody opadania gradientu, aby powoli zlokalizować punkt minimalny w odniesieniu do określonej masy, dlaczego nie ustawimy po prostu pochodnej i znaleźć wartość masyw,która minimalizuje błąd?
Ponadto, dlaczego jesteśmy pewni, że funkcja błędu w propagacji wstecznej będzie minimalna? Czy nie może okazać się, że funkcja błędu jest maksimum? Czy istnieje specyficzna właściwość funkcji zgniatania, która gwarantuje, że sieć z dowolną liczbą ukrytych węzłów o dowolnych wagach i wektorach wejściowych zawsze da funkcję błędu, która ma pewne minima?