Obecnie przygotowuję się do egzaminu z sieci neuronowych. W kilku protokołach z poprzednich badań czytałem, że funkcje aktywacyjne neuronów (w perceptronach wielowarstwowych) muszą być monotoniczne.
Rozumiem, że funkcje aktywacyjne powinny być rozróżnialne, mieć pochodną, która w większości punktów nie jest równa 0, i być nieliniowa. Nie rozumiem, dlaczego bycie monotonnym jest ważne / pomocne.
Znam następujące funkcje aktywacyjne i że są one monotoniczne:
- ReLU
- Sigmoid
- Tanh
- Softmax: Nie jestem pewien, czy definicja monotoniczności ma zastosowanie do funkcji przy
- Softplus
- (Tożsamość)
Jednak nadal nie widzę żadnego powodu, dla którego na przykład .
Dlaczego funkcje aktywacyjne muszą być monotoniczne?
(Powiązane pytanie poboczne: czy jest jakiś powód, dla którego funkcja logarytmiczna / wykładnicza nie jest używana jako funkcja aktywacyjna?)