Czytałem artykuł Klasyfikacja ImageNet z głębokimi sieciami neuronowymi splotowymi, aw części 3, w której wyjaśnili architekturę swojej sieci neuronowej splotowej, wyjaśnili, w jaki sposób woleli:
nieliniowa nieliniowość
ponieważ trenowanie było szybsze. W tym artykule wydaje się, że odnoszą się one do nasycenia nieliniowości jako bardziej tradycyjnych funkcji używanych w CNN, funkcji sigmoidalnej i funkcji stycznej hiperbolicznej (tj. i jako nasycenie).
Dlaczego nazywają te funkcje „nasycaniem” lub „nienasyceniem”? W jakim sensie są to funkcje „nasycające” lub „nienasycające”? Co oznaczają te terminy w kontekście splotowych sieci neuronowych? Czy są wykorzystywane w innych obszarach uczenia maszynowego (i statystyk)?