Czytałem gdzie indziej, że czyjś wybór ukrytej funkcji aktywacji warstwa w NN powinny opierać się na własnej potrzeby , czyli jeśli potrzebna wartości w przedziale od -1 do 1 TANH użytkowania i użytkowania esicy dla zakresu od 0 do 1.
Moje pytanie brzmi: skąd wiadomo, czego potrzeba ? Czy jest to oparte na zakresie warstwy wejściowej, np. Użyj funkcji, która może obejmować pełny zakres wartości warstwy wejściowej, czy w jakiś sposób odzwierciedla rozkład warstwy wejściowej (funkcja Gaussa)? Czy też potrzeba specyficznego problemu / dziedziny oraz własnego doświadczenia / oceny jest wymagana do dokonania tego wyboru? Czy jest to po prostu „użycie tego, co daje najlepszy sprawdzony krzyżowo minimalny błąd szkolenia?”
1 + (1 / exp(-sum))
. Dokonywanie potrzebę bardzo trudne do zrozumienia bez próby zarówno na każdego zestawu danych. Potrzeba , jak opisać to tutaj jest przywiązany do rzeczywistego stosunku uczonego, tj binarny zestaw danych będzie uczyć się szybciej lub w ogóle nie korzystają z różnych aktywacji.