Jakie są zalety używania ReLU w stosunku do softplus jako funkcji aktywacyjnych?

21

Często wspomina się, że rektyfikowane jednostki liniowe (ReLU) zastąpiły jednostki softplus, ponieważ są liniowe i szybsze w obliczeniach.

Czy softplus nadal ma tę zaletę, że indukuje rzadkość, czy też jest ograniczony do ReLU?

Pytam o to, dlatego zastanawiam się nad negatywnymi konsekwencjami zerowego nachylenia ReLU. Czy ta właściwość nie „pułapkuje” jednostki na zero, gdzie korzystne byłoby umożliwienie im reaktywacji?

machine-learning neural-networks

— brockl33
źródło

czy kiedykolwiek znalazłeś odpowiedź na to?

— Charlie Parker,

4

Odpowiedź na twoje pytanie znalazłam w rozdziale 6.3.3 książki o głębokim uczeniu się . (Goodfellow i in., 2016):

Stosowanie softplus jest ogólnie odradzane. ... można się spodziewać, że będzie miał przewagę nad prostownikiem ze względu na to, że można go wszędzie odróżnić lub z powodu mniejszego nasycenia, ale empirycznie nie.

Jako odniesienie na poparcie tego twierdzenia cytują artykuł Deep Sparse Rectifier Neural Networks (Glorot i in., 2011).

— Alexander Shchur
źródło

1

Myślę, że potrzebujemy więcej wyjaśnień na temat „ale empirycznie nie”.

— nro

2

ReLU można rzeczywiście na stałe wyłączyć, szczególnie przy wysokich wskaźnikach uczenia się. Jest to motywacja stojąca za nieszczelnymi ReLU i aktywacjami ELU, z których oba mają niezerowy gradient prawie wszędzie.

Przeciekająca ReLU jest fragmentaryczną funkcją liniową, podobnie jak ReLU, więc jest szybka do obliczenia. ELU ma tę przewagę nad softmax i ReLU, że jego średni wynik jest bliski zeru, co poprawia uczenie się.

— Hugh Perkins
źródło

Co to znaczy „prawie wszędzie”?

— nro

1

„prawie wszędzie” to termin techniczny, który oznacza coś w rodzaju „z wyjątkiem kilku nieskończenie małych punktów”. Na przykład nieszczelny ReLU nie ma zdefiniowanego gradientu przy x = 0.

— Hugh Perkins