Funkcja ReLU toZwykle jest to stosowane elementowo do wyniku niektórych innych funkcji, takich jak iloczyn macierz-wektor. W zastosowaniach MLP jednostki prostownika zastępują wszystkie inne funkcje aktywacyjne, z wyjątkiem być może warstwy odczytu. Ale przypuszczam, że możesz je mieszać i łączyć, jeśli chcesz.fa( x ) = maks. ( 0 , x ) .
Jednym ze sposobów ulepszenia sieci neuronowych przez ReLU jest przyspieszenie szkolenia. Obliczanie gradientu jest bardzo proste (0 lub 1 w zależności od znaku x ). Ponadto krok obliczeniowy jednostki ReLU jest łatwy: wszelkie elementy ujemne są ustawione na 0,0 - brak wykładniczych, brak operacji mnożenia lub dzielenia.
Gradienty logistycznych i hiperbolicznych sieci stycznych są mniejsze niż dodatnia część ReLU. Oznacza to, że dodatnia część jest aktualizowana szybciej w miarę postępu treningu. Jest to jednak kosztowne. Gradient 0 po lewej stronie ma swój własny problem, zwany „martwymi neuronami”, w którym aktualizacja gradientu ustawia przychodzące wartości na ReLU tak, że wyjście zawsze wynosi zero; zmodyfikowane jednostki ReLU, takie jak ELU (lub Leaky ReLU lub PReLU itp.) mogą to poprawić.
rerexReLU ( x ) = 1 ∀ x > 0 . Natomiast gradient jednostki sigmoidalnej wynosi co najwyżej ; z drugiej strony wypada lepiej dla danych wejściowych w regionie bliskim 0, ponieważ (w przybliżeniu).0,25tanh0,25 < drextanh( x ) ≤ 1 ∀ x ∈ [ - 1,31 , 1,31 ]