Rozumiem zalety ReLU, które pozwala uniknąć martwych neuronów podczas propagacji wstecznej.
To nie jest do końca prawda. Neurony nie są martwe. Jeśli używasz aktywacji sigmoidalnych, po kilku iteracjach wartość gradientów nasyca się dla większości neuronów. Wartość gradientu będzie tak mała, a proces uczenia się będzie przebiegał tak wolno. To zanika i eksploduje gradienty, które pełniły funkcje aktywacji podobne do sigmoidów. I odwrotnie, martwe neurony mogą się zdarzyć, jeśli użyjesz ReLU
nieliniowości, która nazywa się umierającą ReLU .
Nie jestem w stanie zrozumieć, dlaczego ReLU jest używane jako funkcja aktywacji, jeśli jego wyjście jest liniowe
Zdecydowanie nie jest liniowy. Jako prosta definicja, funkcja liniowa jest funkcją, która ma tę samą pochodną dla danych wejściowych w swojej dziedzinie.
Funkcja liniowa jest popularna w ekonomii. Jest atrakcyjny, ponieważ jest prosty i łatwy w obsłudze matematycznej. Ma wiele ważnych zastosowań. Funkcje liniowe to te, których wykres jest linią prostą. Funkcja liniowa ma następującą postać:
y = f (x) = a + bx
Funkcja liniowa ma jedną zmienną niezależną i jedną zmienną zależną. Zmienna niezależna to x, a zmienna zależna to y.
a jest pojęciem stałym lub punktem przecięcia y. Jest to wartość zmiennej zależnej, gdy x = 0.
b jest współczynnikiem zmiennej niezależnej. Znany jest również jako nachylenie i podaje szybkość zmiany zmiennej zależnej.
ReLU
nie jest liniowy . Prosta odpowiedź brzmi: ReLU
wyjście nie jest linią prostą, wygina się na osi x. Bardziej interesującym punktem jest konsekwencja tej nieliniowości. Mówiąc najprościej, funkcje liniowe umożliwiają rozcięcie płaszczyzny cechy za pomocą linii prostej. Ale przy nieliniowości ReLU
s można budować krzywe o dowolnym kształcie na płaszczyźnie cechy.
ReLU
może mieć wadę, której jest oczekiwana wartość. Nie ma żadnych ograniczeń dla wyniku Relu
i jego oczekiwana wartość nie jest równa zero. Tanh
był bardziej popularny niż sigmoid
dlatego, że jego oczekiwana wartość jest równa zero, a uczenie się w głębszych warstwach odbywa się szybciej. Chociaż ReLU
nie ma tej przewagi, batch normalization
rozwiązuje ten problem .
Możesz również odnieść się tutaj i tutaj, aby uzyskać więcej informacji.