Rozumiem zalety ReLU, które pozwala uniknąć martwych neuronów podczas propagacji wstecznej.
To nie jest do końca prawda. Neurony nie są martwe. Jeśli używasz aktywacji sigmoidalnych, po kilku iteracjach wartość gradientów nasyca się dla większości neuronów. Wartość gradientu będzie tak mała, a proces uczenia się będzie przebiegał tak wolno. To zanika i eksploduje gradienty, które pełniły funkcje aktywacji podobne do sigmoidów. I odwrotnie, martwe neurony mogą się zdarzyć, jeśli użyjesz ReLUnieliniowości, która nazywa się umierającą ReLU .
Nie jestem w stanie zrozumieć, dlaczego ReLU jest używane jako funkcja aktywacji, jeśli jego wyjście jest liniowe
Zdecydowanie nie jest liniowy. Jako prosta definicja, funkcja liniowa jest funkcją, która ma tę samą pochodną dla danych wejściowych w swojej dziedzinie.
Funkcja liniowa jest popularna w ekonomii. Jest atrakcyjny, ponieważ jest prosty i łatwy w obsłudze matematycznej. Ma wiele ważnych zastosowań. Funkcje liniowe to te, których wykres jest linią prostą. Funkcja liniowa ma następującą postać:
y = f (x) = a + bx
Funkcja liniowa ma jedną zmienną niezależną i jedną zmienną zależną. Zmienna niezależna to x, a zmienna zależna to y.
a jest pojęciem stałym lub punktem przecięcia y. Jest to wartość zmiennej zależnej, gdy x = 0.
b jest współczynnikiem zmiennej niezależnej. Znany jest również jako nachylenie i podaje szybkość zmiany zmiennej zależnej.
ReLUnie jest liniowy . Prosta odpowiedź brzmi: ReLUwyjście nie jest linią prostą, wygina się na osi x. Bardziej interesującym punktem jest konsekwencja tej nieliniowości. Mówiąc najprościej, funkcje liniowe umożliwiają rozcięcie płaszczyzny cechy za pomocą linii prostej. Ale przy nieliniowości ReLUs można budować krzywe o dowolnym kształcie na płaszczyźnie cechy.
ReLUmoże mieć wadę, której jest oczekiwana wartość. Nie ma żadnych ograniczeń dla wyniku Relui jego oczekiwana wartość nie jest równa zero. Tanhbył bardziej popularny niż sigmoiddlatego, że jego oczekiwana wartość jest równa zero, a uczenie się w głębszych warstwach odbywa się szybciej. Chociaż ReLUnie ma tej przewagi, batch normalizationrozwiązuje ten problem .
Możesz również odnieść się tutaj i tutaj, aby uzyskać więcej informacji.