Czy sieć neuronowa (np. Splotowa sieć neuronowa) może mieć ujemne wagi?

13

Czy możliwe jest uzyskanie ujemnych wag (po wystarczającej liczbie epok) dla głębokich splotowych sieci neuronowych, gdy używamy ReLU dla wszystkich warstw aktywacyjnych?

— RockTheStar
źródło

Nie widzę powodu, dla którego nie mogą być negatywne. Czy masz na myśli jakiś szczególny powód / spostrzeżenie?

— Sobi,

Właśnie wyobrażam sobie proces SGD i zastanawiam się, czy ujemna waga jest powszechna i możliwa.

— RockTheStar

Pomyślał o tym, ponieważ „waga” przypomina synapsy, połączenia między neuronami, więc jak możemy uzyskać -2 synapsy w kierunku neuronu? Natknąłem się tutaj po tym, jak przeszukałem dokładnie to samo w google ... Myślę, że i tak może to być możliwe, może to oznaczać w końcu brakującą synapsę lub link i „przeskok”, aby dotrzeć do b z innej strony, która jest odjęta od rachunku różniczkowego, ale nie jestem do końca pewien, po prostu myślę

— wypróbuj

10

Wyprostowane jednostki liniowe (ReLU) sprawiają, że wyjście neuronów jest nieujemne. Jednak parametry sieci mogą i będą dodatnie lub ujemne w zależności od danych szkoleniowych.

Oto dwa powody, dla których mogę teraz myśleć, które uzasadniają (intuicyjnie), dlaczego niektóre parametry stałyby się ujemne:

regularyzacja parametrów (inaczej rozpad masy); zmiana wartości parametrów umożliwia przewidywanie, a jeśli parametry są wyśrodkowane wokół zera (tj. ich średnia jest bliska zeru), to ich norma (która jest standardowym regulizatorem) jest niska. $\ell 2$
chociaż gradienty wyjściowe warstwy w odniesieniu do parametrów warstwy zależą od danych wejściowych do warstwy (które są zawsze dodatnie, zakładając, że poprzednia warstwa przechodzi przez ReLU), jednak gradient błędu (który przychodzi od warstw bliższych końcowym warstwom wyjściowym) może być dodatnia lub ujemna, co umożliwia SGD uczynienie niektórych wartości parametrów ujemnymi po wykonaniu następnego kroku gradientu. Mówiąc dokładniej, niech , i oznaczają wejście, wyjście i parametry warstwy w sieci neuronowej. Niech będzie także końcowym błędem sieci wywołanym przez próbkę szkoleniową. Gradient błędu w stosunku do jest obliczany jako $I$ $O$ $w$ $E$ $w$ $\frac{\partial E}{\partial w} = \left( \sum_{k=1}^K\frac{\partial E}{\partial O_k} \right) \cdot \frac{\partial O_k}{\partial w}$ ; zwróć uwagę, że (patrz zdjęcie poniżej): $O_k = O, \forall k$

— Sobi
źródło

1

Wyobraź sobie, że masz optymalne ciężary, które nie są ujemne.

Teraz odwróć pewną zmienną wejściową . Optymalną siecią dla tego ustawienia są odwrócone wagi krawędzi , więc nowe wagi nie są dodatnie. $x'_i = -x_i$ $\{x'_i,y\}$

— nakajuice
źródło

-3

Chyba że użyjesz innej funkcji aktywacyjnej, na przykład Leaky ReLU. Wyprostowane ciężary warstw po pierwszej nie są ujemne, niezależnie od liczby epok podczas treningu.

— pateheo
źródło

1

Wielkie dzięki! Czy możesz wyjaśnić nieco więcej szczegółów na temat tego, w jaki sposób Leaky ReLU może prowadzić do ujemnej wagi?

— RockTheStar

Wydaje się, że twierdzenie nie jest prawdziwe. Przeprowadziłem szkolenie w sieci aktywowanej ReLU, macierze transformacji afinicznej („Ws”) i przesunięcia („b's”), które, jak zakładam, odnosiły się do tego pytania jako wagi, mają wartości ujemne.

— im