Pytania otagowane jako backpropagation

Propagacja wsteczna, skrót od „wstecznej propagacji błędów”, jest powszechną metodą uczenia sztucznych sieci neuronowych używaną w połączeniu z metodą optymalizacji, taką jak zstępowanie gradientowe.

6
Czy można trenować sieć neuronową bez propagacji wstecznej?
Wiele książek i samouczków dotyczących sieci neuronowych spędza dużo czasu na algorytmie propagacji wstecznej, który jest zasadniczo narzędziem do obliczania gradientu. Załóżmy, że budujemy model z ~ 10 000 parametrów / wag. Czy można uruchomić optymalizację przy użyciu niektórych algorytmów optymalizacji bez gradientu? Myślę, że obliczanie gradientu numerycznego byłoby zbyt …


1
W jaki sposób softmax_cross_entropy_with_logits różni się od softmax_cross_entropy_with_logits_v2?
W szczególności zastanawiam się nad tym stwierdzeniem: Przyszłe główne wersje TensorFlow domyślnie umożliwią przepływ gradientów do danych wejściowych na etykietach. Który jest wyświetlany, gdy używam tf.nn.softmax_cross_entropy_with_logits. W tym samym komunikacie zachęca mnie do przyjrzenia się tf.nn.softmax_cross_entropy_with_logits_v2. Przejrzałem dokumentację, ale stwierdza tylko, że dla tf.nn.softmax_cross_entropy_with_logits_v2: Propagacja wstąpi na logi i etykiety. …

6
Propagacja wsteczna z Softmax / Cross Entropy
Próbuję zrozumieć, jak działa propagacja wsteczna dla warstwy wyjściowej softmax / cross-entropii. Funkcja błędu entropii krzyżowej to E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j z ttt i ooo jako celem i wyjściem odpowiednio w neuronie jjj . Suma jest nad każdym neuronem w warstwie wyjściowej. ojojo_j jest wynikiem funkcji softmax: oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Ponownie, …

5
Propagacja wsteczna a algorytm genetyczny dla szkolenia w sieci neuronowej
Przeczytałem kilka artykułów omawiających zalety i wady każdej metody, niektórzy twierdzą, że GA nie daje żadnej poprawy w znalezieniu optymalnego rozwiązania, podczas gdy inni pokazują, że jest on bardziej skuteczny. Wydaje się, że GA jest ogólnie preferowane w literaturze (chociaż większość ludzi modyfikuje ją w jakiś sposób, aby osiągnąć pożądane …

4
Dlaczego tanh prawie zawsze jest lepszy niż sigmoid jako funkcja aktywacyjna?
W Andrzej zNg sieci neuronowe i głęboki learning na Coursera mówi, że przy tanhtanhtanh jest prawie zawsze korzystniejsze sigmoidsigmoidsigmoid . Powodem jest to, że daje on wyjść przy użyciu tanhtanhtanh centrum niż około 0 sigmoidsigmoidsigmoid „a 0,5, a to«sprawia, że uczenie się do następnej warstwy trochę łatwiejsze». Dlaczego centrowanie uczenia …


1
Dlaczego funkcje aktywacji niecentrowanej są problemem w propagacji wstecznej?
Przeczytałem tutaj : Wyjścia sigmoidalne nie są wyśrodkowane na zero . Jest to niepożądane, ponieważ neurony w późniejszych warstwach przetwarzania w sieci neuronowej (więcej o tym wkrótce) otrzymywałyby dane, które nie są wyśrodkowane. Ma to wpływ na dynamikę podczas opadania gradientu, ponieważ jeśli dane wchodzące do neuronu są zawsze dodatnie …

1
Gradientowa propagacja wsteczna poprzez pomijanie połączeń ResNet
Jestem ciekawy, w jaki sposób gradienty są propagowane wstecz przez sieć neuronową przy użyciu modułów ResNet / pomijania połączeń. Widziałem kilka pytań na temat ResNet (np. Sieć neuronowa z połączeniami pomijanymi ), ale to pytanie dotyczy konkretnie wstecznej propagacji gradientów podczas treningu. Podstawowa architektura jest tutaj: Przeczytałem ten artykuł, Badanie …

3
Dlaczego warto korzystać z opadania gradientu w sieciach neuronowych?
Podczas uczenia sieci neuronowej za pomocą algorytmu propagacji wstecznej do określenia aktualizacji masy używana jest metoda opadania gradientu. Moje pytanie brzmi: Zamiast używać metody opadania gradientu, aby powoli zlokalizować punkt minimalny w odniesieniu do określonej masy, dlaczego nie ustawimy po prostu pochodnej i znaleźć wartość masyw,która minimalizuje błąd?d(Error)dw=0d(Error)dw=0\frac{d(\text{Error})}{dw}=0www Ponadto, dlaczego …

2
Po co w sieciach neuronowych używać metod gradientowych zamiast innych metaheurystyk?
Dlaczego podczas treningu głębokich i płytkich sieci neuronowych powszechnie stosuje się metody gradientowe (np. Opadanie gradientu, Niestierow, Newton-Raphson), w przeciwieństwie do innych metaheurystyk? Przez metaheurystykę rozumiem metody takie jak symulowane wyżarzanie, optymalizacja kolonii mrówek itp., Które zostały opracowane w celu uniknięcia utknięcia w lokalnych minimach.


2
Algorytm wstecznej propagacji
Mam lekką dezorientację na wstecznej propagacji błędów algorytmu stosowanego w perceptronu wielowarstwowego (MLP). Błąd jest regulowana przez funkcję kosztów. W wstecznej propagacji błędów, staramy się dostosować ciężar warstw ukrytych. Błąd wyjściowy, który rozumiem, to znaczy e = d - y[Bez indeksów dolnych]. Pytania są następujące: W jaki sposób można uzyskać …

1
Suma czy średnia gradientów w (mini) gradiencie serii przyzwoitym?
Kiedy zaimplementowałem przyzwoity gradient mini partii, po prostu uśredniłem gradienty wszystkich przykładów w partii treningowej. Zauważyłem jednak, że teraz optymalna szybkość uczenia się jest znacznie wyższa niż w przypadku przyzwoitego gradientu online. Moją intuicją jest to, że uśredniony gradient jest mniej hałaśliwy i dlatego można go śledzić szybciej. Może więc …

3
Dlaczego wstecz propaguje się w czasie w sieci RNN?
W nawracającej sieci neuronowej zwykle propagujesz w przód przez kilka kroków czasowych, „rozwijasz” sieć, a następnie w tył propagujesz w sekwencji danych wejściowych. Dlaczego po prostu nie aktualizowałbyś wag po każdym indywidualnym kroku w sekwencji? (odpowiednik użycia długości obcięcia 1, więc nie ma nic do rozwinięcia) To całkowicie eliminuje problem …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.