Sztuczne sieci neuronowe (ANN) to szeroka klasa modeli obliczeniowych luźno opartych na biologicznych sieciach neuronowych. Obejmują one wyprzedzające NN (w tym „głębokie” NN), splotowe NN, nawracające NN itp.
Próbuję dodać warstwę softmax do sieci neuronowej wyuczonej z propagacji wstecznej, więc próbuję obliczyć jej gradient. Wyjście softmax to gdzie jest wyjściowym numerem neuronu.hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Jeśli to uzyskam, to dostanę ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Podobne do regresji logistycznej. Jest to jednak błędne, ponieważ moja numeryczna kontrola gradientu kończy się niepowodzeniem. Co ja …
Czy ktoś może wyjaśnić, co robią jednostki maxout w sieci neuronowej? Jak działają i czym różnią się od konwencjonalnych jednostek? Próbowałem przeczytać artykuł „Maxout Network” z 2013 r. Goodfellow i in. (z grupy profesora Yoshua Bengio), ale nie do końca to rozumiem.
Momentum służy do zmniejszenia wahań zmian masy w kolejnych iteracjach:αα\alpha gdzieE(w)jest funkcją błędu,w- wektor wag,η- szybkość uczenia się.Δ ωja( t + 1 ) = - η∂mi∂wja+ α Δ ωja( t ) ,Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta Rozpad masy karze zmiany masy:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- …
Dlaczego de facto standardowa funkcja sigmoidalna tak popularna w (nie-głębokich) sieciach neuronowych i regresji logistycznej?11+e−x11+e−x\frac{1}{1+e^{-x}} Dlaczego nie używamy wielu innych pochodnych funkcji, z szybszym czasem obliczeń lub wolniejszym rozpadem (więc zanikający gradient występuje mniej). Na Wikipedii jest niewiele przykładów dotyczących funkcji sigmoidalnych . Jednym z moich ulubionych z powolnym rozkładem …
Po prostu moczyłem stopy w statystykach, więc przepraszam, jeśli to pytanie nie ma sensu. Użyłem modeli Markowa do przewidywania stanów ukrytych (nieuczciwe kasyna, rzuty kostką itp.) Oraz sieci neuronowych do badania kliknięć użytkowników w wyszukiwarce. Oba miały ukryte stany, które próbowaliśmy rozgryźć na podstawie obserwacji. O ile mi wiadomo, oba …
Znalazłem rektyfikowaną jednostkę liniową (ReLU) chwaloną w kilku miejscach jako rozwiązanie problemu znikającego gradientu sieci neuronowych. Oznacza to, że jako funkcję aktywacji używa się max (0, x). Gdy aktywacja jest dodatnia, oczywiste jest, że jest ona lepsza niż, powiedzmy, funkcja aktywacji sigmoidalnej, ponieważ jej pochodna wynosi zawsze 1 zamiast arbitralnie …
Próbuję przewidzieć wynik złożonego układu wykorzystującego sieci neuronowe (ANN). Wartości wyników (zależne) wynoszą od 0 do 10 000. Różne zmienne wejściowe mają różne zakresy. Wszystkie zmienne mają z grubsza normalne rozkłady. Rozważam różne opcje skalowania danych przed treningiem. Jedną z opcji jest skalowanie wejściowych (niezależnych) i wyjściowych (zależnych) zmiennych do …
W dokumentach klasyfikacyjnych ImageNet wskaźniki błędu 1 i 5 są ważnymi jednostkami do pomiaru sukcesu niektórych rozwiązań, ale jakie są te poziomy błędów? W ImageNet Classification with Deep Convolutional Neural Networks autorstwa Krizhevsky i in. każde rozwiązanie oparte na jednym CNN (strona 7) nie ma najwyższych 5 poziomów błędów, podczas …
Sieci neuronowe są często traktowane jako „czarne skrzynki” ze względu na ich złożoną strukturę. Nie jest to idealne, ponieważ często korzystne jest intuicyjne zrozumienie, w jaki sposób model działa wewnętrznie. Jakie są metody wizualizacji działania wyszkolonej sieci neuronowej? Alternatywnie, w jaki sposób możemy wyodrębnić łatwo przyswajalne opisy sieci (np. Ten …
Problem, który często pojawiałem się w kontekście sieci neuronowych, w szczególności sieci neuronowych, polega na tym, że są „głodne danych” - to znaczy, że nie działają one dobrze, chyba że mamy duży zestaw danych z którymi trenować sieć. Rozumiem, że wynika to z faktu, że sieci sieciowe, zwłaszcza sieci głębokie, …
Trenuję sieć neuronową, a utrata treningu maleje, ale utrata walidacji nie maleje lub zmniejsza się znacznie mniej niż oczekiwałbym, na podstawie referencji lub eksperymentów z bardzo podobnymi architekturami i danymi. Jak mogę to naprawić? Co do pytania Co powinienem zrobić, gdy moja sieć neuronowa się nie uczy? do którego zainspirowano …
Przede wszystkim zdałem sobie sprawę, że jeśli muszę wykonać przewidywania binarne, muszę utworzyć co najmniej dwie klasy, wykonując kodowanie „na gorąco”. Czy to jest poprawne? Czy jednak binarna entropia krzyżowa dotyczy tylko predykcji z tylko jedną klasą? Gdybym miał zastosować kategoryczną utratę entropii krzyżowej, która zwykle występuje w większości bibliotek …
Funkcja kosztu sieci neuronowej to J(W,b)J(W,b)J(W,b) i twierdzi się, że nie jest wypukła . Nie do końca rozumiem, dlaczego tak jest, ponieważ, jak widzę, jest dość podobny do funkcji kosztu regresji logistycznej, prawda? Jeśli nie jest wypukła, to pochodna drugiego rzędu ∂J∂W<0∂J∂W<0\frac{\partial J}{\partial W} < 0, prawda? AKTUALIZACJA Dzięki poniższym …
LSTM został opracowany specjalnie w celu uniknięcia problemu zanikania gradientu. Ma to zrobić za pomocą karuzeli Constant Error (CEC), która na poniższym schemacie ( Greff i in. ) Odpowiada pętli wokół komórki . (źródło: deeplearning4j.org ) Rozumiem, że ta część może być postrzegana jako rodzaj funkcji tożsamości, więc pochodna jest …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.