Jakie są zalety, dlaczego warto korzystać z wielu LSTM, ułożonych jeden obok drugiego, w sieci głębokiej? Używam LSTM do reprezentowania sekwencji danych wejściowych jako pojedynczego wejścia. Więc kiedy mam tę pojedynczą reprezentację - dlaczego miałbym ją powtórzyć? Pytam o to, ponieważ widziałem to w programie generowania języka naturalnego.
Dlaczego funkcje aktywacji rektyfikowanych jednostek liniowych (ReLU) są uważane za nieliniowe? f(x)=max(0,x)f(x)=max(0,x) f(x) = \max(0,x) Są one liniowe, gdy dane wejściowe są dodatnie i z mojego zrozumienia, aby odblokować reprezentatywną moc głębokich sieci, nieliniowe aktywacje są koniecznością, w przeciwnym razie cała sieć mogłaby być reprezentowana przez pojedynczą warstwę.
Zgodnie z tą i tą odpowiedzią autoencodery wydają się być techniką wykorzystującą sieci neuronowe do redukcji wymiarów. Chciałbym dodatkowo wiedzieć, czym jest wariacyjny autoencoder (jego główne różnice / zalety w stosunku do „tradycyjnych” autoencoderów), a także jakie są główne zadania edukacyjne, do których są wykorzystywane te algorytmy.
Czytałem o optymalizatorze Adama do głębokiego uczenia się i natknąłem się na następujące zdanie w nowej książce Deep Learning autorstwa Bengio, Goodfellow i Courville: Adam jest ogólnie uważany za dość odpornego na wybór hiper parametrów, chociaż szybkość uczenia się czasami trzeba zmienić w stosunku do sugerowanego domyślnego. jeśli to prawda, …
W Alex Krizhevsky i in. Klasyfikacja Imagenet z głębokimi splotowymi sieciami neuronowymi wyliczają liczbę neuronów w każdej warstwie (patrz diagram poniżej). Dane wejściowe sieci są 150 528-wymiarowe, a liczba neuronów w pozostałych warstwach sieci wynosi 253 340–186,624–64 896–64 8896–43,264– 4096–4096–1000. Widok 3D Liczba neuronów dla wszystkich warstw po pierwszej jest …
Próbuję lepiej zrozumieć splotowe sieci neuronowe, pisząc kod Pythona, który nie zależy od bibliotek (takich jak Convnet lub TensorFlow), i utknąłem w literaturze na temat wyboru wartości dla macierzy jądra, kiedy przeprowadzanie splotu obrazu. Próbuję zrozumieć szczegóły implementacji na etapie między mapami funkcji na poniższym obrazku pokazującym warstwy CNN. Zgodnie …
Próbuję więc przeprowadzić wstępne szkolenie na obrazach ludzi za pomocą sieci splotowych. Czytam gazety ( papierowe1 i Paper2 ) i ten związek stackoverflow , ale nie jestem pewien, jestem zrozumieć strukturę sieci (nie jest dobrze zdefiniowane w dokumentach). Pytania: Mogę mieć moje dane wejściowe, a następnie warstwę szumu, a następnie …
Mechanizmy uwagi były wykorzystywane w różnych artykułach Deep Learning w ciągu ostatnich kilku lat. Ilya Sutskever, kierownik badań w Open AI, entuzjastycznie je chwali: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello z Purdue University stwierdził, że RNN i LSTM należy porzucić na rzecz sieci neuronowych opartych wyłącznie na uwadze: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Wydaje się to przesadą, …
Wiem, że wprowadzono wiele postępów w zakresie rozpoznawania obrazów, klasyfikacji obrazów itp. Z głębokimi, splotowymi sieciami neuronowymi. Ale jeśli trenuję sieć na przykład na obrazach PNG, czy będzie ona działać tylko dla obrazów tak zakodowanych? Jakie inne właściwości obrazu mają na to wpływ? (kanał alfa, przeplot, rozdzielczość itp.)
Od jakiegoś czasu pracuję z Convolutional Neural Networks (CNN), głównie nad danymi obrazu do segmentacji semantycznej / segmentacji instancji. Często wizualizowałem softmax wyjścia sieciowego jako „mapę cieplną”, aby zobaczyć, jak wysokie są aktywacje na piksel dla określonej klasy. Zinterpretowałem niskie aktywacje jako „niepewne” / „niepewne”, a wysokie aktywacje jako „pewne” …
Tło: Tak, Restricted Boltzmann Machine (RBM) MOŻE być użyty do zainicjowania obciążeń sieci neuronowej. MOŻE być również użyty w sposób „warstwa po warstwie” do zbudowania głębokiej sieci przekonań (to znaczy do trenowania tej warstwy na szczycie -tej warstwy, a następnie do trenowania warstwa na górze tej warstwy, spłucz i powtórz …
Niedawno pracowałem nad uczeniem się algorytmów wzmacniających, takich jak adaboost, zwiększanie gradientu i wiedziałem, że najczęściej używanym słabym uczniem są drzewa. Naprawdę chcę wiedzieć, czy istnieją pewne udane przykłady (mam na myśli kilka artykułów lub artykułów) wykorzystania sieci neuronowych jako podstawowego ucznia.
Architekturę wąskiego gardła definiujemy jako typ znaleziony w dokumencie ResNet, w którym [dwie warstwy konwekcyjne 3x3] są zastępowane przez [jedna konwekcja 1x1, jedna konwekcja 3x3 i kolejna warstwa konwekcyjna 1x1]. Rozumiem, że warstwy konwekcji 1x1 są używane jako forma redukcji wymiarów (i przywracania), co wyjaśniono w innym poście . Nie …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.