Statystyki i duże zbiory danych deep-learning

3

Jakie są zalety, dlaczego warto korzystać z wielu LSTM, ułożonych jeden obok drugiego, w sieci głębokiej? Używam LSTM do reprezentowania sekwencji danych wejściowych jako pojedynczego wejścia. Więc kiedy mam tę pojedynczą reprezentację - dlaczego miałbym ją powtórzyć? Pytam o to, ponieważ widziałem to w programie generowania języka naturalnego.

25 classification neural-networks deep-learning lstm rnn

1

Dlaczego skorygowane jednostki liniowe są uważane za nieliniowe?

Dlaczego funkcje aktywacji rektyfikowanych jednostek liniowych (ReLU) są uważane za nieliniowe? f(x)=max(0,x)f(x)=max(0,x) f(x) = \max(0,x) Są one liniowe, gdy dane wejściowe są dodatnie i z mojego zrozumienia, aby odblokować reprezentatywną moc głębokich sieci, nieliniowe aktywacje są koniecznością, w przeciwnym razie cała sieć mogłaby być reprezentowana przez pojedynczą warstwę.

25 neural-networks deep-learning

1

Co to są wariacyjne autoencodery i do jakich zadań uczenia się są wykorzystywane?

Zgodnie z tą i tą odpowiedzią autoencodery wydają się być techniką wykorzystującą sieci neuronowe do redukcji wymiarów. Chciałbym dodatkowo wiedzieć, czym jest wariacyjny autoencoder (jego główne różnice / zalety w stosunku do „tradycyjnych” autoencoderów), a także jakie są główne zadania edukacyjne, do których są wykorzystywane te algorytmy.

24 machine-learning bayesian deep-learning autoencoders variational-bayes

3

Jaki jest powód, dla którego Adam Optimizer jest uważany za odporny na wartość swoich hiper parametrów?

Czytałem o optymalizatorze Adama do głębokiego uczenia się i natknąłem się na następujące zdanie w nowej książce Deep Learning autorstwa Bengio, Goodfellow i Courville: Adam jest ogólnie uważany za dość odpornego na wybór hiper parametrów, chociaż szybkość uczenia się czasami trzeba zmienić w stosunku do sugerowanego domyślnego. jeśli to prawda, …

24 neural-networks deep-learning optimization hyperparameter adam

2

W jaki sposób CNN Kriżewskiego '12 dostaje 253 440 neuronów w pierwszej warstwie?

W Alex Krizhevsky i in. Klasyfikacja Imagenet z głębokimi splotowymi sieciami neuronowymi wyliczają liczbę neuronów w każdej warstwie (patrz diagram poniżej). Dane wejściowe sieci są 150 528-wymiarowe, a liczba neuronów w pozostałych warstwach sieci wynosi 253 340–186,624–64 896–64 8896–43,264– 4096–4096–1000. Widok 3D Liczba neuronów dla wszystkich warstw po pierwszej jest …

24 neural-networks deep-learning conv-neural-network

2

Jak zainicjować elementy macierzy filtrów?

Próbuję lepiej zrozumieć splotowe sieci neuronowe, pisząc kod Pythona, który nie zależy od bibliotek (takich jak Convnet lub TensorFlow), i utknąłem w literaturze na temat wyboru wartości dla macierzy jądra, kiedy przeprowadzanie splotu obrazu. Próbuję zrozumieć szczegóły implementacji na etapie między mapami funkcji na poniższym obrazku pokazującym warstwy CNN. Zgodnie …

24 machine-learning neural-networks deep-learning feature-construction conv-neural-network

3

Jaka jest architektura stosowego autokodera splotowego?

Próbuję więc przeprowadzić wstępne szkolenie na obrazach ludzi za pomocą sieci splotowych. Czytam gazety ( papierowe1 i Paper2 ) i ten związek stackoverflow , ale nie jestem pewien, jestem zrozumieć strukturę sieci (nie jest dobrze zdefiniowane w dokumentach). Pytania: Mogę mieć moje dane wejściowe, a następnie warstwę szumu, a następnie …

23 neural-networks deep-learning autoencoders deep-belief-networks

1

Czym dokładnie są mechanizmy uwagi?

Mechanizmy uwagi były wykorzystywane w różnych artykułach Deep Learning w ciągu ostatnich kilku lat. Ilya Sutskever, kierownik badań w Open AI, entuzjastycznie je chwali: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello z Purdue University stwierdził, że RNN i LSTM należy porzucić na rzecz sieci neuronowych opartych wyłącznie na uwadze: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Wydaje się to przesadą, …

23 time-series deep-learning lstm rnn attention

3

Czy format obrazu (png, jpg, gif) wpływa na to, jak trenowana jest sieć neuronowa rozpoznawania obrazu?

Wiem, że wprowadzono wiele postępów w zakresie rozpoznawania obrazów, klasyfikacji obrazów itp. Z głębokimi, splotowymi sieciami neuronowymi. Ale jeśli trenuję sieć na przykład na obrazach PNG, czy będzie ona działać tylko dla obrazów tak zakodowanych? Jakie inne właściwości obrazu mają na to wpływ? (kanał alfa, przeplot, rozdzielczość itp.)

23 neural-networks deep-learning image-processing

2

Zasady wyboru hiperparametrów splotowej sieci neuronowej

Czy są jakieś dobre artykuły, które obejmują metodyczne sposoby wybierania wymiarów filtrów, łączenia jednostek i określania liczby warstw splotowych?

22 neural-networks deep-learning conv-neural-network

5

Jak prawdziwy jest ten slajd dotyczący głębokiego uczenia się, który twierdzi, że wszystkie ulepszenia z lat 80. XX wieku wynikają tylko z dużo większej ilości danych i znacznie szybszych komputerów?

Słuchałem rozmowy i zobaczyłem ten slajd: Jak to jest prawda?

22 deep-learning deep-belief-networks

4

Dlaczego dane wyjściowe softmax nie są dobrą miarą niepewności w modelach Deep Learning?

Od jakiegoś czasu pracuję z Convolutional Neural Networks (CNN), głównie nad danymi obrazu do segmentacji semantycznej / segmentacji instancji. Często wizualizowałem softmax wyjścia sieciowego jako „mapę cieplną”, aby zobaczyć, jak wysokie są aktywacje na piksel dla określonej klasy. Zinterpretowałem niskie aktywacje jako „niepewne” / „niepewne”, a wysokie aktywacje jako „pewne” …

22 probability deep-learning conv-neural-network uncertainty softmax

2

Ograniczona maszyna Boltzmanna: jak jest używana w uczeniu maszynowym?

Tło: Tak, Restricted Boltzmann Machine (RBM) MOŻE być użyty do zainicjowania obciążeń sieci neuronowej. MOŻE być również użyty w sposób „warstwa po warstwie” do zbudowania głębokiej sieci przekonań (to znaczy do trenowania tej warstwy na szczycie -tej warstwy, a następnie do trenowania warstwa na górze tej warstwy, spłucz i powtórz …

21 machine-learning neural-networks deep-learning deep-belief-networks rbm

2

Zwiększenie sieci neuronowych

Niedawno pracowałem nad uczeniem się algorytmów wzmacniających, takich jak adaboost, zwiększanie gradientu i wiedziałem, że najczęściej używanym słabym uczniem są drzewa. Naprawdę chcę wiedzieć, czy istnieją pewne udane przykłady (mam na myśli kilka artykułów lub artykułów) wykorzystania sieci neuronowych jako podstawowego ucznia.

21 neural-networks deep-learning boosting ensemble dropout

2

Jak działają architektury wąskiego gardła w sieciach neuronowych?

Architekturę wąskiego gardła definiujemy jako typ znaleziony w dokumencie ResNet, w którym [dwie warstwy konwekcyjne 3x3] są zastępowane przez [jedna konwekcja 1x1, jedna konwekcja 3x3 i kolejna warstwa konwekcyjna 1x1]. Rozumiem, że warstwy konwekcji 1x1 są używane jako forma redukcji wymiarów (i przywracania), co wyjaśniono w innym poście . Nie …

21 residuals deep-learning conv-neural-network

Pytania otagowane jako deep-learning