Statystyki i duże zbiory danych deep-learning

3

Jak wdrożyć regularyzację L2 do dowolnego punktu w kosmosie?

Oto coś, co przeczytałem w książce Iana Goodfellow'a Deep Learning . W kontekście sieci neuronowych „kara za normę parametru L2 jest powszechnie znana jako zanik masy. Ta strategia regularyzacji przybliża wagi do źródła [...]. Mówiąc bardziej ogólnie, moglibyśmy uregulować parametry tak, aby znajdowały się w pobliżu dowolnego określonego punktu w …

11 machine-learning neural-networks deep-learning regularization

2

Czy sieci rezydualne są powiązane z przyspieszaniem gradientu?

Ostatnio widzieliśmy pojawienie się Residual Neural Net, w której każda warstwa składa się z modułu obliczeniowego i połączenia skrótowego, które zachowuje dane wejściowe do warstwy, takie jak dane wyjściowe z i-tej warstwy: Sieć pozwala wydobyć pozostałe cechy i pozwala na głębszą głębię, będąc jednocześnie bardziej odporna na znikający problem gradientu, …

11 machine-learning neural-networks deep-learning gradient-descent residual-networks

3

W jaki sposób model pomijania gramów Word2Vec generuje wektory wyjściowe?

Mam problemy ze zrozumieniem modelu pominięcia gramów algorytmu Word2Vec. W ciągłym pakiecie słów łatwo jest zobaczyć, jak słowa kontekstowe mogą się „zmieścić” w sieci neuronowej, ponieważ w zasadzie uśrednia się je po pomnożeniu każdej z reprezentacji kodowania jednokrotnego z macierzą wejściową W. Jednak w przypadku pominięcia gram, wektor słowa wejściowego …

11 neural-networks deep-learning natural-language word2vec word-embeddings

2

Klasyfikacja z częściowo „nieznanymi” danymi

Załóżmy, że chcę nauczyć się klasyfikatora, który przyjmuje wektor liczb jako dane wejściowe i podaje etykietę klasy jako dane wyjściowe. Moje dane treningowe składają się z dużej liczby par przepływów międzygałęziowych. Jednak kiedy przechodzę do testowania niektórych nowych danych, dane te są zwykle tylko częściowo kompletne. Na przykład, jeśli wektor …

11 machine-learning classification neural-networks deep-learning

2

W jaki sposób filtry i mapy aktywacyjne są połączone w sieci neuronowe splotowe?

W jaki sposób mapy aktywacyjne na danej warstwie są połączone z filtrami dla tej warstwy? Nie pytam o to, jak wykonać operację splotu między filtrem a mapą aktywacyjną, pytam o rodzaj łączności tych dwóch. Powiedzmy na przykład, że chcesz uzyskać pełną łączność. Masz liczbę filtrów i liczbę map aktywacyjnych w …

11 machine-learning deep-learning conv-neural-network

1

Czy mogę używać ReLU w autoencoderze jako funkcji aktywacyjnej?

Podczas wdrażania autoencodera z siecią neuronową większość osób użyje sigmoid jako funkcji aktywacyjnej. Czy zamiast tego możemy użyć ReLU? (Ponieważ ReLU nie ma limitu górnej granicy, w zasadzie oznacza to, że obraz wejściowy może mieć piksel większy niż 1, w przeciwieństwie do ograniczonych kryteriów dla autoencodera, gdy używany jest sigmoid).

11 machine-learning neural-networks deep-learning autoencoders

4

Dlaczego nie uczymy się hiper parametrów?

Wdrożyłem dość popularny artykuł „ WYJAŚNIANIE I PRZESYŁANIE PRZYKŁADÓW ADVERSARIALNYCH ”, a w artykule trenuje funkcję celu przeciwnika J '' (θ) = αJ (θ) + (1 - α) J '(θ). Traktuje α jako hiperparametr. α może wynosić 0,1, 0,2, 0,3 itd. Niezależnie od tego konkretnego artykułu zastanawiam się, dlaczego po …

11 machine-learning neural-networks deep-learning hyperparameter

1

Jaka jest różnica między VAE a stochastyczną propagacją wsteczną dla modeli Deep Generative?

Jaka jest różnica między automatycznym kodowaniem odmian Bayesa a stochastyczną propagacją wsteczną dla modeli głębokiej generacji ? Czy wnioskowanie w obu metodach prowadzi do takich samych wyników? Nie znam żadnych wyraźnych porównań między tymi dwiema metodami, mimo że obie grupy autorów cytują się nawzajem.

10 deep-learning inference latent-variable variational-bayes sgd

1

Jakiej funkcji straty należy użyć, aby ocenić model RNN o sekwencji 2?

Pracuję nad dokumentem Cho 2014, który wprowadził architekturę kodera-dekodera do modelowania seq2seq. W pracy wydaje się, że wykorzystują one prawdopodobieństwo wyjścia podanego wejścia (lub jego logarytmiczne prawdopodobieństwo) jako funkcję straty dla wejścia o długości i wyjścia o długości N :M y NxxxM.M.MyyyN.N.N P.( y1, … , YN.| x1, … , …

10 deep-learning loss-functions rnn

1

Związek między szybkością uczenia się a liczbą ukrytych warstw?

Czy istnieje jakaś reguła praktyczna między głębokością sieci neuronowej a szybkością uczenia się? Zauważyłem, że im głębsza sieć, tym niższa musi być szybkość uczenia się. Jeśli to prawda, dlaczego tak jest?

10 neural-networks deep-learning hyperparameter rule-of-thumb

4

różnica między siecią neuronową a głębokim uczeniem się

Jeśli chodzi o różnicę między siecią neuronową a głębokim uczeniem się, możemy wymienić kilka elementów, takich jak więcej warstw, ogromny zestaw danych, potężny sprzęt komputerowy, aby uczynić szkolenie skomplikowanym modelem. Poza tym, czy są jakieś bardziej szczegółowe wyjaśnienia dotyczące różnicy między NN i DL?

10 machine-learning neural-networks deep-learning conv-neural-network deep-belief-networks

3

Czy można trenować sieć neuronową, aby rysować obraz w określonym stylu?

Czy można trenować sieć neuronową, aby rysować obraz w określonym stylu? (Więc pobiera obraz i przerysowuje w stylu, dla którego został wytrenowany). Czy istnieje zatwierdzona technologia dla tego rodzaju rzeczy? Wiem o algorytmie DeepArt. Dobrze jest wypełnić główny obraz pewnym wzorem (na przykład obraz vangoghify), ale szukam czegoś innego - …

10 machine-learning neural-networks deep-learning

1

Obcinanie gradientu podczas treningu głębokich sieci neuronowych

Kiedy chciałbyś wykonać obcinanie gradientu podczas treningu RNN lub CNN? Szczególnie interesuje mnie to drugie. Jaka byłaby dobra wartość początkowa do wycinania? (można go oczywiście dostroić)

10 deep-learning

1

Jak określić liczbę operatorów splotowych w CNN?

W zadaniach widzenia komputerowego, takich jak klasyfikacja obiektów, z sieciami neuronowymi o konwergencji (CNN) sieć zapewnia atrakcyjną wydajność. Ale nie jestem pewien, jak ustawić parametry w warstwach splotowych. Na przykład obraz w skali szarości ( 480x480), pierwsza warstwa splotowa może wykorzystywać operator splotowy podobny 11x11x10, gdzie liczba 10 oznacza liczbę …

10 neural-networks deep-learning conv-neural-network computer-vision

2

WaveNet nie jest tak naprawdę rozszerzonym splotem, prawda?

W najnowszym artykule WaveNet autorzy odnoszą się do swojego modelu jako stosu warstw rozszerzonych splotów. Tworzą również następujące wykresy wyjaśniające różnicę między zwinięciem „zwykłym” a zwężeniem rozszerzonym. Wyglądają zwykłe sploty Jest to splot o wielkości filtra 2 i kroku 1, powtarzany dla 4 warstw. Następnie pokazują architekturę stosowaną przez ich …

10 neural-networks deep-learning conv-neural-network tensorflow

Pytania otagowane jako deep-learning