Oto coś, co przeczytałem w książce Iana Goodfellow'a Deep Learning . W kontekście sieci neuronowych „kara za normę parametru L2 jest powszechnie znana jako zanik masy. Ta strategia regularyzacji przybliża wagi do źródła [...]. Mówiąc bardziej ogólnie, moglibyśmy uregulować parametry tak, aby znajdowały się w pobliżu dowolnego określonego punktu w …
Ostatnio widzieliśmy pojawienie się Residual Neural Net, w której każda warstwa składa się z modułu obliczeniowego i połączenia skrótowego, które zachowuje dane wejściowe do warstwy, takie jak dane wyjściowe z i-tej warstwy: Sieć pozwala wydobyć pozostałe cechy i pozwala na głębszą głębię, będąc jednocześnie bardziej odporna na znikający problem gradientu, …
Mam problemy ze zrozumieniem modelu pominięcia gramów algorytmu Word2Vec. W ciągłym pakiecie słów łatwo jest zobaczyć, jak słowa kontekstowe mogą się „zmieścić” w sieci neuronowej, ponieważ w zasadzie uśrednia się je po pomnożeniu każdej z reprezentacji kodowania jednokrotnego z macierzą wejściową W. Jednak w przypadku pominięcia gram, wektor słowa wejściowego …
Załóżmy, że chcę nauczyć się klasyfikatora, który przyjmuje wektor liczb jako dane wejściowe i podaje etykietę klasy jako dane wyjściowe. Moje dane treningowe składają się z dużej liczby par przepływów międzygałęziowych. Jednak kiedy przechodzę do testowania niektórych nowych danych, dane te są zwykle tylko częściowo kompletne. Na przykład, jeśli wektor …
W jaki sposób mapy aktywacyjne na danej warstwie są połączone z filtrami dla tej warstwy? Nie pytam o to, jak wykonać operację splotu między filtrem a mapą aktywacyjną, pytam o rodzaj łączności tych dwóch. Powiedzmy na przykład, że chcesz uzyskać pełną łączność. Masz liczbę filtrów i liczbę map aktywacyjnych w …
Podczas wdrażania autoencodera z siecią neuronową większość osób użyje sigmoid jako funkcji aktywacyjnej. Czy zamiast tego możemy użyć ReLU? (Ponieważ ReLU nie ma limitu górnej granicy, w zasadzie oznacza to, że obraz wejściowy może mieć piksel większy niż 1, w przeciwieństwie do ograniczonych kryteriów dla autoencodera, gdy używany jest sigmoid).
Wdrożyłem dość popularny artykuł „ WYJAŚNIANIE I PRZESYŁANIE PRZYKŁADÓW ADVERSARIALNYCH ”, a w artykule trenuje funkcję celu przeciwnika J '' (θ) = αJ (θ) + (1 - α) J '(θ). Traktuje α jako hiperparametr. α może wynosić 0,1, 0,2, 0,3 itd. Niezależnie od tego konkretnego artykułu zastanawiam się, dlaczego po …
Jaka jest różnica między automatycznym kodowaniem odmian Bayesa a stochastyczną propagacją wsteczną dla modeli głębokiej generacji ? Czy wnioskowanie w obu metodach prowadzi do takich samych wyników? Nie znam żadnych wyraźnych porównań między tymi dwiema metodami, mimo że obie grupy autorów cytują się nawzajem.
Pracuję nad dokumentem Cho 2014, który wprowadził architekturę kodera-dekodera do modelowania seq2seq. W pracy wydaje się, że wykorzystują one prawdopodobieństwo wyjścia podanego wejścia (lub jego logarytmiczne prawdopodobieństwo) jako funkcję straty dla wejścia o długości i wyjścia o długości N :M y NxxxM.M.MyyyN.N.N P.( y1, … , YN.| x1, … , …
Czy istnieje jakaś reguła praktyczna między głębokością sieci neuronowej a szybkością uczenia się? Zauważyłem, że im głębsza sieć, tym niższa musi być szybkość uczenia się. Jeśli to prawda, dlaczego tak jest?
Jeśli chodzi o różnicę między siecią neuronową a głębokim uczeniem się, możemy wymienić kilka elementów, takich jak więcej warstw, ogromny zestaw danych, potężny sprzęt komputerowy, aby uczynić szkolenie skomplikowanym modelem. Poza tym, czy są jakieś bardziej szczegółowe wyjaśnienia dotyczące różnicy między NN i DL?
Czy można trenować sieć neuronową, aby rysować obraz w określonym stylu? (Więc pobiera obraz i przerysowuje w stylu, dla którego został wytrenowany). Czy istnieje zatwierdzona technologia dla tego rodzaju rzeczy? Wiem o algorytmie DeepArt. Dobrze jest wypełnić główny obraz pewnym wzorem (na przykład obraz vangoghify), ale szukam czegoś innego - …
Kiedy chciałbyś wykonać obcinanie gradientu podczas treningu RNN lub CNN? Szczególnie interesuje mnie to drugie. Jaka byłaby dobra wartość początkowa do wycinania? (można go oczywiście dostroić)
W zadaniach widzenia komputerowego, takich jak klasyfikacja obiektów, z sieciami neuronowymi o konwergencji (CNN) sieć zapewnia atrakcyjną wydajność. Ale nie jestem pewien, jak ustawić parametry w warstwach splotowych. Na przykład obraz w skali szarości ( 480x480), pierwsza warstwa splotowa może wykorzystywać operator splotowy podobny 11x11x10, gdzie liczba 10 oznacza liczbę …
W najnowszym artykule WaveNet autorzy odnoszą się do swojego modelu jako stosu warstw rozszerzonych splotów. Tworzą również następujące wykresy wyjaśniające różnicę między zwinięciem „zwykłym” a zwężeniem rozszerzonym. Wyglądają zwykłe sploty Jest to splot o wielkości filtra 2 i kroku 1, powtarzany dla 4 warstw. Następnie pokazują architekturę stosowaną przez ich …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.