Pytania otagowane jako deep-learning

nowy obszar badań Machine Learning dotyczący technologii wykorzystywanych do uczenia się hierarchicznych reprezentacji danych, wykonywanych głównie w głębokich sieciach neuronowych (tj. sieciach z dwiema lub więcej ukrytymi warstwami), ale także z pewnymi probabilistycznymi modelami graficznymi.


6
Kiedy używać GRU przez LSTM?
Kluczowa różnica między GRU a LSTM polega na tym, że GRU ma dwie bramki (bramki resetowania i aktualizacji ), podczas gdy LSTM ma trzy bramki (mianowicie bramki wejścia , wyjścia i zapomnienia ). Dlaczego korzystamy z GRU, skoro mamy wyraźniejszą kontrolę nad siecią dzięki modelowi LSTM (ponieważ mamy trzy bramki)? …

8
Wybór współczynnika uczenia się
Obecnie pracuję nad implementacją Stochastic Gradient Descent, SGDdla sieci neuronowych wykorzystujących propagację wsteczną i choć rozumiem jej cel, mam kilka pytań na temat wyboru wartości szybkości uczenia się. Czy szybkość uczenia się jest związana z kształtem gradientu błędu, ponieważ dyktuje on tempo opadania? Jeśli tak, w jaki sposób wykorzystujesz te …



5
Prognozowanie szeregów czasowych przy użyciu ARIMA vs LSTM
Problemem, z którym mam do czynienia, jest przewidywanie wartości szeregów czasowych. Patrzę na jedną serię czasową naraz i na podstawie np. 15% danych wejściowych chciałbym przewidzieć jej przyszłe wartości. Do tej pory natknąłem się na dwa modele: LSTM (długoterminowa pamięć krótkotrwała; klasa rekurencyjnych sieci neuronowych) ARIMA Próbowałem obu i przeczytałem …

2
Kiedy stosować (He lub Glorot) normalną inicjalizację zamiast jednolitej inicjacji? A jakie są jego efekty dzięki Normalizacji partii?
Wiedziałem, że Residual Network (ResNet) sprawił, że zwykła inicjalizacja He stała się popularna. W ResNet używana jest normalna inicjalizacja He , podczas gdy pierwsza warstwa używa jednolitej inicjalizacji He. Przejrzałem papier ResNet i papier „Zagłębiając się w prostowniki” (papier inicjalizacyjny He), ale nie znalazłem żadnej wzmianki o normalnym init vs. …

3
Jak walczyć z niedopasowaniem w głębokiej sieci neuronowej
Kiedy zaczynałem od sztucznych sieci neuronowych (NN), pomyślałem, że będę musiał walczyć z nadmiernym dopasowaniem jako głównym problemem. Ale w praktyce nie mogę nawet sprawić, aby mój NN przekroczył barierę 20% poziomu błędu. Nie mogę nawet pobić mojego wyniku w losowym lesie! Szukam bardzo ogólnych lub niezbyt ogólnych wskazówek, co …

3
Liczba parametrów w modelu LSTM
Ile parametrów ma pojedynczy zestaw LSTM? Liczba parametrów nakłada dolną granicę na liczbę wymaganych przykładów treningu, a także wpływa na czas szkolenia. Dlatego znajomość liczby parametrów jest przydatna w modelach szkoleniowych z wykorzystaniem LSTM.

4
Dodawanie funkcji do modelu szeregów czasowych LSTM
czytałem trochę o LSTM i ich zastosowaniu do szeregów czasowych i było to interesujące, ale jednocześnie trudne. Jedną rzeczą, z którą miałem trudności ze zrozumieniem, jest podejście do dodawania dodatkowych funkcji do już istniejącej listy funkcji szeregów czasowych. Zakładając, że masz zestaw danych w następujący sposób: t-3, t-2, t-1, Wyjście …

4
Dlaczego rozmiar mini partii jest lepszy niż jedna „partia” ze wszystkimi danymi treningowymi?
Często czytam, że w przypadku modeli Deep Learning zwykłą praktyką jest stosowanie mini-partii (zazwyczaj małej, 32/64) w kilku epokach treningowych. Naprawdę nie mogę pojąć przyczyny tego. O ile się nie mylę, wielkość partii to liczba instancji treningowych widocznych przez model podczas iteracji treningu; a epoka jest pełną turą, gdy model …

3
Czy batch_size w Keras ma jakikolwiek wpływ na jakość wyników?
Mam zamiar wytrenować dużą sieć LSTM z 2-3 milionami artykułów i walczę z błędami pamięci (używam AWS EC2 g2x2large). Dowiedziałem się, że jednym z rozwiązań jest zmniejszenie batch_size. Nie jestem jednak pewien, czy ten parametr dotyczy tylko problemów z wydajnością pamięci lub czy wpłynie to na moje wyniki. W rzeczywistości …

3
Jaka jest różnica między „ekwiwariantem do tłumaczenia” a „niezmiennikiem do tłumaczenia”
Mam problem ze zrozumieniem różnicy między ekwiwariantem a tłumaczeniem i niezmiennikiem dla tłumaczenia . W książce Deep Learning . MIT Press, 2016 (I. Goodfellow, A. Courville i Y. Bengio), można znaleźć w sieciach splotowych: [...] szczególna forma udostępniania parametrów powoduje, że warstwa ma właściwość o nazwie równoważności translacji [...] łączenie …


6
Wyjaśnienie utraty entropii
Załóżmy, że zbuduję NN do klasyfikacji. Ostatnia warstwa to gęsta warstwa z aktywacją softmax. Mam pięć różnych klas do sklasyfikowania. Załóżmy, że dla jednego przykładu szkolenia,true label są [1 0 0 0 0]przewidywania [0.1 0.5 0.1 0.1 0.2]. Jak obliczyć utratę entropii krzyżowej dla tego przykładu?

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.