Statystyki i duże zbiory danych sgd

3

Spadek gradientu wsadowego a gradient gradientu stochastycznego

Załóżmy, że mamy pewien zestaw treningowy ( x( i ), y( i ))(x(i),y(i))(x_{(i)}, y_{(i)}) dla i = 1 , … , mi=1,…,mi = 1, \dots, m . Załóżmy również, że uruchamiamy pewien rodzaj algorytmu uczenia nadzorowanego na zestawie szkoleniowym. Hipotezy są reprezentowane jako hθ( x( i )) = θ0+ θ1x( …

101 optimization gradient-descent sgd

2

Kto wynalazł stochastyczne zejście gradientu?

Staram się zrozumieć historię zejścia gradientowego i stochastycznego . Gradientowe zejście zostało wynalezione w Cauchy w 1847 roku. Méthode générale pour la résolution des systèmes d'équations symultanes . str. 536–538 Więcej informacji na ten temat można znaleźć tutaj . Od tego czasu metody zejścia gradientowego ciągle się rozwijają i nie …

36 references gradient-descent history sgd

6

Czy w przypadku problemów wypukłych gradient w Stochastic Descent Gradient (SGD) zawsze wskazuje na ekstremalną wartość globalną?

Biorąc pod uwagę funkcję wypukłego kosztu, wykorzystującą SGD do optymalizacji, będziemy mieli gradient (wektor) w pewnym punkcie podczas procesu optymalizacji. Moje pytanie brzmi: biorąc pod uwagę punkt na wypukłości, czy gradient wskazuje tylko w kierunku, w którym funkcja rośnie / zmniejsza się najszybciej, czy gradient zawsze wskazuje na optymalny / …

25 neural-networks optimization gradient-descent sgd convex

3

Jak wielkość partii wpływa na konwergencję SGD i dlaczego?

Widziałem podobny wniosek z wielu dyskusji, że wraz ze wzrostem rozmiaru mini-partii konwergencja SGD faktycznie staje się trudniejsza / gorsza, na przykład ten artykuł i ta odpowiedź . Słyszałem także o ludziach stosujących sztuczki, takie jak małe stawki uczenia się lub wielkości partii na wczesnym etapie, aby rozwiązać ten problem …

18 machine-learning neural-networks optimization gradient-descent sgd

1

Jak stochastyczne obniżanie gradientu może zaoszczędzić czas w porównaniu ze standardowym spadkiem gradientu?

Standardowe zejście gradientu obliczałoby gradient dla całego zestawu danych treningowych. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Dla wstępnie zdefiniowanej liczby epok najpierw obliczamy wektor gradientu wagi_grad funkcji straty dla całego zestawu danych w stosunku do naszych parametrów wektora parametru. Natomiast …

16 machine-learning optimization gradient-descent computational-statistics sgd

4

Jak można go uwięzić w siodle?

Obecnie jestem nieco zdziwiony tym, w jaki sposób opadanie gradientu mini-partii może być uwięzione w punkcie siodłowym. Rozwiązanie może być zbyt trywialne, że go nie rozumiem. Masz nową próbkę każda epoka, i oblicza nową błędów oparty na nowej partii, więc funkcja kosztu jest statyczne tylko dla każdej partii, co oznacza, …

14 gradient-descent sgd

1

RMSProp i Adam vs SGD

Przeprowadzam eksperymenty na zestawie walidacyjnym EMNIST przy użyciu sieci z RMSProp, Adamem i SGD. Osiągam 87% dokładności dzięki SGD (współczynnik uczenia się 0,1) i porzucaniu (0,1 porzuceniu prob), a także regularyzacji L2 (kara 1e-05). Podczas testowania tej samej dokładnej konfiguracji z RMSProp i Adamem, a także początkowej szybkości uczenia się …

12 machine-learning optimization sgd adam

1

Jaka jest różnica między VAE a stochastyczną propagacją wsteczną dla modeli Deep Generative?

Jaka jest różnica między automatycznym kodowaniem odmian Bayesa a stochastyczną propagacją wsteczną dla modeli głębokiej generacji ? Czy wnioskowanie w obu metodach prowadzi do takich samych wyników? Nie znam żadnych wyraźnych porównań między tymi dwiema metodami, mimo że obie grupy autorów cytują się nawzajem.

10 deep-learning inference latent-variable variational-bayes sgd

Pytania otagowane jako sgd