Pytania otagowane jako gradient-descent

Spadek gradientu jest iteracyjnym algorytmem optymalizacji pierwszego rzędu. Aby znaleźć lokalne minimum funkcji za pomocą opadania gradientu, należy wykonać kroki proporcjonalne do ujemnego gradientu (lub przybliżonego gradientu) funkcji w bieżącym punkcie. Dla stochastycznego spadku gradientu istnieje również znacznik [sgd].




6
Czy w przypadku problemów wypukłych gradient w Stochastic Descent Gradient (SGD) zawsze wskazuje na ekstremalną wartość globalną?
Biorąc pod uwagę funkcję wypukłego kosztu, wykorzystującą SGD do optymalizacji, będziemy mieli gradient (wektor) w pewnym punkcie podczas procesu optymalizacji. Moje pytanie brzmi: biorąc pod uwagę punkt na wypukłości, czy gradient wskazuje tylko w kierunku, w którym funkcja rośnie / zmniejsza się najszybciej, czy gradient zawsze wskazuje na optymalny / …

1
Jak zdefiniować warunek zakończenia opadania gradientu?
Właściwie chciałem zapytać, jak mogę zdefiniować warunek końcowy zejścia gradientu. Czy mogę to zatrzymać na podstawie liczby iteracji, tj. Biorąc pod uwagę wartości parametrów, powiedzmy, 100 iteracji? A może powinienem poczekać, aż różne wartości dwóch parametrów „nowy” i „stary” będą bardzo małe w stosunku do powiedzmy ? To na pewno …

3
Spadek współrzędnych a gradient
Zastanawiałem się, jakie są różne przypadki użycia dla dwóch algorytmów: zejścia współrzędnych i zejścia gradientu . Wiem, że opadanie współrzędnych ma problemy z nie płynnymi funkcjami, ale jest używane w popularnych algorytmach, takich jak SVM i LASSO. Uważam jednak, że zejście gradientowe jest szerzej stosowane, zwłaszcza przy odradzaniu się ANN …

1
Gradientowa propagacja wsteczna poprzez pomijanie połączeń ResNet
Jestem ciekawy, w jaki sposób gradienty są propagowane wstecz przez sieć neuronową przy użyciu modułów ResNet / pomijania połączeń. Widziałem kilka pytań na temat ResNet (np. Sieć neuronowa z połączeniami pomijanymi ), ale to pytanie dotyczy konkretnie wstecznej propagacji gradientów podczas treningu. Podstawowa architektura jest tutaj: Przeczytałem ten artykuł, Badanie …

3
Dlaczego warto korzystać z opadania gradientu w sieciach neuronowych?
Podczas uczenia sieci neuronowej za pomocą algorytmu propagacji wstecznej do określenia aktualizacji masy używana jest metoda opadania gradientu. Moje pytanie brzmi: Zamiast używać metody opadania gradientu, aby powoli zlokalizować punkt minimalny w odniesieniu do określonej masy, dlaczego nie ustawimy po prostu pochodnej i znaleźć wartość masyw,która minimalizuje błąd?d(Error)dw=0d(Error)dw=0\frac{d(\text{Error})}{dw}=0www Ponadto, dlaczego …

3
Czy możliwe jest zejście gradientu dla SVM w jądrze (jeśli tak, to dlaczego ludzie używają programowania kwadratowego)?
Dlaczego ludzie używają technik programowania kwadratowego (takich jak SMO) podczas obsługi SVM z jądrem? Co jest nie tak z Gradient Descent? Czy nie jest możliwe używanie go z jądrem, czy jest to po prostu zbyt wolne (i dlaczego?). Oto nieco więcej kontekstu: starając się lepiej zrozumieć SVM, użyłem Gradient Descent …

3
Od reguły Perceptron do zejścia gradientu: Czym różnią się Perceptrony z funkcją aktywacji sigmoidalnej od regresji logistycznej?
Zasadniczo moje pytanie brzmi: w perceptronach wielowarstwowych perceptrony są używane z funkcją aktywacji sigmoidalnej. Tak więc w regule aktualizacji jest obliczany jakoy^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Czym zatem ten „sigmoidalny” Perceptron różni się od regresji logistycznej? Powiedziałbym, że jednowarstwowy sigmoidalny perceptron jest równoważny regresji logistycznej w tym sensie, że obaj używają …

2
Po co w sieciach neuronowych używać metod gradientowych zamiast innych metaheurystyk?
Dlaczego podczas treningu głębokich i płytkich sieci neuronowych powszechnie stosuje się metody gradientowe (np. Opadanie gradientu, Niestierow, Newton-Raphson), w przeciwieństwie do innych metaheurystyk? Przez metaheurystykę rozumiem metody takie jak symulowane wyżarzanie, optymalizacja kolonii mrówek itp., Które zostały opracowane w celu uniknięcia utknięcia w lokalnych minimach.

3
Kiedy algorytmy genetyczne są dobrym wyborem do optymalizacji?
Algorytmy genetyczne są jedną z metod optymalizacji. Często stochastyczne zejście gradientu i jego pochodne są najlepszym wyborem do optymalizacji funkcji, ale algorytmy genetyczne są nadal stosowane. Na przykład antena statku kosmicznego ST5 NASA została stworzona za pomocą algorytmu genetycznego: Kiedy metody optymalizacji genetycznej są lepszym wyborem niż bardziej popularne metody …

3
Czy istnieje wiele lokalnych optymalnych rozwiązań, gdy rozwiązujemy regresję liniową?
Przeczytałem to oświadczenie na jednym starym egzaminie prawda / fałsz: Możemy uzyskać wiele lokalnych optymalnych rozwiązań, jeśli rozwiążemy problem regresji liniowej, minimalizując sumę błędów kwadratu za pomocą spadku gradientu. Rozwiązanie: Fałsz Moje pytanie brzmi, która część tego pytania jest błędna? Dlaczego to stwierdzenie jest fałszywe?


3
Jak wielkość partii wpływa na konwergencję SGD i dlaczego?
Widziałem podobny wniosek z wielu dyskusji, że wraz ze wzrostem rozmiaru mini-partii konwergencja SGD faktycznie staje się trudniejsza / gorsza, na przykład ten artykuł i ta odpowiedź . Słyszałem także o ludziach stosujących sztuczki, takie jak małe stawki uczenia się lub wielkości partii na wczesnym etapie, aby rozwiązać ten problem …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.