Pytania otagowane jako gradient-descent

Spadek gradientu jest iteracyjnym algorytmem optymalizacji pierwszego rzędu. Aby znaleźć lokalne minimum funkcji za pomocą opadania gradientu, należy wykonać kroki proporcjonalne do ujemnego gradientu (lub przybliżonego gradientu) funkcji w bieżącym punkcie. Dla stochastycznego spadku gradientu istnieje również znacznik [sgd].

5
Dlaczego k-znaczy nie daje globalnego minimum?
Czytałem, że algorytm k-średnich jest zbieżny tylko z lokalnym minimum, a nie globalnym minimum. Dlaczego to? Mogę logicznie myśleć o tym, w jaki sposób inicjalizacja mogłaby wpłynąć na końcowe grupowanie i istnieje możliwość nieoptymalnego grupowania, ale nie znalazłem niczego, co matematycznie to udowodni. Ponadto, dlaczego k-oznacza proces iteracyjny? Czy nie …

1
Jak stochastyczne obniżanie gradientu może zaoszczędzić czas w porównaniu ze standardowym spadkiem gradientu?
Standardowe zejście gradientu obliczałoby gradient dla całego zestawu danych treningowych. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Dla wstępnie zdefiniowanej liczby epok najpierw obliczamy wektor gradientu wagi_grad funkcji straty dla całego zestawu danych w stosunku do naszych parametrów wektora parametru. Natomiast …


3
Jaka jest różnica między nauczaniem online i wsadowym?
Obecnie czytam artykuł Efficient Online and Batch Learning with Forward-Backward Spliting autorstwa John Duchi i Yoram Singer. Jestem bardzo zdezorientowany co do używania terminów „Online” i „Batch”. Pomyślałem, że „Online” oznacza, że ​​aktualizujemy parametry wagi po przetworzeniu jednej jednostki danych treningowych. Następnie wykorzystujemy nowe parametry wagi do przetwarzania następnej jednostki …

1
Wyjaśnienie dotyczące reguły Perceptron vs. Gradient Descent vs. Stochastic Gradient Descent
Eksperymentowałem trochę z różnymi implementacjami Perceptron i chcę się upewnić, czy poprawnie rozumiem „iteracje”. Oryginalna reguła perceptronowa Rosenblatta O ile rozumiem, w klasycznym algorytmie perceptronowym Rosenblatta wagi są jednocześnie aktualizowane po każdym przykładzie treningu za pośrednictwem Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i gdzie etaetaeta jest tutaj zasadą uczenia się. …

1
Suma czy średnia gradientów w (mini) gradiencie serii przyzwoitym?
Kiedy zaimplementowałem przyzwoity gradient mini partii, po prostu uśredniłem gradienty wszystkich przykładów w partii treningowej. Zauważyłem jednak, że teraz optymalna szybkość uczenia się jest znacznie wyższa niż w przypadku przyzwoitego gradientu online. Moją intuicją jest to, że uśredniony gradient jest mniej hałaśliwy i dlatego można go śledzić szybciej. Może więc …

1
W jaki sposób CNN unikają problemu znikającego gradientu
Dużo czytałem o splotowych sieciach neuronowych i zastanawiałem się, w jaki sposób unikają problemu znikającego gradientu. Wiem, że sieci głębokiego przekonania stosują auto-kodery jednopoziomowe lub inne wstępnie wyszkolone płytkie sieci, dzięki czemu mogę uniknąć tego problemu, ale nie wiem, jak można go uniknąć w sieciach CNN. Według Wikipedii : „pomimo …

1
Dlaczego nie używamy niestałych wskaźników uczenia się dla gradientu przyzwoitego dla rzeczy innych niż sieci neuronowe?
Literatura dogłębnego uczenia się jest pełna sprytnych sztuczek z wykorzystaniem niestałych wskaźników uczenia się przy opadaniu gradientowym. Rzeczy takie jak rozkład wykładniczy, RMSprop, Adagrad itp. Są łatwe do wdrożenia i są dostępne w każdym pakiecie dogłębnego uczenia się, ale wydają się nie istnieć poza sieciami neuronowymi. Czy jest jakiś powód …

4
Jak można go uwięzić w siodle?
Obecnie jestem nieco zdziwiony tym, w jaki sposób opadanie gradientu mini-partii może być uwięzione w punkcie siodłowym. Rozwiązanie może być zbyt trywialne, że go nie rozumiem. Masz nową próbkę każda epoka, i oblicza nową błędów oparty na nowej partii, więc funkcja kosztu jest statyczne tylko dla każdej partii, co oznacza, …

1
Funkcje kosztów dla kontekstowych bandytów
Używam wabbitów ślubnych, aby rozwiązać problem bandytów kontekstowych . Wyświetlam reklamy użytkownikom i mam sporo informacji na temat kontekstu, w którym reklama jest wyświetlana (np. Kim jest użytkownik, w jakiej witrynie się znajduje itp.). To wydaje się być dość klasycznym problemem kontekstowego bandyty, jak opisał John Langford . W mojej …

2
Gradient descent vs lm () function in R?
Przeglądam filmy z bezpłatnego internetowego kursu uczenia maszynowego Andrew Ng w Stanford. Omawia Gradient Descent jako algorytm do rozwiązywania regresji liniowej i pisania funkcji w Octave do jej wykonania. Przypuszczalnie mógłbym przepisać te funkcje w R, ale moje pytanie brzmi: czy funkcja lm () już nie daje wyników regresji liniowej? …

5
Dlaczego spadek gradientu jest nieefektywny w przypadku dużych zbiorów danych?
Załóżmy, że nasz zestaw danych zawiera 1 milion przykładów, tj. , i chcemy użyć opadania gradientu, aby przeprowadzić regresję logistyczną lub liniową na tym zestawie danych.x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} Co to jest z metodą opadania gradientu, która sprawia, że ​​jest nieefektywna? Przypomnijmy, że krok opadania gradientu w czasie jest określony przez:ttt …

1
Dlaczego algorytm zniżania „Saddle-Free Newton” nie jest stosowany w praktyce?
Niedawno przeczytałem artykuł Yanna Dauphina i in. Identyfikowanie i atakowanie problemu punktu siodłowego w wielowymiarowej nie wypukłej optymalizacji , w której wprowadzono interesujący algorytm opadania o nazwie Saddle-Free Newton , który wydaje się być dokładnie dostosowany do optymalizacji sieci neuronowej i nie powinien cierpieć z powodu utknięcia w punktach siodłowych …

1
Wybór odpowiedniego rozmiaru mini-partii dla stochastycznego spadku gradientu (SGD)
Czy jest jakaś literatura, która bada wybór wielkości mini-partii podczas stochastycznego spadku gradientu? Z mojego doświadczenia wynika, że ​​jest to wybór empiryczny, zwykle znajdowany w drodze weryfikacji krzyżowej lub przy użyciu różnych reguł. Czy dobrym pomysłem jest powolne zwiększanie rozmiaru minibatchu, gdy zmniejsza się błąd sprawdzania poprawności? Jaki miałby to …

2
Spadek gradientu nie znajduje rozwiązania dla zwykłych najmniejszych kwadratów w tym zestawie danych?
Studiowałem regresję liniową i wypróbowałem ją poniżej zestawu {(x, y)}, gdzie x określał powierzchnię domu w metrach kwadratowych, ay określał cenę w dolarach. To jest pierwszy przykład w notatkach Andrew Ng . 2104,400 1600,330 2400,369 1416,232 3000,540 Opracowałem przykładowy kod, ale kiedy go uruchamiam, koszt rośnie z każdym krokiem, podczas …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.