Pytania otagowane jako optimization

Użyj tego tagu do dowolnego wykorzystania optymalizacji w statystykach.

1
Jak stochastyczne obniżanie gradientu może zaoszczędzić czas w porównaniu ze standardowym spadkiem gradientu?
Standardowe zejście gradientu obliczałoby gradient dla całego zestawu danych treningowych. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Dla wstępnie zdefiniowanej liczby epok najpierw obliczamy wektor gradientu wagi_grad funkcji straty dla całego zestawu danych w stosunku do naszych parametrów wektora parametru. Natomiast …



1
Czy prawdopodobieństwo dziennika w GLM gwarantuje konwergencję do maksymalnych wartości globalnych?
Moje pytania to: Czy uogólnione modele liniowe (GLM) są gwarantowane, że osiągną globalne maksimum? Jeśli tak, to dlaczego? Co więcej, jakie są ograniczenia funkcji łączenia w celu zapewnienia wypukłości? Rozumiem GLM, że maksymalizują one wysoce nieliniową funkcję wiarygodności. Tak więc wyobrażam sobie, że istnieje kilka lokalnych maksimów, a zestaw parametrów, …

2
Jak wybrać odpowiedni algorytm optymalizacji?
Muszę znaleźć minimum funkcji. Czytając dokumenty na stronie http://docs.scipy.org/doc/scipy/reference/optimize.html Widzę, że istnieje kilka algorytmów, które robią to samo, tzn. Znajdują minimum. Skąd mam wiedzieć, który wybrać? niektóre z wymienionych algorytmów Zminimalizuj funkcję za pomocą algorytmu downhill simplex. Zminimalizuj funkcję za pomocą algorytmu BFGS. Zminimalizuj funkcję za pomocą nieliniowego algorytmu gradientu …

2
Dlaczego maksymalizacja oczekiwań jest ważna dla modeli mieszanin?
Istnieje wiele literatury podkreślającej metodę maksymalizacji oczekiwań na modelach mieszanin (mieszanina modelu Gaussa, model ukrytego Markowa itp.). Dlaczego EM jest ważny? EM to tylko sposób na optymalizację i nie jest szeroko stosowany jako metoda oparta na gradiencie (metoda przyzwoitego gradientu lub metoda newtona / quasi-newtona) lub inna metoda bez gradientu …

1
Wyjaśnienie dotyczące reguły Perceptron vs. Gradient Descent vs. Stochastic Gradient Descent
Eksperymentowałem trochę z różnymi implementacjami Perceptron i chcę się upewnić, czy poprawnie rozumiem „iteracje”. Oryginalna reguła perceptronowa Rosenblatta O ile rozumiem, w klasycznym algorytmie perceptronowym Rosenblatta wagi są jednocześnie aktualizowane po każdym przykładzie treningu za pośrednictwem Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i gdzie etaetaeta jest tutaj zasadą uczenia się. …

2
Szacowanie ARIMA ręcznie
Próbuję zrozumieć, w jaki sposób parametry są szacowane w modelowaniu ARIMA / Box Jenkins (BJ). Niestety żadna z książek, które napotkałem, nie opisuje szczegółowo procedury szacowania, takiej jak procedura szacowania wiarygodności logarytmicznej. Znalazłem stronę internetową / materiały dydaktyczne, które były bardzo pomocne. Poniżej znajduje się równanie ze źródła wymienionego powyżej. …

1
W jaki sposób CNN unikają problemu znikającego gradientu
Dużo czytałem o splotowych sieciach neuronowych i zastanawiałem się, w jaki sposób unikają problemu znikającego gradientu. Wiem, że sieci głębokiego przekonania stosują auto-kodery jednopoziomowe lub inne wstępnie wyszkolone płytkie sieci, dzięki czemu mogę uniknąć tego problemu, ale nie wiem, jak można go uniknąć w sieciach CNN. Według Wikipedii : „pomimo …

1
Dlaczego nie mogę dopasować wyjścia glmer (rodzina = dwumianowy) do ręcznej implementacji algorytmu Gaussa-Newtona?
Chciałbym dopasować wyjścia lmera (naprawdę blasku) do dwumianowego przykładu zabawki. Przeczytałem winiety i wierzę, że rozumiem, co się dzieje. Ale najwyraźniej nie. Po utknięciu, naprawiłem „prawdę” w kategoriach efektów losowych i poszedłem po ocenie samych ustalonych efektów. Podaję ten kod poniżej. Aby zobaczyć, że jest to uzasadnione, możesz skomentować + …


1
Dlaczego ważne jest uwzględnienie terminu korekty odchylenia dla optymalizatora Adama w przypadku głębokiego uczenia się?
Czytałem o optymalizatorze Adama do głębokiego uczenia się i natknąłem się na następujące zdanie w nowej książce Głębokie uczenie się autorstwa Begnio, Goodfellow i Courtville: Adam wprowadza korekty błędu wstępnego w szacunkach zarówno momentów pierwszego rzędu (okres pędu), jak i (niecentrowanych) momentów drugiego rzędu, aby uwzględnić ich inicjalizację u źródła. …

3
Różnica w stosowaniu znormalizowanego gradientu i gradientu
W ogólnym ustawieniu algorytmu spadku gradientu mamy gdzie jest bieżącym punktem, jest rozmiarem kroku, a jest gradientem oceniono na . xn + 1= xn- η∗ gr a di e n txnxn+1=xn-η∗solrzarejamintxnx_{n+1} = x_{n} - \eta * gradient_{x_n}xnxnx_nηη\etasolr a di e n txnsolrzarejamintxngradient_{x_n}xnxnx_n Widziałem w niektórych algorytmach, ludzie używają znormalizowanego gradientu …

4
Jak należy zamówić dobór funkcji i optymalizację hiperparametrów w potoku uczenia maszynowego?
Moim celem jest klasyfikacja sygnałów z czujników. Dotychczasowe pojęcie mojego rozwiązania to: i) Funkcje inżynieryjne z surowego sygnału ii) Wybieranie odpowiednich funkcji za pomocą ReliefF i podejścia klastrowego iii) Zastosuj NN, Losowy Las i SVM Jestem jednak uwięziony w dylemacie. W ii) i iii) istnieją hiperparametry, takie jak k-Najbliższe Neigbours …

1
Jak działa L-BFGS?
Celem artykułu była optymalizacja niektórych parametrów poprzez maksymalizację znormalizowanego prawdopodobieństwa dziennika. Następnie obliczają pochodne częściowe. A potem autorzy wspominają, że optymalizują równanie za pomocą L-BFGS, standardowej procedury quasi-Newtona w celu optymalizacji płynnych funkcji wielu zmiennych (bez dalszych szczegółów). Jak to działa ?

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.