Pytania otagowane jako optimization

Użyj tego tagu do dowolnego wykorzystania optymalizacji w statystykach.


3
Czy techniki optymalizacji odwzorowują techniki próbkowania?
Z dowolnego ogólnego algorytmu próbkowania można wywnioskować algorytm optymalizacji. Rzeczywiście, aby zmaksymalizować dowolną funkcję , wystarczy pobrać próbki z . Dla wystarczająco małego próbki te spadną w pobliżu globalnego maksimum (lub lokalnych maksimów w praktyce) funkcji .g ∼ e f / T T ffa: x → f( x )fa:x→fa(x)f: \textbf{x} …



3
Jak wielkość partii wpływa na konwergencję SGD i dlaczego?
Widziałem podobny wniosek z wielu dyskusji, że wraz ze wzrostem rozmiaru mini-partii konwergencja SGD faktycznie staje się trudniejsza / gorsza, na przykład ten artykuł i ta odpowiedź . Słyszałem także o ludziach stosujących sztuczki, takie jak małe stawki uczenia się lub wielkości partii na wczesnym etapie, aby rozwiązać ten problem …

2
Czy próbki treningowe losowo losowane do treningu neuronowego należy pobierać bez wymiany?
Definiujemy epokę, która przeszła przez wszystkie dostępne próbki szkoleniowe, a rozmiar mini-partii jako liczbę próbek, w stosunku do której uśredniamy, aby znaleźć aktualizacje wag / odchyleń potrzebnych do zejścia z gradientu. Moje pytanie brzmi: czy powinniśmy rysować bez zastępowania z zestawu przykładów treningu, aby wygenerować każdą mini-partię w epoce. Wydaje …

2
Czy pochylenie gradientu można zastosować do funkcji niewypukłych?
Właśnie uczę się o optymalizacji i mam problem ze zrozumieniem różnicy między optymalizacją wypukłą i nie wypukłą. Z mojego zrozumienia funkcja wypukła to taka, w której „odcinek linii między dowolnymi dwoma punktami na wykresie funkcji znajduje się powyżej lub na wykresie”. W takim przypadku można zastosować algorytm spadku gradientu, ponieważ …


2
Dlaczego robimy tak duże zamieszanie z wykorzystaniem punktacji Fishera, gdy dopasowujemy GLM?
Zastanawiam się, dlaczego traktujemy dopasowywanie GLMS tak, jakby były jakimś specjalnym problemem optymalizacji. Czy oni są? Wydaje mi się, że są one po prostu maksymalne prawdopodobieństwo i że zanotujemy prawdopodobieństwo, a następnie ... zwiększamy je! Dlaczego więc używamy punktacji Fishera zamiast niezliczonej liczby schematów optymalizacji opracowanych w stosowanej literaturze matematycznej?

3
Który algorytm optymalizacji jest używany w funkcji glm w R?
Można wykonać regresję logit w R przy użyciu takiego kodu: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 Wygląda na to, że algorytm optymalizacji jest zbiegnięty - jest informacja o liczbie kroków algorytmu oceniania Fishera: Call: glm(formula = …


2
Co się tutaj dzieje, kiedy używam kwadratowej straty w ustawieniach regresji logistycznej?
Próbuję użyć straty kwadratowej, aby dokonać klasyfikacji binarnej na zestawie danych zabawki. Korzystam z mtcarszestawu danych, wykorzystuję milę na galon i wagę, aby przewidzieć rodzaj transmisji. Poniższy wykres pokazuje dwa typy danych typu transmisji w różnych kolorach oraz granicę decyzji wygenerowaną przez inną funkcję strat. Kwadratowa strata wynosi ∑i(yi−pi)2∑ja(yja-pja)2)\sum_i (y_i-p_i)^2 …

2
Różnica błędów resztkowych standardowych między optym a glm
Staram się odtworzyć z optimwynikami prostej regresji liniowej zaopatrzonej glmlub nawet nlsfunkcje R. Oszacowania parametrów są takie same, ale oszacowanie wariancji rezydualnej i błędy standardowe innych parametrów nie są takie same, szczególnie gdy wielkość próby jest niska. Przypuszczam, że jest to spowodowane różnicami w sposobie obliczania resztkowego błędu standardowego między …

1
Znaczenie ostrzeżenia o konwergencji w blasku
Korzystam z glmerfunkcji z lme4pakietu w R i używam bobyqaoptymalizatora (tj. Domyślnego w moim przypadku). Dostaję ostrzeżenie i jestem ciekaw, co to znaczy. Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa -- a trust region step failed to reduce q Szukałem …

3
Dokonywanie dużych, inteligentnych (er) zakładów
Próbowałem kodować algorytm sugerujący zakłady w grach 1x2 (ważonych). Zasadniczo każda gra ma zestaw meczów (drużyny gospodarzy vs gości): 1: wygrywa dom X: remis 2: wyjazd wygrywa Dla każdego dopasowania i symbolu ( 1, Xi 2) przypiszę procent reprezentujący szanse / prawdopodobieństwo, że ten symbol będzie prawidłowym wynikiem dopasowania. Oto …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.