Czy istnieje matematyczna lub algorytmiczna definicja nadmiernego dopasowania? Często podawanymi definicjami są klasyczny dwuwymiarowy wykres punktów z linią przechodzącą przez każdy punkt, a krzywa utraty walidacji nagle rośnie. Ale czy istnieje matematycznie rygorystyczna definicja?
Z dowolnego ogólnego algorytmu próbkowania można wywnioskować algorytm optymalizacji. Rzeczywiście, aby zmaksymalizować dowolną funkcję , wystarczy pobrać próbki z . Dla wystarczająco małego próbki te spadną w pobliżu globalnego maksimum (lub lokalnych maksimów w praktyce) funkcji .g ∼ e f / T T ffa: x → f( x )fa:x→fa(x)f: \textbf{x} …
Próbuję zminimalizować funkcję niestandardową. Powinien zaakceptować pięć parametrów i zestaw danych oraz wykonać wszelkiego rodzaju obliczenia, tworząc jedną liczbę jako wynik. Chcę znaleźć kombinację pięciu parametrów wejściowych, która daje najmniejszą wydajność mojej funkcji.
Wiele samouczków online mówi o spadku gradientu i prawie wszystkie z nich mają ustalony rozmiar kroku (współczynnik uczenia ). Dlaczego nie ma potrzeby wyszukiwania linii (takiego jak wyszukiwanie linii wstecznej lub dokładne wyszukiwanie linii)?αα\alpha
Widziałem podobny wniosek z wielu dyskusji, że wraz ze wzrostem rozmiaru mini-partii konwergencja SGD faktycznie staje się trudniejsza / gorsza, na przykład ten artykuł i ta odpowiedź . Słyszałem także o ludziach stosujących sztuczki, takie jak małe stawki uczenia się lub wielkości partii na wczesnym etapie, aby rozwiązać ten problem …
Definiujemy epokę, która przeszła przez wszystkie dostępne próbki szkoleniowe, a rozmiar mini-partii jako liczbę próbek, w stosunku do której uśredniamy, aby znaleźć aktualizacje wag / odchyleń potrzebnych do zejścia z gradientu. Moje pytanie brzmi: czy powinniśmy rysować bez zastępowania z zestawu przykładów treningu, aby wygenerować każdą mini-partię w epoce. Wydaje …
Właśnie uczę się o optymalizacji i mam problem ze zrozumieniem różnicy między optymalizacją wypukłą i nie wypukłą. Z mojego zrozumienia funkcja wypukła to taka, w której „odcinek linii między dowolnymi dwoma punktami na wykresie funkcji znajduje się powyżej lub na wykresie”. W takim przypadku można zastosować algorytm spadku gradientu, ponieważ …
Wydaje mi się, że jest to podstawowe pytanie i dotyczy samego kierunku gradientu, ale szukam przykładów, w których metody drugiego rzędu (np. BFGS ) są bardziej skuteczne niż proste zejście gradientu.
Zastanawiam się, dlaczego traktujemy dopasowywanie GLMS tak, jakby były jakimś specjalnym problemem optymalizacji. Czy oni są? Wydaje mi się, że są one po prostu maksymalne prawdopodobieństwo i że zanotujemy prawdopodobieństwo, a następnie ... zwiększamy je! Dlaczego więc używamy punktacji Fishera zamiast niezliczonej liczby schematów optymalizacji opracowanych w stosowanej literaturze matematycznej?
Można wykonać regresję logit w R przy użyciu takiego kodu: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 Wygląda na to, że algorytm optymalizacji jest zbiegnięty - jest informacja o liczbie kroków algorytmu oceniania Fishera: Call: glm(formula = …
Znalazłem tej implementacji Pythona w Breaks Jenks Natural algorytmu i mogłem zrobić to uruchomić na moim Windows 7 maszynie. Jest dość szybki i wykrywa przerwy w krótkim czasie, biorąc pod uwagę rozmiar moich geodanych. Przed użyciem tego algorytmu grupowania dla moich danych korzystałem sklearn.clustering.KMeans (tutaj) z algorytmu. Problemem z KMeans …
Próbuję użyć straty kwadratowej, aby dokonać klasyfikacji binarnej na zestawie danych zabawki. Korzystam z mtcarszestawu danych, wykorzystuję milę na galon i wagę, aby przewidzieć rodzaj transmisji. Poniższy wykres pokazuje dwa typy danych typu transmisji w różnych kolorach oraz granicę decyzji wygenerowaną przez inną funkcję strat. Kwadratowa strata wynosi ∑i(yi−pi)2∑ja(yja-pja)2)\sum_i (y_i-p_i)^2 …
Staram się odtworzyć z optimwynikami prostej regresji liniowej zaopatrzonej glmlub nawet nlsfunkcje R. Oszacowania parametrów są takie same, ale oszacowanie wariancji rezydualnej i błędy standardowe innych parametrów nie są takie same, szczególnie gdy wielkość próby jest niska. Przypuszczam, że jest to spowodowane różnicami w sposobie obliczania resztkowego błędu standardowego między …
Korzystam z glmerfunkcji z lme4pakietu w R i używam bobyqaoptymalizatora (tj. Domyślnego w moim przypadku). Dostaję ostrzeżenie i jestem ciekaw, co to znaczy. Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa -- a trust region step failed to reduce q Szukałem …
Próbowałem kodować algorytm sugerujący zakłady w grach 1x2 (ważonych). Zasadniczo każda gra ma zestaw meczów (drużyny gospodarzy vs gości): 1: wygrywa dom X: remis 2: wyjazd wygrywa Dla każdego dopasowania i symbolu ( 1, Xi 2) przypiszę procent reprezentujący szanse / prawdopodobieństwo, że ten symbol będzie prawidłowym wynikiem dopasowania. Oto …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.