Prowadzę badania nad technikami optymalizacji w uczeniu maszynowym, ale jestem zaskoczony, że duża liczba algorytmów optymalizacji jest definiowana pod kątem innych problemów z optymalizacją. Poniżej zilustruję kilka przykładów. Na przykład https://arxiv.org/pdf/1511.05133v1.pdf Wszystko wygląda ładnie i dobrze, ale jest to w aktualizacji .... więc jaki algorytm rozwiązuje dla ? Nie wiemy …
Niedawno pojawiło się pytanie typu ML dotyczące wymiany stosu cstheory, a ja opublikowałem odpowiedź zalecającą metodę Powella, pochodzenie gradientu, algorytmy genetyczne lub inne „algorytmy aproksymacyjne”. W komentarzu ktoś powiedział mi, że te metody to „heurystyka”, a nie „algorytmy aproksymacyjne” i często nie zbliżały się do teoretycznego optimum (ponieważ „często utknęły …
Zastanawiam się, czy zawsze istnieje maksymalizator dla jakiegokolwiek problemu z oszacowaniem maksymalnego (log-) prawdopodobieństwa? Innymi słowy, czy istnieje jakiś rozkład i niektóre jego parametry, dla których problem MLE nie ma maksymalizatora? Moje pytanie pochodzi od twierdzenia inżyniera, że funkcja kosztu (prawdopodobieństwo lub logarytmiczne prawdopodobieństwo, nie jestem pewien, który był zamierzony) …
Zastanawiałem się, jakie są różne przypadki użycia dla dwóch algorytmów: zejścia współrzędnych i zejścia gradientu . Wiem, że opadanie współrzędnych ma problemy z nie płynnymi funkcjami, ale jest używane w popularnych algorytmach, takich jak SVM i LASSO. Uważam jednak, że zejście gradientowe jest szerzej stosowane, zwłaszcza przy odradzaniu się ANN …
Jest tutaj podobny wątek ( funkcja kosztu sieci neuronowej nie jest wypukła? ), Ale nie byłem w stanie zrozumieć punktów w odpowiedziach i mój powód, by zapytać ponownie, mając nadzieję, że rozwiąże to niektóre problemy: Jeśli używam sumy kwadratowej funkcji różnicy kosztów, ostatecznie optymalizuję coś w postaci gdzie jest rzeczywistą …
Załóżmy, że mam następujący model yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i where yi∈RKyi∈RKy_i\in \mathbb{R}^K , xixix_i is a vector of explanatory variables, θθ\theta is the parameters of non-linear function fff and εi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma), where ΣΣ\Sigma naturally is K×KK×KK\times K matrix. The goal is the usual to estimate θθ\theta and ΣΣ\Sigma. The obvious choice is maximum …
Dlaczego tak często uzyskuje się szacunki maksymalnego prawdopodobieństwa parametrów, ale praktycznie nigdy nie słyszy się o szacunkach oczekiwanych parametrów prawdopodobieństwa (tj. Opartych raczej na wartości oczekiwanej niż trybie funkcji wiarygodności)? Czy dzieje się tak przede wszystkim z powodów historycznych, czy też z bardziej merytorycznych przyczyn technicznych lub teoretycznych? Czy pojawienie …
Muszę wdrożyć program, który klasyfikuje rekordy na 2 kategorie (prawda / fałsz) na podstawie niektórych danych szkoleniowych i zastanawiałem się, na jaki algorytm / metodologię powinienem patrzeć. Wygląda na to, że jest ich wiele do wyboru - sztuczna sieć neuronowa, algorytm genetyczny, uczenie maszynowe, optymalizacja bayesowska itp. Itd. I nie …
Prowadzimy wiele dobrych dyskusji na temat idealnej separacji w regresji logistycznej. Takich jak regresja logistyczna w R doprowadziła do idealnej separacji (zjawisko Haucka-Donnera). Co teraz? a model regresji logistycznej nie jest zbieżny . Osobiście nadal uważam, że nie jest intuicyjne, dlaczego będzie to problem i dlaczego dodanie regularyzacji to rozwiąże. …
Znam definicję macierzy symetrycznej dodatniej określonej (SPD), ale chcę zrozumieć więcej. Dlaczego są tak ważne, intuicyjnie? Oto co wiem. Co jeszcze? Dla danych danych macierzą współwariancji jest SPD. Macierz współwariancji jest ważnym miernikiem, zobacz ten doskonały post dla intuicyjnego wyjaśnienia. Forma kwadratowa 12x⊤Ax−b⊤x+c12x⊤Ax−b⊤x+c\frac 1 2 x^\top Ax-b^\top x +cjest wypukły, …
Dlaczego podczas treningu głębokich i płytkich sieci neuronowych powszechnie stosuje się metody gradientowe (np. Opadanie gradientu, Niestierow, Newton-Raphson), w przeciwieństwie do innych metaheurystyk? Przez metaheurystykę rozumiem metody takie jak symulowane wyżarzanie, optymalizacja kolonii mrówek itp., Które zostały opracowane w celu uniknięcia utknięcia w lokalnych minimach.
Używałem theano do eksperymentowania z LSTM i zastanawiałem się, jakie metody optymalizacji (SGD, Adagrad, Adadelta, RMSprop, Adam itp.) Działają najlepiej dla LSTM? Czy są jakieś prace badawcze na ten temat? Czy odpowiedź zależy również od rodzaju aplikacji, dla której używam LSTM? Jeśli tak, używam LSTM do klasyfikacji tekstu (gdzie tekst …
Algorytmy genetyczne są jedną z metod optymalizacji. Często stochastyczne zejście gradientu i jego pochodne są najlepszym wyborem do optymalizacji funkcji, ale algorytmy genetyczne są nadal stosowane. Na przykład antena statku kosmicznego ST5 NASA została stworzona za pomocą algorytmu genetycznego: Kiedy metody optymalizacji genetycznej są lepszym wyborem niż bardziej popularne metody …
Jestem nowy w optymalizacji. Ciągle widzę równania, które mają indeks górny 2 i indeks dolny 2 po prawej stronie normy. Na przykład tutaj jest równanie najmniejszych kwadratów min||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 Wydaje mi się, że rozumiem indeks górny 2: oznacza to wyprostowanie wartości normy. Ale czym jest indeks dolny 2? Jak mam …
Dlaczego stosowanie metody Newtona do optymalizacji regresji logistycznej nazywa się iteracyjną, ponownie ważoną metodą najmniejszych kwadratów? Nie wydaje mi się to jasne, ponieważ utrata logistyczna i utrata najmniejszych kwadratów to zupełnie inne rzeczy.
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.