Pytania otagowane jako optimization

Użyj tego tagu do dowolnego wykorzystania optymalizacji w statystykach.

4
Dlaczego algorytmy optymalizacyjne są zdefiniowane w kontekście innych problemów optymalizacyjnych?
Prowadzę badania nad technikami optymalizacji w uczeniu maszynowym, ale jestem zaskoczony, że duża liczba algorytmów optymalizacji jest definiowana pod kątem innych problemów z optymalizacją. Poniżej zilustruję kilka przykładów. Na przykład https://arxiv.org/pdf/1511.05133v1.pdf Wszystko wygląda ładnie i dobrze, ale jest to w aktualizacji .... więc jaki algorytm rozwiązuje dla ? Nie wiemy …

2
Czy techniki uczenia maszynowego są „algorytmami aproksymacyjnymi”?
Niedawno pojawiło się pytanie typu ML dotyczące wymiany stosu cstheory, a ja opublikowałem odpowiedź zalecającą metodę Powella, pochodzenie gradientu, algorytmy genetyczne lub inne „algorytmy aproksymacyjne”. W komentarzu ktoś powiedział mi, że te metody to „heurystyka”, a nie „algorytmy aproksymacyjne” i często nie zbliżały się do teoretycznego optimum (ponieważ „często utknęły …

4
Czy zawsze istnieje maksymalizator dla jakiegokolwiek problemu MLE?
Zastanawiam się, czy zawsze istnieje maksymalizator dla jakiegokolwiek problemu z oszacowaniem maksymalnego (log-) prawdopodobieństwa? Innymi słowy, czy istnieje jakiś rozkład i niektóre jego parametry, dla których problem MLE nie ma maksymalizatora? Moje pytanie pochodzi od twierdzenia inżyniera, że ​​funkcja kosztu (prawdopodobieństwo lub logarytmiczne prawdopodobieństwo, nie jestem pewien, który był zamierzony) …

3
Spadek współrzędnych a gradient
Zastanawiałem się, jakie są różne przypadki użycia dla dwóch algorytmów: zejścia współrzędnych i zejścia gradientu . Wiem, że opadanie współrzędnych ma problemy z nie płynnymi funkcjami, ale jest używane w popularnych algorytmach, takich jak SVM i LASSO. Uważam jednak, że zejście gradientowe jest szerzej stosowane, zwłaszcza przy odradzaniu się ANN …

1
Dlaczego funkcja kosztowa sieci neuronowych nie jest wypukła?
Jest tutaj podobny wątek ( funkcja kosztu sieci neuronowej nie jest wypukła? ), Ale nie byłem w stanie zrozumieć punktów w odpowiedziach i mój powód, by zapytać ponownie, mając nadzieję, że rozwiąże to niektóre problemy: Jeśli używam sumy kwadratowej funkcji różnicy kosztów, ostatecznie optymalizuję coś w postaci gdzie jest rzeczywistą …

4
Jak zapewnić właściwości macierzy kowariancji przy dopasowywaniu wielowymiarowego modelu normalnego przy maksymalnym prawdopodobieństwie?
Załóżmy, że mam następujący model yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i where yi∈RKyi∈RKy_i\in \mathbb{R}^K , xixix_i is a vector of explanatory variables, θθ\theta is the parameters of non-linear function fff and εi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma), where ΣΣ\Sigma naturally is K×KK×KK\times K matrix. The goal is the usual to estimate θθ\theta and ΣΣ\Sigma. The obvious choice is maximum …

3
Dlaczego maksymalne prawdopodobieństwo i nie oczekiwane prawdopodobieństwo?
Dlaczego tak często uzyskuje się szacunki maksymalnego prawdopodobieństwa parametrów, ale praktycznie nigdy nie słyszy się o szacunkach oczekiwanych parametrów prawdopodobieństwa (tj. Opartych raczej na wartości oczekiwanej niż trybie funkcji wiarygodności)? Czy dzieje się tak przede wszystkim z powodów historycznych, czy też z bardziej merytorycznych przyczyn technicznych lub teoretycznych? Czy pojawienie …

2
Jak wybrać algorytmy uczenia się
Muszę wdrożyć program, który klasyfikuje rekordy na 2 kategorie (prawda / fałsz) na podstawie niektórych danych szkoleniowych i zastanawiałem się, na jaki algorytm / metodologię powinienem patrzeć. Wygląda na to, że jest ich wiele do wyboru - sztuczna sieć neuronowa, algorytm genetyczny, uczenie maszynowe, optymalizacja bayesowska itp. Itd. I nie …

1
Czy jest jakieś intuicyjne wyjaśnienie, dlaczego regresja logistyczna nie zadziała w przypadku idealnej separacji? A dlaczego dodanie uregulowania to naprawi?
Prowadzimy wiele dobrych dyskusji na temat idealnej separacji w regresji logistycznej. Takich jak regresja logistyczna w R doprowadziła do idealnej separacji (zjawisko Haucka-Donnera). Co teraz? a model regresji logistycznej nie jest zbieżny . Osobiście nadal uważam, że nie jest intuicyjne, dlaczego będzie to problem i dlaczego dodanie regularyzacji to rozwiąże. …

7
Dlaczego macierze symetryczne z dodatnim określeniem (SPD) są tak ważne?
Znam definicję macierzy symetrycznej dodatniej określonej (SPD), ale chcę zrozumieć więcej. Dlaczego są tak ważne, intuicyjnie? Oto co wiem. Co jeszcze? Dla danych danych macierzą współwariancji jest SPD. Macierz współwariancji jest ważnym miernikiem, zobacz ten doskonały post dla intuicyjnego wyjaśnienia. Forma kwadratowa 12x⊤Ax−b⊤x+c12x⊤Ax−b⊤x+c\frac 1 2 x^\top Ax-b^\top x +cjest wypukły, …

2
Po co w sieciach neuronowych używać metod gradientowych zamiast innych metaheurystyk?
Dlaczego podczas treningu głębokich i płytkich sieci neuronowych powszechnie stosuje się metody gradientowe (np. Opadanie gradientu, Niestierow, Newton-Raphson), w przeciwieństwie do innych metaheurystyk? Przez metaheurystykę rozumiem metody takie jak symulowane wyżarzanie, optymalizacja kolonii mrówek itp., Które zostały opracowane w celu uniknięcia utknięcia w lokalnych minimach.


3
Kiedy algorytmy genetyczne są dobrym wyborem do optymalizacji?
Algorytmy genetyczne są jedną z metod optymalizacji. Często stochastyczne zejście gradientu i jego pochodne są najlepszym wyborem do optymalizacji funkcji, ale algorytmy genetyczne są nadal stosowane. Na przykład antena statku kosmicznego ST5 NASA została stworzona za pomocą algorytmu genetycznego: Kiedy metody optymalizacji genetycznej są lepszym wyborem niż bardziej popularne metody …

2
Co oznacza superskrypt 2 indeks dolny 2 w kontekście norm?
Jestem nowy w optymalizacji. Ciągle widzę równania, które mają indeks górny 2 i indeks dolny 2 po prawej stronie normy. Na przykład tutaj jest równanie najmniejszych kwadratów min||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 Wydaje mi się, że rozumiem indeks górny 2: oznacza to wyprostowanie wartości normy. Ale czym jest indeks dolny 2? Jak mam …

1
Dlaczego stosowanie metody Newtona do optymalizacji regresji logistycznej nazywa się iteracyjną, ponownie ważoną metodą najmniejszych kwadratów?
Dlaczego stosowanie metody Newtona do optymalizacji regresji logistycznej nazywa się iteracyjną, ponownie ważoną metodą najmniejszych kwadratów? Nie wydaje mi się to jasne, ponieważ utrata logistyczna i utrata najmniejszych kwadratów to zupełnie inne rzeczy.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.