Statystyki i duże zbiory danych optimization

4

Dlaczego algorytmy optymalizacyjne są zdefiniowane w kontekście innych problemów optymalizacyjnych?

Prowadzę badania nad technikami optymalizacji w uczeniu maszynowym, ale jestem zaskoczony, że duża liczba algorytmów optymalizacji jest definiowana pod kątem innych problemów z optymalizacją. Poniżej zilustruję kilka przykładów. Na przykład https://arxiv.org/pdf/1511.05133v1.pdf Wszystko wygląda ładnie i dobrze, ale jest to w aktualizacji .... więc jaki algorytm rozwiązuje dla ? Nie wiemy …

23 machine-learning svm optimization

2

Czy techniki uczenia maszynowego są „algorytmami aproksymacyjnymi”?

Niedawno pojawiło się pytanie typu ML dotyczące wymiany stosu cstheory, a ja opublikowałem odpowiedź zalecającą metodę Powella, pochodzenie gradientu, algorytmy genetyczne lub inne „algorytmy aproksymacyjne”. W komentarzu ktoś powiedział mi, że te metody to „heurystyka”, a nie „algorytmy aproksymacyjne” i często nie zbliżały się do teoretycznego optimum (ponieważ „często utknęły …

23 machine-learning optimization approximation

4

Czy zawsze istnieje maksymalizator dla jakiegokolwiek problemu MLE?

Zastanawiam się, czy zawsze istnieje maksymalizator dla jakiegokolwiek problemu z oszacowaniem maksymalnego (log-) prawdopodobieństwa? Innymi słowy, czy istnieje jakiś rozkład i niektóre jego parametry, dla których problem MLE nie ma maksymalizatora? Moje pytanie pochodzi od twierdzenia inżyniera, że funkcja kosztu (prawdopodobieństwo lub logarytmiczne prawdopodobieństwo, nie jestem pewien, który był zamierzony) …

23 maximum-likelihood optimization

3

Spadek współrzędnych a gradient

Zastanawiałem się, jakie są różne przypadki użycia dla dwóch algorytmów: zejścia współrzędnych i zejścia gradientu . Wiem, że opadanie współrzędnych ma problemy z nie płynnymi funkcjami, ale jest używane w popularnych algorytmach, takich jak SVM i LASSO. Uważam jednak, że zejście gradientowe jest szerzej stosowane, zwłaszcza przy odradzaniu się ANN …

23 optimization gradient-descent

1

Dlaczego funkcja kosztowa sieci neuronowych nie jest wypukła?

Jest tutaj podobny wątek ( funkcja kosztu sieci neuronowej nie jest wypukła? ), Ale nie byłem w stanie zrozumieć punktów w odpowiedziach i mój powód, by zapytać ponownie, mając nadzieję, że rozwiąże to niektóre problemy: Jeśli używam sumy kwadratowej funkcji różnicy kosztów, ostatecznie optymalizuję coś w postaci gdzie jest rzeczywistą …

22 machine-learning neural-networks optimization loss-functions convex

4

Jak zapewnić właściwości macierzy kowariancji przy dopasowywaniu wielowymiarowego modelu normalnego przy maksymalnym prawdopodobieństwie?

Załóżmy, że mam następujący model yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i where yi∈RKyi∈RKy_i\in \mathbb{R}^K , xixix_i is a vector of explanatory variables, θθ\theta is the parameters of non-linear function fff and εi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma), where ΣΣ\Sigma naturally is K×KK×KK\times K matrix. The goal is the usual to estimate θθ\theta and ΣΣ\Sigma. The obvious choice is maximum …

22 maximum-likelihood optimization covariance

3

Dlaczego maksymalne prawdopodobieństwo i nie oczekiwane prawdopodobieństwo?

Dlaczego tak często uzyskuje się szacunki maksymalnego prawdopodobieństwa parametrów, ale praktycznie nigdy nie słyszy się o szacunkach oczekiwanych parametrów prawdopodobieństwa (tj. Opartych raczej na wartości oczekiwanej niż trybie funkcji wiarygodności)? Czy dzieje się tak przede wszystkim z powodów historycznych, czy też z bardziej merytorycznych przyczyn technicznych lub teoretycznych? Czy pojawienie …

22 probability mathematical-statistics maximum-likelihood optimization expected-value

2

Jak wybrać algorytmy uczenia się

Muszę wdrożyć program, który klasyfikuje rekordy na 2 kategorie (prawda / fałsz) na podstawie niektórych danych szkoleniowych i zastanawiałem się, na jaki algorytm / metodologię powinienem patrzeć. Wygląda na to, że jest ich wiele do wyboru - sztuczna sieć neuronowa, algorytm genetyczny, uczenie maszynowe, optymalizacja bayesowska itp. Itd. I nie …

21 machine-learning bayesian optimization genetic-algorithms

1

Czy jest jakieś intuicyjne wyjaśnienie, dlaczego regresja logistyczna nie zadziała w przypadku idealnej separacji? A dlaczego dodanie uregulowania to naprawi?

Prowadzimy wiele dobrych dyskusji na temat idealnej separacji w regresji logistycznej. Takich jak regresja logistyczna w R doprowadziła do idealnej separacji (zjawisko Haucka-Donnera). Co teraz? a model regresji logistycznej nie jest zbieżny . Osobiście nadal uważam, że nie jest intuicyjne, dlaczego będzie to problem i dlaczego dodanie regularyzacji to rozwiąże. …

20 logistic generalized-linear-model optimization intuition separation

7

Dlaczego macierze symetryczne z dodatnim określeniem (SPD) są tak ważne?

Znam definicję macierzy symetrycznej dodatniej określonej (SPD), ale chcę zrozumieć więcej. Dlaczego są tak ważne, intuicyjnie? Oto co wiem. Co jeszcze? Dla danych danych macierzą współwariancji jest SPD. Macierz współwariancji jest ważnym miernikiem, zobacz ten doskonały post dla intuicyjnego wyjaśnienia. Forma kwadratowa 12x⊤Ax−b⊤x+c12x⊤Ax−b⊤x+c\frac 1 2 x^\top Ax-b^\top x +cjest wypukły, …

20 mathematical-statistics optimization covariance-matrix intuition linear-algebra

2

Po co w sieciach neuronowych używać metod gradientowych zamiast innych metaheurystyk?

Dlaczego podczas treningu głębokich i płytkich sieci neuronowych powszechnie stosuje się metody gradientowe (np. Opadanie gradientu, Niestierow, Newton-Raphson), w przeciwieństwie do innych metaheurystyk? Przez metaheurystykę rozumiem metody takie jak symulowane wyżarzanie, optymalizacja kolonii mrówek itp., Które zostały opracowane w celu uniknięcia utknięcia w lokalnych minimach.

20 neural-networks optimization deep-learning gradient-descent backpropagation

2

Jakie metody optymalizacji działają najlepiej w przypadku LSTM?

Używałem theano do eksperymentowania z LSTM i zastanawiałem się, jakie metody optymalizacji (SGD, Adagrad, Adadelta, RMSprop, Adam itp.) Działają najlepiej dla LSTM? Czy są jakieś prace badawcze na ten temat? Czy odpowiedź zależy również od rodzaju aplikacji, dla której używam LSTM? Jeśli tak, używam LSTM do klasyfikacji tekstu (gdzie tekst …

20 machine-learning neural-networks optimization lstm

3

Kiedy algorytmy genetyczne są dobrym wyborem do optymalizacji?

Algorytmy genetyczne są jedną z metod optymalizacji. Często stochastyczne zejście gradientu i jego pochodne są najlepszym wyborem do optymalizacji funkcji, ale algorytmy genetyczne są nadal stosowane. Na przykład antena statku kosmicznego ST5 NASA została stworzona za pomocą algorytmu genetycznego: Kiedy metody optymalizacji genetycznej są lepszym wyborem niż bardziej popularne metody …

20 machine-learning optimization gradient-descent genetic-algorithms

2

Co oznacza superskrypt 2 indeks dolny 2 w kontekście norm?

Jestem nowy w optymalizacji. Ciągle widzę równania, które mają indeks górny 2 i indeks dolny 2 po prawej stronie normy. Na przykład tutaj jest równanie najmniejszych kwadratów min||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 Wydaje mi się, że rozumiem indeks górny 2: oznacza to wyprostowanie wartości normy. Ale czym jest indeks dolny 2? Jak mam …

20 regression optimization notation

1

Dlaczego stosowanie metody Newtona do optymalizacji regresji logistycznej nazywa się iteracyjną, ponownie ważoną metodą najmniejszych kwadratów?

Dlaczego stosowanie metody Newtona do optymalizacji regresji logistycznej nazywa się iteracyjną, ponownie ważoną metodą najmniejszych kwadratów? Nie wydaje mi się to jasne, ponieważ utrata logistyczna i utrata najmniejszych kwadratów to zupełnie inne rzeczy.

19 logistic generalized-linear-model optimization irls fisher-scoring

Pytania otagowane jako optimization