Statystyki i duże zbiory danych optimization

1

Dlaczego nie używamy niestałych wskaźników uczenia się dla gradientu przyzwoitego dla rzeczy innych niż sieci neuronowe?

Literatura dogłębnego uczenia się jest pełna sprytnych sztuczek z wykorzystaniem niestałych wskaźników uczenia się przy opadaniu gradientowym. Rzeczy takie jak rozkład wykładniczy, RMSprop, Adagrad itp. Są łatwe do wdrożenia i są dostępne w każdym pakiecie dogłębnego uczenia się, ale wydają się nie istnieć poza sieciami neuronowymi. Czy jest jakiś powód …

14 machine-learning deep-learning optimization gradient-descent

1

Ograniczone maksymalne prawdopodobieństwo z mniej niż pełną pozycją kolumny

To pytanie dotyczy oszacowania ograniczonego maksymalnego prawdopodobieństwa (REML) w określonej wersji modelu liniowego, a mianowicie: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), gdzie X(α)X(α)X(\alpha) jest macierzą ( n×pn×pn \times p ) sparametryzowaną przez α∈Rkα∈Rk\alpha \in \mathbb R^k , podobnie jak Σ(α)Σ(α)\Sigma(\alpha) . ββ\beta jest nieznanym wektorem parametrów …

14 mixed-model maximum-likelihood linear-model optimization reml

2

Co to jest minimalizacja zużycia energii w uczeniu maszynowym?

Czytałem o optymalizacji pod kątem źle postawionego problemu w widzeniu komputerowym i natrafiłem na poniższe wyjaśnienie dotyczące optymalizacji na Wikipedii. Nie rozumiem tylko, dlaczego nazywają tę optymalizację „ minimalizacją energii ” w Computer Vision? Problem optymalizacji można przedstawić w następujący sposób: Biorąc pod uwagę: funkcję z jakiegoś zbioru A do …

14 machine-learning optimization computer-vision

2

Dlaczego wartość k-średnich nie jest zoptymalizowana przy użyciu opadania gradientu?

Wiem, że k-średnie jest zwykle optymalizowane przy użyciu Maksymalizacji oczekiwań . Jednak moglibyśmy zoptymalizować jego funkcję utraty w ten sam sposób, w jaki zoptymalizowaliśmy każdy inny! Znalazłem kilka artykułów, które faktycznie używają stochastycznego spadku gradientu dla dużych k-średnich, ale nie mogłem uzyskać odpowiedzi na moje pytanie. Czy ktoś wie, dlaczego …

14 optimization k-means expectation-maximization loss-functions

2

Optymalizacja: źródło wszelkiego zła w statystykach?

Słyszałem wcześniej następujące wyrażenie: „Optymalizacja jest źródłem wszelkiego zła w statystykach”. Na przykład najlepsza odpowiedź w tym wątku zawiera to stwierdzenie w związku z niebezpieczeństwem zbyt agresywnej optymalizacji podczas wyboru modelu. Moje pierwsze pytanie brzmi: czy ten cytat można przypisać komukolwiek w szczególności? (np. w literaturze statystycznej) Z tego, co …

14 cross-validation optimization overfitting

1

Biblioteka ograniczonej optymalizacji dla ograniczeń równości i nierówności

Jakieś zalecenia dotyczące wyboru ograniczonej biblioteki optymalizacji odpowiedniej dla mojej funkcji optymalizacji? Minimalizuję ai) funkcję nieliniową z liniowymi ograniczeniami równości i nierówności, oraz ii) mam dostępny gradient i hessian funkcji. Jeśli to pomaga, funkcja, którą minimalizuję, to dywergencja Kullbacka-Lieblera . constrOptim zajmuje się tylko ograniczeniami nierówności. Quadprog radzi sobie z …

14 r optimization software

2

Krzyżowa walidacja i optymalizacja parametrów

Mam pytanie dotyczące optymalizacji parametrów, gdy korzystam z 10-krotnej walidacji krzyżowej. Chcę zapytać, czy parametry powinny zostać naprawione podczas treningu modelu każdego złożenia, tj. (1) wybierz jeden zestaw zoptymalizowanych parametrów dla średniej dokładności każdego złożenia. lub (2) Powinienem znaleźć zoptymalizowany parametr dla każdego zagięcia, a następnie każde zagięcie używa różnych …

14 cross-validation optimization parameterization

5

Filozoficzne pytanie dotyczące regresji logistycznej: dlaczego nie trenuje się optymalnej wartości progowej?

Zwykle w regresji logistycznej dopasowujemy model i uzyskujemy prognozy dotyczące zestawu treningowego. Następnie weryfikujemy krzyżowo te prognozy treningowe (coś takiego jak tutaj ) i decydujemy o optymalnej wartości progowej na podstawie czegoś takiego jak krzywa ROC. Dlaczego nie uwzględnimy weryfikacji krzyżowej progu w rzeczywistym modelu i nie przeszkolimy tego od …

13 logistic cross-validation optimization roc threshold

2

Optymalizacja i uczenie maszynowe

Chciałem wiedzieć, ile uczenia maszynowego wymaga optymalizacji. Z tego, co słyszałem, statystyki są ważnym tematem matematycznym dla osób pracujących z uczeniem maszynowym. Podobnie, jak ważne jest, aby ktoś pracujący z uczeniem maszynowym uczył się optymalizacji wypukłej lub niewypukłej?

13 machine-learning optimization

2

KKT w pigułce graficznie

Cel Potwierdź, czy rozumienie KKT jest prawidłowe, czy nie. Szukaj dalszych wyjaśnień i potwierdzeń w KKT. tło Próbowanie zrozumienia warunków KKT, szczególnie tych uzupełniających, które zawsze pojawiają się niespodziewanie w artykułach SVM. Nie potrzebuję listy abstrakcyjnych wzorów, ale potrzebuję konkretnego, intuicyjnego i graficznego wyjaśnienia. Pytanie Jeśli P, który minimalizuje funkcję …

13 svm optimization lagrange-multipliers

1

Najnowocześniejsze w dziedzinie filtrowania grupowego

Pracuję nad projektem dla wspólnego filtrowania (CF), tj. Ukończenia częściowo zaobserwowanej macierzy lub bardziej ogólnie tensora. Jestem nowicjuszem w tej dziedzinie i ostatecznie w tym projekcie muszę porównać naszą metodę z innymi dobrze znanymi, które obecnie porównywane są z nimi proponowane metody, a mianowicie najnowocześniejszy w CF. Moje wyszukiwanie ujawniło …

13 optimization recommender-system matrix-decomposition

2

Jeśli p> n, lasso wybiera co najwyżej n zmiennych

Jedną z motywów elastycznej siatki było następujące ograniczenie LASSO: W przypadku lasso wybiera co najwyżej n zmiennych przed nasyceniem, ze względu na naturę problemu optymalizacji wypukłej. Wydaje się, że jest to cecha ograniczająca metodę wyboru zmiennych. Co więcej, lasso nie jest dobrze zdefiniowane, chyba że granica normy L1 współczynników jest …

13 regression optimization feature-selection lasso

1

Problem optymalizacji

Mój przyjaciel sprzedaje kkk modeli mikserów. Niektóre blendery są bardzo proste i tanie, inne są bardzo wyrafinowane i droższe. Jego dane obejmują, dla każdego miesiąca, ceny każdego miksera (które są przez niego ustalone) oraz liczbę sprzedanych jednostek dla każdego modelu. Aby ustanowić notację, zna przez miesiące j=1,…,nj=1,…,nj=1,\dots,n wektory (p1j,…,pkj)and(n1j,…,nkj),(p1j,…,pkj)and(n1j,…,nkj), (p_{1j},\dots,p_{kj}) …

13 optimization

4

Szybkie alternatywy dla algorytmu EM

Czy istnieją jakieś szybkie alternatywy dla algorytmu EM do uczenia się modeli z ukrytymi zmiennymi (zwłaszcza pLSA)? Nie przeszkadza mi poświęcanie precyzji na rzecz prędkości.

13 machine-learning optimization expectation-maximization lsa

1

Dlaczego naiwny klasyfikator Bayesa jest optymalny dla straty 0-1?

Klasyfikator Naive Bayes jest klasyfikatorem, który przypisuje przedmioty do klasy oparciu o maksymalizację tylnego dla członkostwa w klasie i zakłada, że cechy przedmiotów są niezależne.C P ( C | x )xxxCCCP(C|x)P(C|x)P(C|x) Strata 0-1 to strata, która przypisuje każdej błędnej klasyfikacji stratę „1”, a stratę „0” dowolnej poprawnej klasyfikacji. Często czytam …

13 machine-learning bayesian optimization naive-bayes loss-functions

Pytania otagowane jako optimization