Pytania otagowane jako optimization

Użyj tego tagu do dowolnego wykorzystania optymalizacji w statystykach.

1
Dlaczego nie używamy niestałych wskaźników uczenia się dla gradientu przyzwoitego dla rzeczy innych niż sieci neuronowe?
Literatura dogłębnego uczenia się jest pełna sprytnych sztuczek z wykorzystaniem niestałych wskaźników uczenia się przy opadaniu gradientowym. Rzeczy takie jak rozkład wykładniczy, RMSprop, Adagrad itp. Są łatwe do wdrożenia i są dostępne w każdym pakiecie dogłębnego uczenia się, ale wydają się nie istnieć poza sieciami neuronowymi. Czy jest jakiś powód …

1
Ograniczone maksymalne prawdopodobieństwo z mniej niż pełną pozycją kolumny
To pytanie dotyczy oszacowania ograniczonego maksymalnego prawdopodobieństwa (REML) w określonej wersji modelu liniowego, a mianowicie: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), gdzie X(α)X(α)X(\alpha) jest macierzą ( n×pn×pn \times p ) sparametryzowaną przez α∈Rkα∈Rk\alpha \in \mathbb R^k , podobnie jak Σ(α)Σ(α)\Sigma(\alpha) . ββ\beta jest nieznanym wektorem parametrów …

2
Co to jest minimalizacja zużycia energii w uczeniu maszynowym?
Czytałem o optymalizacji pod kątem źle postawionego problemu w widzeniu komputerowym i natrafiłem na poniższe wyjaśnienie dotyczące optymalizacji na Wikipedii. Nie rozumiem tylko, dlaczego nazywają tę optymalizację „ minimalizacją energii ” w Computer Vision? Problem optymalizacji można przedstawić w następujący sposób: Biorąc pod uwagę: funkcję z jakiegoś zbioru A do …

2
Dlaczego wartość k-średnich nie jest zoptymalizowana przy użyciu opadania gradientu?
Wiem, że k-średnie jest zwykle optymalizowane przy użyciu Maksymalizacji oczekiwań . Jednak moglibyśmy zoptymalizować jego funkcję utraty w ten sam sposób, w jaki zoptymalizowaliśmy każdy inny! Znalazłem kilka artykułów, które faktycznie używają stochastycznego spadku gradientu dla dużych k-średnich, ale nie mogłem uzyskać odpowiedzi na moje pytanie. Czy ktoś wie, dlaczego …

2
Optymalizacja: źródło wszelkiego zła w statystykach?
Słyszałem wcześniej następujące wyrażenie: „Optymalizacja jest źródłem wszelkiego zła w statystykach”. Na przykład najlepsza odpowiedź w tym wątku zawiera to stwierdzenie w związku z niebezpieczeństwem zbyt agresywnej optymalizacji podczas wyboru modelu. Moje pierwsze pytanie brzmi: czy ten cytat można przypisać komukolwiek w szczególności? (np. w literaturze statystycznej) Z tego, co …

1
Biblioteka ograniczonej optymalizacji dla ograniczeń równości i nierówności
Jakieś zalecenia dotyczące wyboru ograniczonej biblioteki optymalizacji odpowiedniej dla mojej funkcji optymalizacji? Minimalizuję ai) funkcję nieliniową z liniowymi ograniczeniami równości i nierówności, oraz ii) mam dostępny gradient i hessian funkcji. Jeśli to pomaga, funkcja, którą minimalizuję, to dywergencja Kullbacka-Lieblera . constrOptim zajmuje się tylko ograniczeniami nierówności. Quadprog radzi sobie z …

2
Krzyżowa walidacja i optymalizacja parametrów
Mam pytanie dotyczące optymalizacji parametrów, gdy korzystam z 10-krotnej walidacji krzyżowej. Chcę zapytać, czy parametry powinny zostać naprawione podczas treningu modelu każdego złożenia, tj. (1) wybierz jeden zestaw zoptymalizowanych parametrów dla średniej dokładności każdego złożenia. lub (2) Powinienem znaleźć zoptymalizowany parametr dla każdego zagięcia, a następnie każde zagięcie używa różnych …

5
Filozoficzne pytanie dotyczące regresji logistycznej: dlaczego nie trenuje się optymalnej wartości progowej?
Zwykle w regresji logistycznej dopasowujemy model i uzyskujemy prognozy dotyczące zestawu treningowego. Następnie weryfikujemy krzyżowo te prognozy treningowe (coś takiego jak tutaj ) i decydujemy o optymalnej wartości progowej na podstawie czegoś takiego jak krzywa ROC. Dlaczego nie uwzględnimy weryfikacji krzyżowej progu w rzeczywistym modelu i nie przeszkolimy tego od …

2
Optymalizacja i uczenie maszynowe
Chciałem wiedzieć, ile uczenia maszynowego wymaga optymalizacji. Z tego, co słyszałem, statystyki są ważnym tematem matematycznym dla osób pracujących z uczeniem maszynowym. Podobnie, jak ważne jest, aby ktoś pracujący z uczeniem maszynowym uczył się optymalizacji wypukłej lub niewypukłej?

2
KKT w pigułce graficznie
Cel Potwierdź, czy rozumienie KKT jest prawidłowe, czy nie. Szukaj dalszych wyjaśnień i potwierdzeń w KKT. tło Próbowanie zrozumienia warunków KKT, szczególnie tych uzupełniających, które zawsze pojawiają się niespodziewanie w artykułach SVM. Nie potrzebuję listy abstrakcyjnych wzorów, ale potrzebuję konkretnego, intuicyjnego i graficznego wyjaśnienia. Pytanie Jeśli P, który minimalizuje funkcję …

1
Najnowocześniejsze w dziedzinie filtrowania grupowego
Pracuję nad projektem dla wspólnego filtrowania (CF), tj. Ukończenia częściowo zaobserwowanej macierzy lub bardziej ogólnie tensora. Jestem nowicjuszem w tej dziedzinie i ostatecznie w tym projekcie muszę porównać naszą metodę z innymi dobrze znanymi, które obecnie porównywane są z nimi proponowane metody, a mianowicie najnowocześniejszy w CF. Moje wyszukiwanie ujawniło …

2
Jeśli p> n, lasso wybiera co najwyżej n zmiennych
Jedną z motywów elastycznej siatki było następujące ograniczenie LASSO: W przypadku lasso wybiera co najwyżej n zmiennych przed nasyceniem, ze względu na naturę problemu optymalizacji wypukłej. Wydaje się, że jest to cecha ograniczająca metodę wyboru zmiennych. Co więcej, lasso nie jest dobrze zdefiniowane, chyba że granica normy L1 współczynników jest …

1
Problem optymalizacji
Mój przyjaciel sprzedaje kkk modeli mikserów. Niektóre blendery są bardzo proste i tanie, inne są bardzo wyrafinowane i droższe. Jego dane obejmują, dla każdego miesiąca, ceny każdego miksera (które są przez niego ustalone) oraz liczbę sprzedanych jednostek dla każdego modelu. Aby ustanowić notację, zna przez miesiące j=1,…,nj=1,…,nj=1,\dots,n wektory (p1j,…,pkj)and(n1j,…,nkj),(p1j,…,pkj)and(n1j,…,nkj), (p_{1j},\dots,p_{kj}) …


1
Dlaczego naiwny klasyfikator Bayesa jest optymalny dla straty 0-1?
Klasyfikator Naive Bayes jest klasyfikatorem, który przypisuje przedmioty do klasy oparciu o maksymalizację tylnego dla członkostwa w klasie i zakłada, że ​​cechy przedmiotów są niezależne.C P ( C | x )xxxCCCP(C|x)P(C|x)P(C|x) Strata 0-1 to strata, która przypisuje każdej błędnej klasyfikacji stratę „1”, a stratę „0” dowolnej poprawnej klasyfikacji. Często czytam …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.