Literatura dogłębnego uczenia się jest pełna sprytnych sztuczek z wykorzystaniem niestałych wskaźników uczenia się przy opadaniu gradientowym. Rzeczy takie jak rozkład wykładniczy, RMSprop, Adagrad itp. Są łatwe do wdrożenia i są dostępne w każdym pakiecie dogłębnego uczenia się, ale wydają się nie istnieć poza sieciami neuronowymi. Czy jest jakiś powód …
To pytanie dotyczy oszacowania ograniczonego maksymalnego prawdopodobieństwa (REML) w określonej wersji modelu liniowego, a mianowicie: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), gdzie X(α)X(α)X(\alpha) jest macierzą ( n×pn×pn \times p ) sparametryzowaną przez α∈Rkα∈Rk\alpha \in \mathbb R^k , podobnie jak Σ(α)Σ(α)\Sigma(\alpha) . ββ\beta jest nieznanym wektorem parametrów …
Czytałem o optymalizacji pod kątem źle postawionego problemu w widzeniu komputerowym i natrafiłem na poniższe wyjaśnienie dotyczące optymalizacji na Wikipedii. Nie rozumiem tylko, dlaczego nazywają tę optymalizację „ minimalizacją energii ” w Computer Vision? Problem optymalizacji można przedstawić w następujący sposób: Biorąc pod uwagę: funkcję z jakiegoś zbioru A do …
Wiem, że k-średnie jest zwykle optymalizowane przy użyciu Maksymalizacji oczekiwań . Jednak moglibyśmy zoptymalizować jego funkcję utraty w ten sam sposób, w jaki zoptymalizowaliśmy każdy inny! Znalazłem kilka artykułów, które faktycznie używają stochastycznego spadku gradientu dla dużych k-średnich, ale nie mogłem uzyskać odpowiedzi na moje pytanie. Czy ktoś wie, dlaczego …
Słyszałem wcześniej następujące wyrażenie: „Optymalizacja jest źródłem wszelkiego zła w statystykach”. Na przykład najlepsza odpowiedź w tym wątku zawiera to stwierdzenie w związku z niebezpieczeństwem zbyt agresywnej optymalizacji podczas wyboru modelu. Moje pierwsze pytanie brzmi: czy ten cytat można przypisać komukolwiek w szczególności? (np. w literaturze statystycznej) Z tego, co …
Jakieś zalecenia dotyczące wyboru ograniczonej biblioteki optymalizacji odpowiedniej dla mojej funkcji optymalizacji? Minimalizuję ai) funkcję nieliniową z liniowymi ograniczeniami równości i nierówności, oraz ii) mam dostępny gradient i hessian funkcji. Jeśli to pomaga, funkcja, którą minimalizuję, to dywergencja Kullbacka-Lieblera . constrOptim zajmuje się tylko ograniczeniami nierówności. Quadprog radzi sobie z …
Mam pytanie dotyczące optymalizacji parametrów, gdy korzystam z 10-krotnej walidacji krzyżowej. Chcę zapytać, czy parametry powinny zostać naprawione podczas treningu modelu każdego złożenia, tj. (1) wybierz jeden zestaw zoptymalizowanych parametrów dla średniej dokładności każdego złożenia. lub (2) Powinienem znaleźć zoptymalizowany parametr dla każdego zagięcia, a następnie każde zagięcie używa różnych …
Zwykle w regresji logistycznej dopasowujemy model i uzyskujemy prognozy dotyczące zestawu treningowego. Następnie weryfikujemy krzyżowo te prognozy treningowe (coś takiego jak tutaj ) i decydujemy o optymalnej wartości progowej na podstawie czegoś takiego jak krzywa ROC. Dlaczego nie uwzględnimy weryfikacji krzyżowej progu w rzeczywistym modelu i nie przeszkolimy tego od …
Chciałem wiedzieć, ile uczenia maszynowego wymaga optymalizacji. Z tego, co słyszałem, statystyki są ważnym tematem matematycznym dla osób pracujących z uczeniem maszynowym. Podobnie, jak ważne jest, aby ktoś pracujący z uczeniem maszynowym uczył się optymalizacji wypukłej lub niewypukłej?
Cel Potwierdź, czy rozumienie KKT jest prawidłowe, czy nie. Szukaj dalszych wyjaśnień i potwierdzeń w KKT. tło Próbowanie zrozumienia warunków KKT, szczególnie tych uzupełniających, które zawsze pojawiają się niespodziewanie w artykułach SVM. Nie potrzebuję listy abstrakcyjnych wzorów, ale potrzebuję konkretnego, intuicyjnego i graficznego wyjaśnienia. Pytanie Jeśli P, który minimalizuje funkcję …
Pracuję nad projektem dla wspólnego filtrowania (CF), tj. Ukończenia częściowo zaobserwowanej macierzy lub bardziej ogólnie tensora. Jestem nowicjuszem w tej dziedzinie i ostatecznie w tym projekcie muszę porównać naszą metodę z innymi dobrze znanymi, które obecnie porównywane są z nimi proponowane metody, a mianowicie najnowocześniejszy w CF. Moje wyszukiwanie ujawniło …
Jedną z motywów elastycznej siatki było następujące ograniczenie LASSO: W przypadku lasso wybiera co najwyżej n zmiennych przed nasyceniem, ze względu na naturę problemu optymalizacji wypukłej. Wydaje się, że jest to cecha ograniczająca metodę wyboru zmiennych. Co więcej, lasso nie jest dobrze zdefiniowane, chyba że granica normy L1 współczynników jest …
Mój przyjaciel sprzedaje kkk modeli mikserów. Niektóre blendery są bardzo proste i tanie, inne są bardzo wyrafinowane i droższe. Jego dane obejmują, dla każdego miesiąca, ceny każdego miksera (które są przez niego ustalone) oraz liczbę sprzedanych jednostek dla każdego modelu. Aby ustanowić notację, zna przez miesiące j=1,…,nj=1,…,nj=1,\dots,n wektory (p1j,…,pkj)and(n1j,…,nkj),(p1j,…,pkj)and(n1j,…,nkj), (p_{1j},\dots,p_{kj}) …
Czy istnieją jakieś szybkie alternatywy dla algorytmu EM do uczenia się modeli z ukrytymi zmiennymi (zwłaszcza pLSA)? Nie przeszkadza mi poświęcanie precyzji na rzecz prędkości.
Klasyfikator Naive Bayes jest klasyfikatorem, który przypisuje przedmioty do klasy oparciu o maksymalizację tylnego dla członkostwa w klasie i zakłada, że cechy przedmiotów są niezależne.C P ( C | x )xxxCCCP(C|x)P(C|x)P(C|x) Strata 0-1 to strata, która przypisuje każdej błędnej klasyfikacji stratę „1”, a stratę „0” dowolnej poprawnej klasyfikacji. Często czytam …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.