Pytania otagowane jako loss-functions

Funkcja używana do kwantyfikacji różnicy między zaobserwowanymi danymi a przewidywanymi wartościami zgodnie z modelem. Minimalizacja funkcji strat jest sposobem na oszacowanie parametrów modelu.

2
Dlaczego wartość k-średnich nie jest zoptymalizowana przy użyciu opadania gradientu?
Wiem, że k-średnie jest zwykle optymalizowane przy użyciu Maksymalizacji oczekiwań . Jednak moglibyśmy zoptymalizować jego funkcję utraty w ten sam sposób, w jaki zoptymalizowaliśmy każdy inny! Znalazłem kilka artykułów, które faktycznie używają stochastycznego spadku gradientu dla dużych k-średnich, ale nie mogłem uzyskać odpowiedzi na moje pytanie. Czy ktoś wie, dlaczego …

2
Klasyfikacja z głośnymi etykietami?
Próbuję wytrenować sieć neuronową do klasyfikacji, ale etykiety, które mam, są raczej hałaśliwe (około 30% etykiet jest błędnych). Strata między entropią rzeczywiście działa, ale zastanawiałem się, czy są jakieś alternatywy bardziej skuteczne w tym przypadku? czy utrata przez entropię jest optymalna? Nie jestem pewien, ale myślę o pewnym „przycięciu” utraty …

1
Rozkład wariancji odchylenia
W sekcji 3.2 Rozpoznawania wzorców i uczenia maszynowego Bishopa omawia dekompozycję wariancji odchylenia, stwierdzając, że dla funkcji straty kwadratowej oczekiwana strata może zostać rozłożona na wartość kwadratową błędu (która opisuje, jak daleko średnie prognozy są od prawdziwej model), termin wariancji (który opisuje rozkład prognoz wokół średniej) i termin szumu (który …

1
Dlaczego naiwny klasyfikator Bayesa jest optymalny dla straty 0-1?
Klasyfikator Naive Bayes jest klasyfikatorem, który przypisuje przedmioty do klasy oparciu o maksymalizację tylnego dla członkostwa w klasie i zakłada, że ​​cechy przedmiotów są niezależne.C P ( C | x )xxxCCCP(C|x)P(C|x)P(C|x) Strata 0-1 to strata, która przypisuje każdej błędnej klasyfikacji stratę „1”, a stratę „0” dowolnej poprawnej klasyfikacji. Często czytam …

2
Dlaczego funkcja utraty 0-1 jest trudna do rozwiązania?
W książce Ian Goodfellow's Deep Learning napisano o tym Czasami funkcja utraty, o którą tak naprawdę dbamy (powiedzmy, błąd klasyfikacji), nie jest funkcją, którą można skutecznie zoptymalizować. Na przykład dokładne minimalizowanie oczekiwanej straty 0-1 jest zazwyczaj trudne (wykładnicze w wymiarze wejściowym), nawet w przypadku klasyfikatora liniowego. W takich sytuacjach zwykle …

2
Różne definicje funkcji utraty entropii krzyżowej
Zacząłem uczyć się o sieciach neuronowych w samouczku dotyczącym sieci neuronowych i programowania. W szczególności w trzecim rozdziale znajduje się sekcja o funkcji entropii krzyżowej i definiuje utratę entropii krzyżowej jako: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j)) Jednak, czytając wprowadzenie Tensorflow , …



1
Przybliżenie drugiego rzędu funkcji utraty (książka do głębokiego uczenia się, 7.33)
W książce Goodfellow (2016) na temat głębokiego uczenia się mówił o równoważności wczesnego zaprzestania regularyzacji L2 ( https://www.deeplearningbook.org/contents/regularization.html strona 247). Kwadratowe przybliżenie funkcji kosztu jjj daje: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

3
Jakiej funkcji utraty należy użyć, aby uzyskać binarny klasyfikator o wysokiej precyzji lub o wysokim przywołaniu?
Próbuję stworzyć detektor obiektów, które występują bardzo rzadko (na zdjęciach), planując użyć binarnego klasyfikatora CNN stosowanego w przesuwanym / zmienianym oknie. Skonstruowałem zbalansowane zestawy treningów i testów dodatnich i ujemnych 1: 1 (czy w takim przypadku dobrze jest to zrobić btw?), A klasyfikator ma się dobrze na zestawie testowym pod …

1
Scikit Binomial Deviance Loss Function
Jest to funkcja utraty dwumianowej dewiacji przez GradientBoosting, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() …

2
Funkcje Percentile Loss
Rozwiązanie problemu: minmE[|m−X|]minmE[|m−X|] \min_{m} \; E[|m-X|] jest dobrze znana jako mediana XXX , ale jak wygląda funkcja utraty dla innych percentyli? Np .: 25. percentyl X jest rozwiązaniem: minmE[L(m,X)]minmE[L(m,X)] \min_{m} \; E[ L(m,X) ] Co to jest LLL w tym przypadku?

3
MAP jest rozwiązaniem dla
Natknąłem się na te slajdy (slajd 16 i 17) na jednym z kursów online. Instruktor próbował wyjaśnić, w jaki sposób Maximum Posterior Estimate (MAP) jest faktycznie rozwiązaniem , gdzie \ theta ^ {*} to prawdziwy parametr.L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]θ∗θ∗\theta^{*} Czy ktoś może wyjaśnić, jak to wygląda? Edycja: Dodano slajdy …


1
W jaki sposób estymator, który minimalizuje ważoną sumę kwadratowego odchylenia i wariancji, pasuje do teorii decyzji?
OK - moja oryginalna wiadomość nie wywołała odpowiedzi; pozwólcie, że postawię pytanie inaczej. Zacznę od wyjaśnienia mojego rozumienia estymacji z teoretycznego punktu widzenia decyzji. Nie mam formalnego szkolenia i nie zaskoczyłoby mnie, gdyby moje myślenie było w jakiś sposób błędne. Załóżmy, że mamy jakąś funkcję straty L ( θ ,θ^( …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.