Pytania otagowane jako loss-functions

Funkcja używana do kwantyfikacji różnicy między zaobserwowanymi danymi a przewidywanymi wartościami zgodnie z modelem. Minimalizacja funkcji strat jest sposobem na oszacowanie parametrów modelu.

2
Dlaczego istnieją dwa różne formuły / notacje dotyczące utraty logistyki?
Widziałem dwa rodzaje formuł logistycznych strat. Możemy łatwo pokazać, że są identyczne, jedyną różnicą jest definicja etykiety yyy . Formułowanie / notacja 1, y∈{0,+1}y∈{0,+1}y \in \{0, +1\} : L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) gdzie , gdzie funkcja logistyczna odwzorowuje liczbę rzeczywistą na interwał 0,1.p=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)}βTxβTx\beta^T x Formulacja / notacja 2, :y∈{−1,+1}y∈{−1,+1}y \in …

2
Jaka jest funkcja utraty twardej marży SVM?
max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b))12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) ∥w∥2‖w‖2\|w\|^2max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) Jednak w przypadku SVM z twardym marginesem cała funkcja celu to po prostu 12∥w∥212‖w‖2 \frac{1}{2}\|w\|^2 Czy to oznacza, że ​​SVM z twardym marginesem minimalizuje tylko regularyzator bez funkcji straty? Brzmi bardzo dziwnie. Cóż, jeśli 12∥w∥212‖w‖2)\frac{1}{2}\|w\|^2 jest funkcją straty w tym przypadku, czy możemy ją …

1
Dlaczego funkcja kosztowa sieci neuronowych nie jest wypukła?
Jest tutaj podobny wątek ( funkcja kosztu sieci neuronowej nie jest wypukła? ), Ale nie byłem w stanie zrozumieć punktów w odpowiedziach i mój powód, by zapytać ponownie, mając nadzieję, że rozwiąże to niektóre problemy: Jeśli używam sumy kwadratowej funkcji różnicy kosztów, ostatecznie optymalizuję coś w postaci gdzie jest rzeczywistą …

5
Jak kontrolować koszty błędnej klasyfikacji w losowych lasach?
Czy można kontrolować koszt błędnej klasyfikacji w pakiecie R randomForest ? W mojej własnej pracy fałszywe negatywy (np. Brak pomyłki, że dana osoba może mieć chorobę) są znacznie bardziej kosztowne niż fałszywie pozytywne. Pakiet rpart pozwala użytkownikowi kontrolować koszty błędnej klasyfikacji, określając macierz strat do różnej wagi błędnych klasyfikacji. Czy …


6
Jaka jest „podstawowa” koncepcja uczenia maszynowego do szacowania parametrów?
„Podstawową” ideą statystyki do szacowania parametrów jest maksymalne prawdopodobieństwo . Zastanawiam się, jaki jest odpowiedni pomysł w uczeniu maszynowym. Qn 1. Czy uczciwie byłoby powiedzieć, że „podstawową” ideą uczenia maszynowego do szacowania parametrów jest: „Funkcje utraty” [Uwaga: mam wrażenie, że algorytmy uczenia maszynowego często optymalizują funkcję strat i stąd powyższe …

3
0-1 Objaśnienie funkcji utraty
Próbuję zrozumieć, jaki jest cel funkcji utraty i nie do końca rozumiem. Tak więc, o ile rozumiem, funkcja straty służy wprowadzeniu pewnego rodzaju miernika, za pomocą którego możemy zmierzyć „koszt” niewłaściwej decyzji. Powiedzmy, że mam zestaw danych z 30 obiektami, podzieliłem je na zestawy szkoleniowe / testowe, takie jak 20/10. …

1
Wybór między funkcjami strat dla klasyfikacji binarnej
Pracuję w dziedzinie problemów, w której ludzie często zgłaszają ROC-AUC lub AveP (średnia precyzja). Jednak ostatnio znalazłem artykuły, które zamiast tego optymalizują straty logów , podczas gdy jeszcze inni zgłaszają utratę zawiasów . Rozumiem, w jaki sposób obliczane są te wskaźniki, ale trudno mi zrozumieć kompromisy między nimi i co …

4
W jakich warunkach estymatory punktowe Bayesa i częstokroć się pokrywają?
W przypadku płaskiego przejęcia estymatory ML (częste - maksymalne prawdopodobieństwo) i MAP (bayesowskie - maksymalne a posteriori) pokrywają się. Mówiąc bardziej ogólnie, mówię o estymatorach punktowych wyprowadzonych jako optymalizatory niektórych funkcji strat. To znaczy (Bayesa) x (x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat x(y)) …

2
Czy powszechną praktyką jest minimalizowanie średniej straty w partiach zamiast sumy?
Tensorflow ma przykładowy samouczek na temat klasyfikowania CIFAR-10 . W samouczku średnia utrata entropii krzyżowej w partii jest zminimalizowana. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor of …

2
Co się tutaj dzieje, kiedy używam kwadratowej straty w ustawieniach regresji logistycznej?
Próbuję użyć straty kwadratowej, aby dokonać klasyfikacji binarnej na zestawie danych zabawki. Korzystam z mtcarszestawu danych, wykorzystuję milę na galon i wagę, aby przewidzieć rodzaj transmisji. Poniższy wykres pokazuje dwa typy danych typu transmisji w różnych kolorach oraz granicę decyzji wygenerowaną przez inną funkcję strat. Kwadratowa strata wynosi ∑i(yi−pi)2∑ja(yja-pja)2)\sum_i (y_i-p_i)^2 …

4
Co uważa się za dobrą utratę logów?
Próbuję lepiej zrozumieć utratę logów i sposób, w jaki to działa, ale jedną rzeczą, której nie mogę znaleźć, jest umieszczenie numeru utraty logów w jakimś kontekście. Jeśli mój model ma utratę dziennika 0,5, czy to dobrze? Co uważa się za dobry i zły wynik? Jak zmieniają się te progi?

4
Kompleksowy przegląd funkcji strat?
Próbuję uzyskać globalną perspektywę na niektóre z podstawowych pomysłów w uczeniu maszynowym i zastanawiałem się, czy istnieje kompleksowe podejście do różnych pojęć utraty (kwadrat, log, zawias, proxy itp.). Zastanawiałem się nad bardziej kompleksową, formalną prezentacją doskonałego postu Johna Langforda na temat Lant Function Semantics .



Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.