Funkcja używana do kwantyfikacji różnicy między zaobserwowanymi danymi a przewidywanymi wartościami zgodnie z modelem. Minimalizacja funkcji strat jest sposobem na oszacowanie parametrów modelu.
Widziałem dwa rodzaje formuł logistycznych strat. Możemy łatwo pokazać, że są identyczne, jedyną różnicą jest definicja etykiety yyy . Formułowanie / notacja 1, y∈{0,+1}y∈{0,+1}y \in \{0, +1\} : L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog(p)−(1−y)log(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) gdzie , gdzie funkcja logistyczna odwzorowuje liczbę rzeczywistą na interwał 0,1.p=11+exp(−βTx)p=11+exp(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)}βTxβTx\beta^T x Formulacja / notacja 2, :y∈{−1,+1}y∈{−1,+1}y \in …
max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b))12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) ∥w∥2‖w‖2\|w\|^2max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) Jednak w przypadku SVM z twardym marginesem cała funkcja celu to po prostu 12∥w∥212‖w‖2 \frac{1}{2}\|w\|^2 Czy to oznacza, że SVM z twardym marginesem minimalizuje tylko regularyzator bez funkcji straty? Brzmi bardzo dziwnie. Cóż, jeśli 12∥w∥212‖w‖2)\frac{1}{2}\|w\|^2 jest funkcją straty w tym przypadku, czy możemy ją …
Jest tutaj podobny wątek ( funkcja kosztu sieci neuronowej nie jest wypukła? ), Ale nie byłem w stanie zrozumieć punktów w odpowiedziach i mój powód, by zapytać ponownie, mając nadzieję, że rozwiąże to niektóre problemy: Jeśli używam sumy kwadratowej funkcji różnicy kosztów, ostatecznie optymalizuję coś w postaci gdzie jest rzeczywistą …
Czy można kontrolować koszt błędnej klasyfikacji w pakiecie R randomForest ? W mojej własnej pracy fałszywe negatywy (np. Brak pomyłki, że dana osoba może mieć chorobę) są znacznie bardziej kosztowne niż fałszywie pozytywne. Pakiet rpart pozwala użytkownikowi kontrolować koszty błędnej klasyfikacji, określając macierz strat do różnej wagi błędnych klasyfikacji. Czy …
To pytanie ma już odpowiedzi tutaj : Jak zmiana funkcji kosztów może być dodatnia? (1 odpowiedź) Co powinienem zrobić, gdy moja sieć neuronowa się nie uczy? (5 odpowiedzi) Zamknięte w zeszłym miesiącu . Trenuję model (Recurrent Neural Network) do klasyfikowania 4 typów sekwencji. Gdy prowadzę trening, widzę spadek treningu do …
„Podstawową” ideą statystyki do szacowania parametrów jest maksymalne prawdopodobieństwo . Zastanawiam się, jaki jest odpowiedni pomysł w uczeniu maszynowym. Qn 1. Czy uczciwie byłoby powiedzieć, że „podstawową” ideą uczenia maszynowego do szacowania parametrów jest: „Funkcje utraty” [Uwaga: mam wrażenie, że algorytmy uczenia maszynowego często optymalizują funkcję strat i stąd powyższe …
Próbuję zrozumieć, jaki jest cel funkcji utraty i nie do końca rozumiem. Tak więc, o ile rozumiem, funkcja straty służy wprowadzeniu pewnego rodzaju miernika, za pomocą którego możemy zmierzyć „koszt” niewłaściwej decyzji. Powiedzmy, że mam zestaw danych z 30 obiektami, podzieliłem je na zestawy szkoleniowe / testowe, takie jak 20/10. …
Pracuję w dziedzinie problemów, w której ludzie często zgłaszają ROC-AUC lub AveP (średnia precyzja). Jednak ostatnio znalazłem artykuły, które zamiast tego optymalizują straty logów , podczas gdy jeszcze inni zgłaszają utratę zawiasów . Rozumiem, w jaki sposób obliczane są te wskaźniki, ale trudno mi zrozumieć kompromisy między nimi i co …
W przypadku płaskiego przejęcia estymatory ML (częste - maksymalne prawdopodobieństwo) i MAP (bayesowskie - maksymalne a posteriori) pokrywają się. Mówiąc bardziej ogólnie, mówię o estymatorach punktowych wyprowadzonych jako optymalizatory niektórych funkcji strat. To znaczy (Bayesa) x (x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat x(y)) …
Tensorflow ma przykładowy samouczek na temat klasyfikowania CIFAR-10 . W samouczku średnia utrata entropii krzyżowej w partii jest zminimalizowana. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor of …
Próbuję użyć straty kwadratowej, aby dokonać klasyfikacji binarnej na zestawie danych zabawki. Korzystam z mtcarszestawu danych, wykorzystuję milę na galon i wagę, aby przewidzieć rodzaj transmisji. Poniższy wykres pokazuje dwa typy danych typu transmisji w różnych kolorach oraz granicę decyzji wygenerowaną przez inną funkcję strat. Kwadratowa strata wynosi ∑i(yi−pi)2∑ja(yja-pja)2)\sum_i (y_i-p_i)^2 …
Próbuję lepiej zrozumieć utratę logów i sposób, w jaki to działa, ale jedną rzeczą, której nie mogę znaleźć, jest umieszczenie numeru utraty logów w jakimś kontekście. Jeśli mój model ma utratę dziennika 0,5, czy to dobrze? Co uważa się za dobry i zły wynik? Jak zmieniają się te progi?
Próbuję uzyskać globalną perspektywę na niektóre z podstawowych pomysłów w uczeniu maszynowym i zastanawiałem się, czy istnieje kompleksowe podejście do różnych pojęć utraty (kwadrat, log, zawias, proxy itp.). Zastanawiałem się nad bardziej kompleksową, formalną prezentacją doskonałego postu Johna Langforda na temat Lant Function Semantics .
Próbuję zrozumieć funkcję utraty Yolo v2: λc o o r d∑i = 0S.2)∑j = 0b1o b jI j[ ( xja- x^ja)2)+ ( yja- y^ja)2)]+ λc o o r d∑i = 0S.2)∑j = 0b1o b jI j[ ( wja--√- w^ja--√)2)+ ( godzja--√- h^ja--√)2)]+ ∑i = 0S.2)∑j = 0b1o b jI j( …
Utratę zawiasu można zdefiniować za pomocą a utratę logu można zdefiniować jako log ( 1 + exp ( - y i w T x i ) )max ( 0 , 1 - yjawT.xja)max(0,1-yjawT.xja)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)log ( 1 + exp( - yjawT.xja) )log(1+exp(-yjawT.xja))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) Mam następujące pytania: Czy są jakieś wady …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.