Statystyki i duże zbiory danych loss-functions

5

Jaka funkcja strat dla zadań klasyfikacyjnych wielu klas i wielu etykiet w sieciach neuronowych?

Uczę sieci neuronowej, aby klasyfikować zestaw obiektów do n-klas. Każdy obiekt może należeć do wielu klas jednocześnie (wiele klas, wiele etykiet). Czytałem, że w przypadku problemów wieloklasowych ogólnie zaleca się stosowanie softmax i kategorycznej entropii krzyżowej jako funkcji straty zamiast mse i mniej więcej rozumiem dlaczego. W przypadku mojego problemu …

64 neural-networks python loss-functions keras cross-entropy

3

Uczenie maszynowe: czy powinienem stosować kategoryczną utratę entropii krzyżowej lub utratę entropii krzyżowej binarnej do prognoz binarnych?

Przede wszystkim zdałem sobie sprawę, że jeśli muszę wykonać przewidywania binarne, muszę utworzyć co najmniej dwie klasy, wykonując kodowanie „na gorąco”. Czy to jest poprawne? Czy jednak binarna entropia krzyżowa dotyczy tylko predykcji z tylko jedną klasą? Gdybym miał zastosować kategoryczną utratę entropii krzyżowej, która zwykle występuje w większości bibliotek …

36 machine-learning neural-networks loss-functions tensorflow cross-entropy

5

Funkcja kosztu sieci neuronowej jest niewypukła?

Funkcja kosztu sieci neuronowej to J(W,b)J(W,b)J(W,b) i twierdzi się, że nie jest wypukła . Nie do końca rozumiem, dlaczego tak jest, ponieważ, jak widzę, jest dość podobny do funkcji kosztu regresji logistycznej, prawda? Jeśli nie jest wypukła, to pochodna drugiego rzędu ∂J∂W<0∂J∂W<0\frac{\partial J}{\partial W} < 0, prawda? AKTUALIZACJA Dzięki poniższym …

36 neural-networks loss-functions

2

Funkcja kosztu w regresji liniowej OLS

Jestem trochę mylony z wykładem na temat regresji liniowej wygłoszonym przez Andrew Ng na Coursera na temat uczenia maszynowego. Tam podał funkcję kosztu, która minimalizuje sumę kwadratów jako: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Rozumiem gdzie 1212\frac{1}{2} pochodzi z. Myślę, że zrobił to tak, że gdy wykonał pochodną na kwadracie, 2 …

32 regression machine-learning loss-functions

1

Jaka jest różnica między funkcją straty a funkcją błędu?

Czy termin „strata” jest synonimem „błędu”? Czy istnieje różnica w definicji? Jakie jest również pochodzenie terminu „strata”? NB: Wspomnianej tu funkcji błędu nie należy mylić z normalnym błędem.

31 loss-functions

4

Która funkcja strat jest prawidłowa dla regresji logistycznej?

Czytałem o dwóch wersjach funkcji straty dla regresji logistycznej, która z nich jest poprawna i dlaczego? Z uczenia maszynowego , Zhou ZH (po chińsku), z :β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 Z mojego kursu na uczelni, z :zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = y_if(x_i)=y_i(w^Tx_i …

31 logistic loss-functions

5

Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

XGBoost Loss function Approximation With Taylor Expansion

Na przykład, ma funkcję celu modelu XGBoost w sprawie ttt „tą iterację procedury: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) gdzie ℓℓ\ell jest utrata funkcji, ftftf_t jest ttt -tym wyjście drzewa i ΩΩ\Omega jest regularyzacji. Jednym z (wielu) kluczowych kroków do szybkiego obliczenia jest przybliżenie: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), w którym gigig_i i hihih_i są to pierwsze i …

28 optimization loss-functions boosting xgboost taylor-series

3

Jakie są skutki wyboru różnych funkcji strat w klasyfikacji do przybliżonej straty 0-1

Wiemy, że niektóre funkcje celu są łatwiejsze do optymalizacji, a niektóre są trudne. I jest wiele funkcji utraty, których chcemy używać, ale trudnych w użyciu, na przykład utrata 0-1. Dlatego znajdziemy kilka funkcji utraty proxy do wykonania pracy. Na przykład używamy utraty zawiasu lub straty logistycznej do „przybliżenia” utraty 0-1. …

27 machine-learning classification optimization loss-functions

2

Funkcja utraty współczynnika kości vs entropia krzyżowa

Kiedy trenujesz sieci neuronowe segmentujące piksele, takie jak sieci w pełni splotowe, jak podejmiesz decyzję o zastosowaniu funkcji utraty krzyżowej entropii w porównaniu z funkcją utraty współczynnika kości? Zdaję sobie sprawę, że to krótkie pytanie, ale nie jestem pewien, jakie inne informacje podać. Przejrzałem całą dokumentację na temat dwóch funkcji …

27 neural-networks loss-functions cross-entropy

1

Strata treningowa spada i rośnie. Co się dzieje?

Moja strata treningowa spada, a potem znowu rośnie. To jest bardzo dziwne. Strata weryfikacji krzyżowej śledzi utratę treningu. Co się dzieje? Mam dwa skumulowane LSTMS w następujący sposób (na Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') Trenuję to przez 100 epok: …

26 machine-learning neural-networks loss-functions lstm

3

Gradient utraty zawiasu

Próbuję zaimplementować podstawowe zejście gradientu i testuję go za pomocą funkcji utraty zawiasu, tj. . Jestem jednak zdezorientowany co do gradientu utraty zawiasu. Mam wrażenie, że tak jestlzawias= maks. ( 0 , 1 - y x ⋅ w )lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) ∂∂wlzawias= { - y x0jeżeli Y x …

25 loss-functions

2

Regresja kwantowa: funkcja straty

Próbuję zrozumieć regresję kwantową, ale jedną rzeczą, która sprawia, że cierpię, jest wybór funkcji straty. ρτ(u)=u(τ−1{u<0})ρτ(u)=u(τ−1{u<0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) Wiem, że minimalne oczekiwanie na jest równe kwantile , ale jaki jest intuicyjny powód, aby zacząć od tej funkcji? Nie widzę związku między minimalizowaniem tej funkcji a kwantylem. Czy ktoś może mi …

24 quantiles loss-functions quantile-regression

2

Jak zaprojektować i wdrożyć asymetryczną funkcję straty dla regresji?

Problem W regresji zwykle obliczany jest średni błąd kwadratu (MSE) dla próbki: aby zmierzyć jakość predyktora.MSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 Obecnie pracuję nad problemem regresji, którego celem jest przewidzenie ceny, jaką klienci są skłonni zapłacić za produkt, biorąc pod uwagę szereg funkcji numerycznych. Jeśli przewidywana cena jest zbyt …

24 regression error loss-functions

4

Mediana szacuje regresję L1, podczas gdy szacunki regresji L2 oznaczają?

Zadano mi więc pytanie, na podstawie których oszacowano centralne miary L1 (tj. Lasso) i L2 (tj. Regresja grzbietu). Odpowiedź to L1 = mediana i L2 = średnia. Czy jest w tym coś intuicyjnego? A może trzeba to ustalić algebraicznie? Jeśli tak, jak mam to zrobić?

24 lasso regularization loss-functions ridge-regression

Pytania otagowane jako loss-functions