Statystyki i duże zbiory danych derivative

6

Propagacja wsteczna z Softmax / Cross Entropy

Próbuję zrozumieć, jak działa propagacja wsteczna dla warstwy wyjściowej softmax / cross-entropii. Funkcja błędu entropii krzyżowej to E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j z ttt i ooo jako celem i wyjściem odpowiednio w neuronie jjj . Suma jest nad każdym neuronem w warstwie wyjściowej. ojojo_j jest wynikiem funkcji softmax: oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Ponownie, …

40 backpropagation derivative softmax cross-entropy

4

W jaki sposób wyprowadza się funkcję kosztu z regresji logistycznej

Robię kurs Machine Learning Stanford na Coursera. W rozdziale dotyczącym regresji logistycznej funkcja kosztu jest następująca: Następnie uzyskuje się tutaj: Próbowałem uzyskać pochodną funkcji kosztu, ale dostałem coś zupełnie innego. Jak otrzymuje się pochodną? Jakie są kroki pośrednie?

29 regression logistic gradient-descent derivative

1

Przykład automatycznego różnicowania w trybie odwrotnym

Nie jestem pewien, czy to pytanie należy tutaj, ale jest ściśle związane z metodami gradientu w optymalizacji, co wydaje się być tutaj na temat. W każdym razie możesz swobodnie przeprowadzić migrację, jeśli uważasz, że inna społeczność ma lepsze doświadczenie w tym temacie. Krótko mówiąc, szukam krok po kroku przykładu automatycznego …

27 optimization derivative tensorflow automatic-differentiation

1

Wyprowadzenie zmiany zmiennych funkcji gęstości prawdopodobieństwa?

W rozpoznawaniu wzorów książek i uczeniu maszynowym (wzór 1.27) daje py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | gdziex=g(y)x=g(y)x=g(y),to pdf, który odpowiadaw odniesieniu do zmiany zmiennej.p y ( y )px(x)px(x)p_x(x)py(y)py(y)p_y(y) Książki mówią, że dzieje się tak, ponieważ obserwacje mieszczące się w zakresie (x,x+δx)(x,x+δx)(x, x + \delta x) …

16 machine-learning probability self-study derivative jacobian

3

Jak dopasować splajn do danych zawierających wartości i 1. / 2. pochodną?

Mam zestaw danych, który zawiera, powiedzmy, kilka pomiarów pozycji, prędkości i przyspieszenia. Wszystkie pochodzą z tego samego „biegu”. Mógłbym zbudować układ liniowy i dopasować wielomian do wszystkich tych pomiarów. Ale czy mogę zrobić to samo z splajnami? W jaki sposób można to zrobić? Oto kilka symulowanych danych, które chciałbym dopasować: …

14 r model fitting splines derivative

2

Pochodna procesu gaussowskiego

Uważam, że pochodna procesu Gaussa (GP) jest innym GP, więc chciałbym wiedzieć, czy istnieją równania w postaci zamkniętej dla równań predykcyjnych pochodnej GP? W szczególności używam kwadratowego wykładniczego jądra kowariancji (zwanego również gaussowskim) i chcę wiedzieć o przewidywaniu pochodnej procesu Gaussa.

12 stochastic-processes gaussian-process derivative

1

Przybliżenie drugiego rzędu funkcji utraty (książka do głębokiego uczenia się, 7.33)

W książce Goodfellow (2016) na temat głębokiego uczenia się mówił o równoważności wczesnego zaprzestania regularyzacji L2 ( https://www.deeplearningbook.org/contents/regularization.html strona 247). Kwadratowe przybliżenie funkcji kosztu jjj daje: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

11 neural-networks deep-learning loss-functions derivative

1

Interpretacja pochodnej Radon-Nikodym między miarami prawdopodobieństwa?

W niektórych momentach widziałem zastosowanie pochodnej Radona-Nikodyma jednej miary prawdopodobieństwa w stosunku do drugiej, szczególnie w dywergencji Kullbacka-Leiblera, gdzie jest to pochodna miary prawdopodobieństwa modelu dla jakiegoś dowolnego parametru w odniesieniu do rzeczywistego parametru :θ 0θθ\thetaθ0θ0\theta_0 reP.θreP.θ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} Gdzie są to oba miary prawdopodobieństwa w przestrzeni punktów danych, zależne od …

11 mathematical-statistics kullback-leibler derivative measure-theory

3

Czy sieć neuronowa może nauczyć się funkcjonalnej i jej funkcjonalnej pochodnej?

Rozumiem, że sieci neuronowe (NN) można uznać za uniwersalne aproksymatory zarówno funkcji, jak i ich pochodnych, pod pewnymi założeniami (zarówno w sieci, jak i funkcji do aproksymacji). W rzeczywistości przeprowadziłem szereg testów prostych, ale nietrywialnych funkcji (np. Wielomianów) i wydaje się, że rzeczywiście potrafię je dobrze przybliżyć i ich pierwsze …

11 machine-learning neural-networks function derivative

1

Co uzasadnia to obliczenie pochodnej funkcji macierzowej?

W kursie uczenia maszynowego Andrew Nga używa tej formuły: ∇Atr(ABATC)=CAB+CTABT∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T i robi szybki dowód, który pokazano poniżej: ∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + (\nabla_{\circ^T}tr(\circ^T)Cf(A))^T \\ =C^TAB^T + ((Cf(A))^T)^T \\ = …

10 machine-learning matrix derivative

Pytania otagowane jako derivative