W jaki sposób wyprowadza się funkcję kosztu z regresji logistycznej

29

Robię kurs Machine Learning Stanford na Coursera.

W rozdziale dotyczącym regresji logistycznej funkcja kosztu jest następująca:

Następnie uzyskuje się tutaj:

Próbowałem uzyskać pochodną funkcji kosztu, ale dostałem coś zupełnie innego.

Jak otrzymuje się pochodną?

Jakie są kroki pośrednie?

— oktawski
źródło

+1, sprawdź odpowiedź @ AdamO w moim pytaniu tutaj. stats.stackexchange.com/questions/229014/…

— Haitao Du

„Całkowicie inny” nie jest tak naprawdę wystarczający, aby odpowiedzieć na twoje pytanie, poza tym, że mówi ci to, co już wiesz (prawidłowy gradient). Byłoby o wiele bardziej przydatne, gdybyś dał nam wynik swoich obliczeń, a następnie pomożemy ci znaleźć się tam, gdzie popełniłeś błąd.

— Matthew Drury,

@MatthewDrury Przepraszam, Matt, ułożyłem odpowiedź tuż przed pojawieniem się twojego komentarza. Octavian, czy wykonałeś wszystkie kroki? Przeredaguję, aby później dodać mu pewną wartość dodaną ...

— Antoni Parellada,

2

kiedy mówisz „pochodny”, czy masz na myśli „zróżnicowany” czy „pochodny”?

— Glen_b

41

Na podstawie notatek z kursu, które nie są dostępne (w tym to wyprowadzenie) poza notatkami wniesionymi przez studentów na stronie kursu Coursera Machine Learning Andrew Ng .

W dalszej części indeks górny oznacza poszczególne pomiary lub „przykłady” treningu. $(i)$

$\small \frac{\partial J(\theta)}{\partial \theta_j} = \frac{\partial}{\partial \theta_j} \,\frac{-1}{m}\sum_{i=1}^m \left[ y^{(i)}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\log\left(1-h_\theta \left(x^{(i)}\right)\right)\right] \\[2ex]\small\underset{\text{linearity}}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\partial}{\partial \theta_j}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\frac{\partial}{\partial \theta_j}\log\left(1-h_\theta \left(x^{(i)}\right)\right) \right] \\[2ex]\Tiny\underset{\text{chain rule}}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\frac{\partial}{\partial \theta_j}h_\theta \left(x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} + (1 -y^{(i)})\frac{\frac{\partial}{\partial \theta_j}\left(1-h_\theta \left(x^{(i)}\right)\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{h_\theta(x)=\sigma\left(\theta^\top x\right)}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\frac{\partial}{\partial \theta_j}\sigma\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} + (1 -y^{(i)})\frac{\frac{\partial}{\partial \theta_j}\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\Tiny\underset{\sigma'}=\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\, \frac{\sigma\left(\theta^\top x^{(i)}\right)\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} - (1 -y^{(i)})\,\frac{\sigma\left(\theta^\top x^{(i)}\right)\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{\sigma\left(\theta^\top x\right)=h_\theta(x)}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{h_\theta\left( x^{(i)}\right)\left(1-h_\theta\left( x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} - (1 -y^{(i)})\frac{h_\theta\left( x^{(i)}\right)\left(1-h_\theta\left(x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left( \theta^\top x^{(i)}\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)=x_j^{(i)}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{(i)}\left(1-h_\theta\left(x^{(i)}\right)\right)x_j^{(i)}- \left(1-y^{i}\right)\,h_\theta\left(x^{(i)}\right)x_j^{(i)} \right] \\[2ex]\small\underset{\text{distribute}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{i}-y^{i}h_\theta\left(x^{(i)}\right)- h_\theta\left(x^{(i)}\right)+y^{(i)}h_\theta\left(x^{(i)}\right) \right]\,x_j^{(i)} \\[2ex]\small\underset{\text{cancel}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{(i)}-h_\theta\left(x^{(i)}\right)\right]\,x_j^{(i)} \\[2ex]\small=\frac{1}{m}\sum_{i=1}^m\left[h_\theta\left(x^{(i)}\right)-y^{(i)}\right]\,x_j^{(i)}$

Pochodną funkcji sigmoidalnej jest

$\Tiny\begin{align}\frac{d}{dx}\sigma(x)&=\frac{d}{dx}\left(\frac{1}{1+e^{-x}}\right)\\[2ex] &=\frac{-(1+e^{-x})'}{(1+e^{-x})^2}\\[2ex] &=\frac{e^{-x}}{(1+e^{-x})^2}\\[2ex] &=\left(\frac{1}{1+e^{-x}}\right)\left(\frac{e^{-x}}{1+e^{-x}}\right)\\[2ex] &=\left(\frac{1}{1+e^{-x}}\right)\,\left(\frac{1+e^{-x}}{1+e^{-x}}-\frac{1}{1+e^{-x}}\right)\\[2ex] &=\sigma(x)\,\left(\frac{1+e^{-x}}{1+e^{-x}}-\sigma(x)\right)\\[2ex] &=\sigma(x)\,(1-\sigma(x)) \end{align}$

— Antoni Parellada
źródło

1

+1 za wszystkie wysiłki !, może użycie zapisu macierzowego może być łatwiejsze?

— Haitao Du

czy mogę powiedzieć w regresji liniowej, celem jest a pochodna to , gdzie , w regresji logistycznej jest podobne, pochodna to gdzie , a ?

‖ A x - b ‖^{2}

$\|Ax-b\|^2$

2 A^{T} e

$2A^Te$

e = A x - b

$e=Ax-b$

A^{T} e

$A^Te$

e = p - b

$e=p-b$

p = sigmoid (A x)

$p=\text{sigmoid}~(Ax)$

— Haitao Du

2

dlatego doceniam twój wysiłek. spędzasz czas na języku OP!

— Haitao Du

1

Rozumiem, że istnieją problemy z wypukłością, które sprawiają, że minimalizacja błędu kwadratu jest niepożądana dla nieliniowych funkcji aktywacyjnych. W notacji macierzowej będzie to .

\frac{\partial J (θ)}{\partial θ} = \frac{1}{m} X^{⊤} (σ (X θ) - y)

$\frac{\partial J(\theta)}{\partial \theta}=\frac{1}{m}X^\top\left( \sigma(X\theta)-\mathbf y\right)$

— Antoni Parellada,

1

@MohammedNoureldin Właśnie wziąłem pochodną cząstkową w licznikach w poprzednim wierszu, stosując regułę łańcucha.

— Antoni Parellada,

8

Aby uniknąć wrażenia nadmiernej złożoności materii, spójrzmy tylko na strukturę rozwiązania.

Z uproszczeniem i pewnym nadużyciem notacji, niech będzie terminem w sumie , a jest funkcją : $G(\theta)$ $J(\theta)$ $h = 1/(1+e^{-z})$ $z(\theta)= x \theta$

G = y \cdot \log (h) + (1 - y) \cdot \log (1 - h)

$G = y \cdot \log(h)+(1-y)\cdot \log(1-h)$

Możemy użyć zasadę łańcucha: i rozwiązać jeden po one ( i są stałe). $\frac{d G}{d \theta}=\frac{d G}{d h}\frac{d h}{d z}\frac{d z}{d \theta}$ $x$ $y$

\frac{d G}{\partial h} = \frac{y}{h} - \frac{1 - y}{1 - h} = \frac{y - h}{h (1 - h)}

$\frac{d G}{\partial h} = \frac{y} {h} - \frac{1-y}{1-h} = \frac{y - h}{h(1-h)}$ Dla sigmoid utrzymuje, co jest tylko mianownikiem poprzedniej instrukcji.

\frac{d h}{d z} = h (1 - h)

$\frac{d h}{d z} = h (1-h)$

Na koniec . $\frac{d z}{d \theta} = x$

Łączenie wyników razem daje poszukiwane wyrażenie: Nadzieja, która pomaga.

\frac{d G}{d θ} = (y - h) x

$\frac{d G}{d \theta} = (y-h)x$

— garej
źródło

0

Podziękowania dla tej odpowiedzi należą się Antoniemu Parelladzie z komentarzy, które moim zdaniem zasługują na bardziej znaczące miejsce na tej stronie (ponieważ pomogło mi to, gdy wiele innych odpowiedzi tego nie zrobiło). Ponadto, nie jest to pełne wyprowadzenie, ale bardziej wyraźne stwierdzenie . (Aby uzyskać pełne wyprowadzenie, zobacz inne odpowiedzi). $\frac{\partial J(\theta)}{\partial \theta}$

\frac{\partial J (θ)}{\partial θ} = \frac{1}{m} \cdot X^{T} (σ (X θ) - y)

$\frac{\partial J(\theta)}{\partial \theta} = \frac{1}{m} \cdot X^T\big(\sigma(X\theta)-y\big)$

gdzie

\begin{aligned} X \in R^{m \times n} & = Training example matrix \\ σ (z) & = \frac{1}{1 + e^{- z}} = sigmoid function = logistic function \\ θ \in R^{n} & = weight row vector \\ y & = class/category/label corresponding to rows in X \end{aligned}

$\begin{equation} \begin{aligned} X \in \mathbb{R}^{m\times n} &= \text{Training example matrix} \\ \sigma(z) &= \frac{1}{1+e^{-z}} = \text{sigmoid function} = \text{logistic function} \\ \theta \in \mathbb{R}^{n} &= \text{weight row vector} \\ y &= \text{class/category/label corresponding to rows in X} \end{aligned} \end{equation}$

Ponadto implementacja w języku Python dla tych, którzy chcą obliczyć gradient w odniesieniu do . $J$ $\theta$

import numpy
def sig(z):
return 1/(1+np.e**-(z))


def compute_grad(X, y, w):
    """
    Compute gradient of cross entropy function with sigmoidal probabilities

    Args: 
        X (numpy.ndarray): examples. Individuals in rows, features in columns
        y (numpy.ndarray): labels. Vector corresponding to rows in X
        w (numpy.ndarray): weight vector

    Returns: 
        numpy.ndarray 

    """
    m = X.shape[0]
    Z = w.dot(X.T)
    A = sig(Z)
    return  (-1/ m) * (X.T * (A - y)).sum(axis=1)

— CiaranWelsh
źródło

0

Dla tych z nas, którzy nie są tak silni w rachunku różniczkowym, ale chcieliby bawić się dostosowując funkcję kosztów i muszą znaleźć sposób na obliczenie pochodnych ... skrót do rachunku ponownego uczenia się to narzędzie online do automatycznego zapewniania wyprowadzenie, wraz z objaśnieniami krok po kroku reguły.

https://www.derivative-calculator.net

— Yaoshiang
źródło