Gradient dla funkcji straty logistycznej

Zadałbym pytanie związane z tym .

Znalazłem przykład pisania niestandardowej funkcji utraty dla xgboost tutaj :

loglossobj <- function(preds, dtrain) {
  # dtrain is the internal format of the training data
  # We extract the labels from the training data
  labels <- getinfo(dtrain, "label")
  # We compute the 1st and 2nd gradient, as grad and hess
  preds <- 1/(1 + exp(-preds))
  grad <- preds - labels
  hess <- preds * (1 - preds)
  # Return the result as a list
  return(list(grad = grad, hess = hess))
}

Funkcja utraty logistycznej to

l o g (1 + e^{- y P})

$log(1+e^{-yP})$

gdzie jest log-odds, a oznacza etykiety (0 lub 1). $P$ $y$

Moje pytanie brzmi: w jaki sposób możemy uzyskać gradient (pierwsza pochodna) po prostu równy różnicy między wartościami rzeczywistymi a przewidywanymi prawdopodobieństwami (obliczonymi na podstawie ilorazów logarytmu jako preds <- 1/(1 + exp(-preds)))?

— Ogurcow
źródło

Aby to osiągnąć, należy użyć kwadratowej utraty błędów. Twoja notacja jest myląca i powinna zostać zdefiniowana w poście. Jeśli jest przewidywanym ryzykiem, to strata jest tym, czego chcesz. Jestem zdezorientowany, ponieważ nigdy nie używamy aby oznaczać logarytmiczne szanse.

p

$p$

(y - p)^{2}

$(y-p)^2$

p

$p$

— AdamO,

p

$p$ została ustalona do kapitału . Jest to iloraz szans i jest wyraźnie zaznaczony w pytaniu. Wiem, że gradient funkcji straty to , ale jest to strata kwadratowa, a nie logistyczna.

P

$P$

(y - f (x))^{2}

$(y-f(x))^2$

f (x) - y

$f(x)-y$

— Ogurtsov

Kiedy mówisz „gradient”, jaki masz na myśli gradient? Gradient straty? Jest to prosta zależność matematyczna, że jeśli pochodna wyrażenia jest różnicą liniową, to wyrażenie jest różnicą kwadratową lub kwadratową stratą błędu.

— AdamO,

Tak, chodzi o gradient straty. To proste, gdy funkcja straty jest kwadratem błędu. W tym przypadku funkcją straty jest utrata logistyczna ( en.wikipedia.org/wiki/LogitBoost ) i nie mogę znaleźć zgodności między gradientem tej funkcji a podanym przykładem kodu.

— Ogurtsov,

Moja odpowiedź na moje pytanie: tak, można wykazać, że gradient strat logistycznych jest równy różnicy między wartościami rzeczywistymi a przewidywanymi prawdopodobieństwami. Krótkie wyjaśnienie zostało znalezione tutaj .

Po pierwsze, utrata logistyki jest po prostu ujemnym prawdopodobieństwem logarytmicznym, więc możemy zacząć od wyrażenia log-prawdopodobieństwo ( s. 74 - to wyrażenie jest log-samo w sobie, a nie ujemne log-prawdopodobieństwo):

L = y_{i} \cdot l o g (p_{i}) + (1 - y_{i}) \cdot l o g (1 - p_{i})

$L=y_{i}\cdot log(p_{i})+(1-y_{i})\cdot log(1-p_{i})$

$p_{i}$ to funkcja logistyczna: , gdzie to przewidywane wartości przed transformacją logistyczną (tj. log-odds): $p_{i}=\frac{1}{1+e^{-\hat{y}_{i}}}$ $\hat{y}_{i}$

L = y_{i} \cdot l o g (\frac{1}{1 + e^{- {\hat{y}}_{i}}}) + (1 - y_{i}) \cdot l o g (\frac{e^{- {\hat{y}}_{i}}}{1 + e^{- {\hat{y}}_{i}}})

$L=y_{i}\cdot log\left(\frac{1}{1+e^{-\hat{y}_{i}}}\right)+(1-y_{i})\cdot log\left(\frac{e^{-\hat{y}_{i}}}{1+e^{-\hat{y}_{i}}}\right)$

Pierwsza pochodna uzyskana przy użyciu Wolfram Alpha:

L^{'} = \frac{y_{i} - (1 - y_{i}) \cdot e^{{\hat{y}}_{i}}}{1 + e^{{\hat{y}}_{i}}}

${L}'=\frac{y_{i}-(1-y_{i})\cdot e^{\hat{y}_{i}}}{1+e^{\hat{y}_{i}}}$

Po pomnożeniu przez : $\frac{e^{-\hat{y}_{i}}}{e^{-\hat{y}_{i}}}$

{L.}^{'} = \frac{y_{ja} \cdot {mi}^{- {\hat{y}}_{ja}} + y_{ja} - 1}{1 + {mi}^{- {\hat{y}}_{ja}}} = \frac{y_{ja} \cdot (1 + {mi}^{- {\hat{y}}_{ja}})}{1 + {mi}^{- {\hat{y}}_{ja}}} - \frac{1}{1 + {mi}^{- {\hat{y}}_{ja}}} = y_{ja} - p_{ja}

${L}'=\frac{y_{i}\cdot e^{-\hat{y}_{i}}+y_{i}-1}{1+e^{-\hat{y}_{i}}}= \frac{y_{i}\cdot (1+e^{-\hat{y}_{i}})}{1+e^{-\hat{y}_{i}}}-\frac{1}{1+e^{-\hat{y}_{i}}}=y_{i}-p_{i}$

Po zmianie znaku mamy wyrażenie na gradient funkcji utraty logistyki:

p_{ja} - y_{ja}

$p_{i}-y_{i}$

— Ogurcow
źródło

To, co nazywacie tutaj , nie jest przewidywaniem , ale liniową kombinacją predyktorów. W uogólnionym modelowaniu liniowym używamy notacji i nazywamy ten termin „predyktorem liniowym”. Twoja pochodna logarytmu (wyniku) jest niepoprawna, w mianowniku powinien znajdować się kwadrat, ponieważ bernoullis tworzy wykładnicze prawdopodobieństwo. Wynik powinien mieć postać

\hat{y}

$\hat{y}$

y

$y$

ν

$\nu$

\frac{1}{p_{i} (1 - p_{i})} (y_{i} - p_{i})

$\frac{1}{p_i(1-p_i)}(y_i - p_i)$

— AdamO