Regresja kwantowa: funkcja straty

24

Próbuję zrozumieć regresję kwantową, ale jedną rzeczą, która sprawia, że cierpię, jest wybór funkcji straty.

$\rho_\tau(u) = u(\tau-1_{\{u<0\}})$

Wiem, że minimalne oczekiwanie na jest równe kwantile , ale jaki jest intuicyjny powód, aby zacząć od tej funkcji? Nie widzę związku między minimalizowaniem tej funkcji a kwantylem. Czy ktoś może mi to wytłumaczyć? $\rho_\tau(y-u)$ $\tau\%$

quantiles loss-functions quantile-regression

— CDO
źródło

28

Rozumiem to pytanie jako prośbę o wgląd w to, jak można wymyślić jakąkolwiek funkcję straty, która produkuje dany kwantyl jako minimalizator strat, bez względu na to, jaki może być podstawowy rozkład. Byłoby zatem niezadowalające powtórzenie analizy w Wikipedii lub gdzie indziej, która pokazuje, że ta konkretna funkcja strat działa.

Zacznijmy od czegoś znajomego i prostego.

Co mówisz jest znalezienie „Location” w stosunku do dystrybucji lub zestawu danych . Dobrze wiadomo na przykład, że średnia minimalizuje oczekiwany kwadrat resztkowy; to jest wartość, dla której $x^{*}$ $F$ $\bar x$

L_{F} (\bar{x}) = \int_{R} (x - \bar{x})^{2} d F (x)

$\mathcal{L}_F(\bar x)=\int_{\mathbb{R}} (x - \bar x)^2 dF(x)$

jest tak mały, jak to możliwe. Użyłem tego zapisu, aby przypomnieć nam, że jest pochodną straty , że jest określana przez , ale co najważniejsze, zależy od liczby . $\mathcal{L}$ $F$ $\bar x$

Standardowy sposób pokazania, że minimalizuje dowolną funkcję, zaczyna się od wykazania, że wartość funkcji nie zmniejsza się, gdy zostanie nieco zmieniona. Taka wartość nazywana jest punktem krytycznym funkcji. $x^{*}$ $x^{*}$

Jaki rodzaj funkcji straty spowodowałby, że percentyl byłby punktem krytycznym? Strata dla tej wartości byłaby $\Lambda$ $F^{-1}(\alpha)$

L_{F} (F^{- 1} (α)) = \int_{R} Λ (x - F^{- 1} (α)) d F (x) = \int_{0}^{1} Λ (F^{- 1} (u) - F^{- 1} (α)) d u .

$\mathcal{L}_F(F^{-1}(\alpha)) = \int_{\mathbb{R}} \Lambda(x-F^{-1}(\alpha))dF(x)=\int_0^1\Lambda\left(F^{-1}(u)-F^{-1}(\alpha)\right)du.$

Aby był to punkt krytyczny, jego pochodna musi wynosić zero. Ponieważ my po prostu staramy się znaleźć jakieś rozwiązanie, nie zatrzyma, aby zobaczyć, czy manipulacje są uzasadnione: będziemy planować, aby sprawdzić dane techniczne (takie jak to, czy naprawdę możemy odróżnić , itd ) na końcu. A zatem $\Lambda$

\begin{matrix} (1) & \begin{aligned} 0 & = L_{F}^{'} (x^{*}) = L_{F}^{'} (F^{- 1} (α)) = - \int_{0}^{1} Λ^{'} (F^{- 1} (u) - F^{- 1} (α)) d u \\ = - \int_{0}^{α} Λ^{'} (F^{- 1} (u) - F^{- 1} (α)) d u - \int_{α}^{1} Λ^{'} (F^{- 1} (u) - F^{- 1} (α)) d u . \end{aligned} \end{matrix}

$\eqalign{0 &=\mathcal{L}_F^\prime(x^{*})= \mathcal{L}_F^\prime(F^{-1}(\alpha))= -\int_0^1 \Lambda^\prime\left(F^{-1}(u)-F^{-1}(\alpha)\right)du \\ &= -\int_0^{\alpha} \Lambda^\prime\left(F^{-1}(u)-F^{-1}(\alpha)\right)du -\int_{\alpha}^1 \Lambda^\prime\left(F^{-1}(u)-F^{-1}(\alpha)\right)du.\tag{1} }$

Po lewej stronie argument jest negatywny, a po prawej jest pozytywny. Poza tym mamy niewielką kontrolę nad wartościami tych całek, ponieważ może być dowolną funkcją rozkładu. W związku z tym naszą jedyną nadzieją jest uzależnienie tylko od znaku jego argumentu, w przeciwnym razie musi być stała. $\Lambda$ $F$ $\Lambda^\prime$

Oznacza to, że będzie fragmentarycznie liniowa, potencjalnie z różnymi nachyleniami na lewo i prawo od zera. Oczywiście powinno się zmniejszać w miarę zbliżania się do zera - w końcu jest to strata, a nie zysk . Co więcej, przeskalowanie o stałą nie zmieni jej właściwości, więc możemy swobodnie ustawić nachylenie lewej ręki na . Niech będzie nachyleniem po prawej stronie. Następnie upraszcza się $\Lambda$ $\Lambda$ $-1$ $\tau \gt 0$ $(1)$

0 = α - τ (1 - α),

$0 = \alpha - \tau (1 - \alpha),$

whence the unique solution is, up to a positive multiple,

Λ (x) = {\begin{cases} - x, x \leq 0 \\ \frac{α}{1 - α} x, x \geq 0. \end{cases}

$\Lambda(x) = \cases{-x, \ x \le 0 \\ \frac{\alpha}{1-\alpha}x, \ x \ge 0.}$

Multiplying this (natural) solution by $1-\alpha$ , to clear the denominator, produces the loss function presented in the question.

Clearly all our manipulations are mathematically legitimate when $\Lambda$ has this form.

— whuber
źródło

19

The way this loss function is expressed is nice and compact but I think it's easier to understand by rewriting it as

ρ_{τ} (X - m) = (X - m) (τ - 1_{(X - m < 0)}) = {\begin{cases} τ | X - m | & i f X - m \geq 0 \\ (1 - τ) | X - m | & i f X - m < 0) \end{cases}

$\rho_\tau(X-m) = (X-m)(\tau-1_{(X-m<0)}) = \begin{cases} \tau |X-m| & if \; X-m \ge 0 \\ (1 - \tau) |X-m| & if \; X-m < 0) \end{cases}$

If you want to get an intuitive sense of why minimizing this loss function yields the $\tau$ th quantile, it's helpful to consider a simple example. Let $X$ be a uniform random variable between 0 and 1. Let's also choose a concrete value for $\tau$ , say, $0.25$ .

So now the question is why would this loss function be minimized at $m=0.25$ ? Obviously, there's three times as much mass in the uniform distribution to the right of $m$ than there is to the left. And the loss function weights the values larger than this number at only a third of the weight given to values less than it. Thus, it's sort of intuitive that the scales are balanced when the $\tau$ th quantile is used as the inflection point for the loss function.

— jjet
źródło

1

Shouldn't it be the other way? Under-guessing will cost three times as much?

— Edi Bice

Thanks for catching that. The formula is right but I initially worded it incorrectly in my explanation.

— jjet