Funkcje Percentile Loss

11

Rozwiązanie problemu:

min_{m} E [| m - X |]

$\min_{m} \; E[|m-X|]$

jest dobrze znana jako mediana $X$ , ale jak wygląda funkcja utraty dla innych percentyli? Np .: 25. percentyl X jest rozwiązaniem:

min_{m} E [L (m, X)]

$\min_{m} \; E[ L(m,X) ]$

Co to jest $L$ w tym przypadku?

expected-value loss-functions

— Cam.Davidson.Pilon
źródło

12

Niech funkcją wskaźnika: jest równa dla prawdziwych argumentów i przeciwnym razie. Wybierz i ustaw $I$ $1$ $0$ $0\lt\alpha\lt 1$

Λ_{α} (x) = α x I (x \geq 0) - (1 - α) x I (x < 0) .

$\Lambda_\alpha(x)=\alpha x\, I(x\ge 0) - (1-\alpha)x\, I(x\lt 0).$

Postać

Ta liczba przedstawia . Wykorzystuje dokładny współczynnik kształtu, aby pomóc Ci ocenić zbocza, które po lewej stronie i po prawej stronie. W takim przypadku wycieczki powyżej są znacznie obniżone w porównaniu do wycieczek poniżej . $\Lambda_{1/5}$ $-4/5$ $+1/5$ $0$ $0$

Jest to naturalna funkcja do wypróbowania, ponieważ waży wartości które przekraczają inaczej niż które są mniejsze niż . Obliczmy związaną z tym stratę, a następnie ją zoptymalizujmy. $x$ $0$ $x$ $0$

Zapisywanie dla funkcji rozkładu i ustawienie , oblicz $F$ $X$ $L_\alpha(m,x) = \Lambda_\alpha(x-m)$

\begin{aligned} E_{F} (L_{α} (m, X)) & = \int_{R} Λ_{α} (x - m) d F (x) \\ = α \int_{R} I (x \geq m) (x - m) d F (x) - (1 - α) \int_{R} (x - m) I (x < m) d F (x) \\ = α \int_{m}^{\infty} (x - m) d F (x) - (1 - α) \int_{- \infty}^{m} (x - m) d F (x) . \end{aligned}

$\eqalign{ \mathbb{E}_F(L_\alpha(m,X))&=\int_\mathbb{R} \Lambda_\alpha(x-m)dF(x)\\ &=\alpha\int_\mathbb{R} I(x\ge m)(x-m) dF(x) - (1-\alpha)\int_\mathbb{R} (x-m)I(x\lt m) dF(x)\\ &=\alpha\int_m^\infty(x-m)dF(x) - (1-\alpha)\int_{-\infty}^m(x-m) dF(x). }$

Rysunek 2

Ponieważ różni się na tej ilustracji standardowym rozkładem normalnym , wykreślany jest całkowity obszar ważony prawdopodobieństwem . (Krzywa jest wykresem .) Wykres po prawej stronie dla najwyraźniej pokazuje efekt zmniejszenia wartości dodatnich, ponieważ bez tego zmniejszenia wykresu być symetrycznym względem pochodzenia. Środkowy wykres pokazuje optymalne, gdzie całkowita ilość niebieskiego atramentu (reprezentująca ) jest tak mała, jak to możliwe. $m$ $F$ $\Lambda_{1/5}$ $\Lambda_{1/5}(x-m)dF(x)$ $m=0$ $\mathbb{E}_F(L_{1/5}(m,X))\$

Funkcję tę można rozróżnić, dlatego jej ekstrema można znaleźć, sprawdzając punkty krytyczne. Zastosowanie reguły łańcuchowej i podstawowego twierdzenia rachunku różniczkowego i całkowego w celu uzyskania pochodnej względem daje $m$

\begin{aligned} \frac{\partial}{\partial m} E_{F} (L_{α} (m, X)) & = α (0 - \int_{m}^{\infty} d F (x)) - (1 - α) (0 - \int_{- \infty}^{m} d F (x)) \\ = F (m) - α . \end{aligned}

$\eqalign{ \frac{\partial}{\partial m}\mathbb{E}_F(L_\alpha(m,X))&=\alpha\left(0-\int_m^\infty dF(x)\right) - (1-\alpha)\left(0 - \int_{-\infty}^m dF(x)\right)\\ &= F(m) - \alpha. }$

Dla rozkładu ciągłych to zawsze ma rozwiązanie, , który z definicji jest dowolnym kwantylem . Dla rozkładu nieciągłych to może nie posiada rozwiązania, ale będzie co najmniej jeden , dla których dla wszystkich i dla wszystkich : jest również (z definicji) jest kwantylem . $m$ $\alpha$ $X$ $m$ $F(x)-\alpha\lt 0$ $x\lt m$ $F(x)-\alpha\ge 0$ $x\ge m$ $\alpha$ $X$

Wreszcie, ponieważ i , jasne jest, że ani ani nie zminimalizują tej straty. To wyczerpuje kontrolę punktów krytycznych, pokazując, że pasuje do rachunku. $\alpha\ne 0$ $\alpha\ne 1$ $m\to-\infty$ $m\to\infty$ $\Lambda_\alpha$

W szczególnym przypadku to strata wykazana w pytanie. $\mathbb{E}_F(2L_{1/2}(m,X)) = \mathbb{E}_F\left(\left|m-x\right|\right)$

— Whuber
źródło

Doceniam wysiłek włożony w wykazanie oczekiwanej straty minimalizowany przez właściwy punkt . Zastanawiałem się, jak to zrobić dla własnej odpowiedzi, ale twoje wyjaśnienie jest dobre. (+1)

m

$m$

2

Udowodniłeś, że zdjęcia są warte 1000 słów. Dzięki @whuber =)

— Cam.Davidson.Pilon

8

W tym artykule znajdziesz odpowiedź. Aby być konkretnym, Funkcję strat można interpretować jako „równoważenie” różnych obszarów masy prawdopodobieństwa około poprzez odjęcie . Dla mediany te obszary masy są równe: czyniąc funkcję straty proporcjonalną (w oczekiwaniu stałej jest pomijalna) do co daje pożądany wniosek dla mediany.

L_{0.25} (m, X) = | (X - m) (0.25 - 1 {X > m}) | .

$L_{0.25}(m,X) = \left| \left( X - m \right) \left(0.25 - \mathbf{1}\{ X > m \} \right) \right|.$

0.25

$0.25$

0.25 - 1 {X > m}

$0.25 - \mathbf{1}\{ X > m \}$

L_{0.5} (m, X) = | (X - m) (0.5 - 1 {X > m}) | = | (X - m) \times \pm 0.5 |,

$L_{0.5}(m,X) = \left| \left( X - m \right) \left(0.5 - \mathbf{1}\{ X > m \} \right) \right| = \left| \left( X - m \right) \times \pm 0.5 \right|,$

| X - m |,

$\left| X - m\right|,$

(+1) Dobra robota! - nie było oczywiste, gdzie szukać tego artykułu z Wikipedii; musiałeś pomyśleć o regresji kwantowej.

— whuber

Dzięki, @Matthew, to świetne znalezisko. Lubię wyważać interpretację

— Cam.Davidson.Pilon

Nadal nie rozumiem. Skąd to pochodzi? Jeśli X jest powyżej kwantyla, jest ważony 0,75, w przeciwnym razie 0,25? Po prostu to?

| (0.25) - 1 X > m) |

$|(0.25)-\mathbb{1}{X>m})|$

(X - m)

$(X-m)$

— IcannotFixTen