Po co stosować określoną miarę błędu prognozy (np. MAD), a nie inną (np. MSE)?

MAD = średnie odchylenie bezwzględne MSE = średni błąd kwadratu

Widziałem sugestie z różnych miejsc, że MSE jest używany pomimo pewnych niepożądanych właściwości (np. Http://www.stat.nus.edu.sg/~staxyc/T12.pdf , który stwierdza na p8 „Powszechnie uważa się, że MAD jest lepszym kryterium niż MSE. Jednak matematycznie MSE jest wygodniejszy niż MAD. ”)

Czy jest w tym coś więcej? Czy istnieje dokument, który dokładnie analizuje sytuacje, w których różne metody pomiaru błędu prognozy są bardziej / mniej odpowiednie? Moje wyszukiwania w Google nic nie ujawniły.

Podobne pytanie zadano na /programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sde , a użytkownik został poproszony o opublikować na stats.stackexchange.com, ale nie sądzę, żeby kiedykolwiek tak było.

— user1205901 - Przywróć Monikę
źródło

MAD to zazwyczaj Mediana Absolutnego Odchylenia, a nie Średnia, nie?

— Brian D.

@BrianD: w szerszej społeczności statystyk masz rację. W węższej społeczności prognostycznej „MAD” niezmiennie jest „średnim absolutnym odchyleniem”, AKA MAE .

— Stephan Kolassa

Odpowiedzi:

Aby zdecydować, który miernik błędu prognozy punktowej zastosować, musimy cofnąć się o krok. Zauważ, że nie znamy doskonale przyszłego wyniku ani nigdy. Zatem przyszły wynik jest zgodny z rozkładem prawdopodobieństwa . Niektóre metody prognozowania jawnie generują taki pełny rozkład, a niektóre nie - ale zawsze istnieje, choćby niejawnie.

Teraz chcemy mieć dobrą miarę błędów dla prognozy punktowej . Taki punkt prognozę $F_t$ jest naszą próbą podsumowania tego, co wiemy o przyszłej dystrybucji (tj dystrybucji predykcyjna) w czasie $t$ , stosując jeden numer, tzw funkcjonalny gęstości przyszłości. Miara błędu jest zatem sposobem oceny jakości tego podsumowania z pojedynczą liczbą.

Dlatego powinieneś wybrać miarę błędu, która nagradza „dobre” podsumowania jednej liczby (nieznane, prawdopodobnie prognozowane, ale prawdopodobnie tylko dorozumiane) przyszłych gęstości.

Wyzwanie polega na tym, że różne miary błędów są minimalizowane przez różne funkcje. Oczekiwany MSE jest minimalizowany przez oczekiwaną wartość przyszłej dystrybucji. Oczekiwany MAD jest minimalizowany przez medianę przyszłej dystrybucji. Zatem jeśli skalibrujesz swoje prognozy, aby zminimalizować MAE, twoja prognoza punktowa będzie przyszłą medianą, a nie przyszłą oczekiwaną wartością, a twoje prognozy będą tendencyjne, jeśli twój przyszły rozkład nie będzie symetryczny.

Jest to najbardziej istotne w przypadku danych zliczania, które zwykle są przekrzywione. W skrajnych przypadkach (powiedzmy, Poisson dystrybuował sprzedaż ze średnią poniżej $\log 2\approx 0.69$ ), MAE będzie najniższa dla prognozy zera zero. Zobacz tutaj lub tutaj lub tutaj, aby uzyskać szczegółowe informacje.

Podaję więcej informacji i ilustrację Jakie są niedociągnięcia w średnim bezwzględnym błędzie procentowym (MAPE)? Wątek ten uwzględnia mapę , ale także inne miary błędów i zawiera łącza do innych powiązanych wątków.

Ostatecznie to, którą miarę błędu zastosować, naprawdę zależy od kosztu błędu prognozy, tj. Jaki rodzaj błędu jest najbardziej bolesny. Bez patrzenia na rzeczywiste implikacje błędów prognoz, jakakolwiek dyskusja na temat „lepszych kryteriów” jest w zasadzie bezsensowna.

Miary dokładności prognoz były ważnym tematem w społeczności zajmującej się prognozowaniem kilka lat temu i wciąż pojawiają się od czasu do czasu. Jednym bardzo dobrym artykułem do obejrzenia jest Hyndman & Koehler „Kolejne spojrzenie na miary dokładności prognoz” (2006).

Wreszcie jedną z możliwości jest obliczenie pełnej gęstości predykcyjnej i ocena jej przy użyciu odpowiednich reguł punktacji .

— Stephan Kolassa
źródło

Dzięki za odpowiedź i link. Nie znałem terminu „błąd prognozy kosztów”. Wydaje się, że odnosi się to do sytuacji, w których (np.) Firma prognozuje, ile widżetów sprzedaje, i być może ból, który cierpią z powodu przeszacowania, jest dwa razy większy niż ból, którego doświadczają z powodu niedoceniania. Jednak myślę głównie o kontekście, w którym świeccy robią prognozy bez widocznych kosztów błędu prognozy (np. „Ile tweetów zrobi Bill Gates w ciągu najbliższych 5 miesięcy?”). Czy w takiej sytuacji mój wybór błędu pomiaru będzie arbitralny?

— user1205901 - Przywróć Monikę

Błąd kosztu prognozy został omówiony w zorientowanym na praktykach czasopiśmie Foresight : prognozers.org/foresight Bardzo zalecane! (Pełne ujawnienie: jestem redaktorem zastępczym.) Zgadzam się, że CoFE nie jest łatwo widoczny w twoim przykładzie, ale zastanawiałbym się, ile wysiłku powinieneś naprawdę poświęcić na optymalizację swojego błędu ...

— Stephan Kolassa

Zalety używania MAE zamiast MSE wyjaśniono w Davydenko i Fildes (2016) , patrz sekcja 3.1:

... Niektórzy autorzy (np. Zellner, 1986) twierdzą, że kryterium, według którego oceniamy prognozy, powinno odpowiadać kryterium, na podstawie którego optymalizujemy prognozy. Innymi słowy, jeśli zoptymalizujemy oszacowania za pomocą danej funkcji straty, musimy użyć tej samej funkcji straty do oceny empirycznej, aby dowiedzieć się, który model jest lepszy.

Dopasowanie modelu statystycznego zwykle zapewnia optymalne prognozy przy stratach kwadratowych. Dzieje się tak np. Wtedy, gdy dopasowujemy regresję liniową. Jeśli nasza prognoza gęstości z modelowania statystycznego jest symetryczna, wówczas prognozy optymalne dla straty kwadratowej są również optymalne dla straty liniowej. Ale jeśli ustabilizujemy wariancję za pomocą przekształceń logarytmicznych, a następnie przekształcimy prognozy wsteczne przez potęgowanie, otrzymamy prognozy optymalne tylko przy stracie liniowej. Jeśli użyjemy innej straty, musimy najpierw uzyskać prognozę gęstości za pomocą modelu statystycznego, a następnie skorygować nasze oszacowanie, biorąc pod uwagę naszą specyficzną funkcję straty (patrz przykłady wykonania tego w Goodwin, 2000).

Załóżmy, że chcemy empirycznie porównać dwie metody i dowiedzieć się, która metoda jest lepsza pod względem symetrycznej straty liniowej (ponieważ ten typ straty jest powszechnie stosowany w modelowaniu). Jeśli mamy tylko jeden szereg czasowy, naturalne wydaje się zastosowanie średniego błędu bezwzględnego (MAE). MAE jest również atrakcyjna, ponieważ jest łatwa do zrozumienia i obliczenia (Hyndman, 2006) ...

Bibliografia

Davydenko, A., i Fildes, R. (2016). Prognozowane miary błędów: przegląd krytyczny i zalecenia praktyczne. W prognozowaniu biznesowym: praktyczne problemy i rozwiązania. John Wiley & Sons

— Turbofly
źródło

Czy mógłbyś przytoczyć pełny cytat , a nie tylko „Davydenko i Fildes, 2016”?

— Silverfish,

Chcemy, aby nasze odpowiedzi były niezależne, aby linki nie działały negatywnie. Czy uważasz, że możesz nieco rozwinąć swoją odpowiedź, aby podsumować, co według ciebie było kluczowymi punktami jej treści, które są istotne dla tego pytania? W przeciwnym razie jest to bardziej odpowiednie dla komentarza niż odpowiedzi. (Doceniam to, że nie masz jeszcze wystarczającej reputacji, aby publikować komentarze, ale możemy ją przekształcić w jedną dla Ciebie.)

— Silverfish,

Dzięki za odpowiedź! Oto, co mówią (Davydenko i Fildes, 2016): Dopasowanie modelu statystycznego zwykle zapewnia optymalne prognozy przy stratach kwadratowych. Dzieje się tak np. Wtedy, gdy dopasowujemy regresję liniową. Jeśli nasza prognoza gęstości z modelowania statystycznego jest symetryczna, wówczas prognozy optymalne dla straty kwadratowej są również optymalne dla straty liniowej. Ale jeśli ustabilizujemy wariancję za pomocą przekształceń logarytmicznych, a następnie przekształcimy prognozy wsteczne przez potęgowanie, otrzymamy prognozy optymalne tylko przy stracie liniowej.

— Turbofly,

Dzięki! Możesz edytować te informacje w swojej odpowiedzi (przycisk „edytuj” znajduje się na dole wpisu).

— Silverfish,

Wielkie dzięki. Dokonałem formatowania i przytoczyłem pełne cytowanie.

— Silverfish

$RMSE = \sqrt{MSE}$ $MAE = MAD$

Tak właściwie,

$MAE \leq RMSE \leq \sqrt{n} MAE$

$e$
$RMSE = \sqrt{\frac{1}{n} \sum e_i^2} = \sqrt{\frac{1}{n} n e^2} = e = MAE$
$e$
$MAE = \frac{e}{n}$
$RMSE = \sqrt{\frac{1}{n} \sum e_i^2} = \sqrt{\frac{1}{n} e^2} = \sqrt{\frac{1}{n} (n MAE)^2} = \sqrt{n} MAE$

$MAE \leq RMSE \leq \sqrt{MAE}$ for classification with partial class memberships $y_i$ and/or $\hat y_i$ are $\in [0, 1]$ -- i.e. they can actually take values in between 0 and 1).

upper bound: here, $e_i$ is $\leq 1$ , so
$MAE = \frac{n_{wrong}}{n}$
$RMSE = \sqrt{\frac{1}{n} \sum e_i^2} = \sqrt{\frac{1}{n} n_{wrong}} = \sqrt{MAE}$
(This upper bound occurs for integer $n_{wrong}$ , if you go for partial/fractional class membership and thus also for $e_i \in [0, 1]$ , things get a bit more complicated because you need to take into account that the maximum possible error can be less than 1, and you may have a "leftover" $e_i < 1$ which both lower the upper bound a bit further.)

If the RMSE is close the MAE, you have many small deviations, if it is close to its upper bound, there are few grossly wrong predictions.

— cbeleites supports Monica
źródło

do you mean sqrt(n)*MAE or sqrt(n*MAE) as an upper bound?

— Chris

@Chris: it is sqrt (n) * MAE, see my edit.

— cbeleites supports Monica