Różnica między prognozami „w próbie” i „pseudo poza próbą”


Odpowiedzi:


18

Załóżmy, że masz dane {Yt,Xth}t=h+1T , gdzie h{1,2,}, a Twoim celem jest zbudowanie modelu (powiedzmy , f^(Xth) ), aby przewidzieć Yt biorąc pod uwagę Xth . Dla konkretności załóżmy, że dane są codzienne, a T odpowiada dzisiejszemu.

Analiza w próbie oznacza oszacowanie modelu przy użyciu wszystkich dostępnych danych do T włącznie T, a następnie porównanie dopasowanych wartości modelu z rzeczywistymi realizacjami. Jednak wiadomo, że ta procedura rysuje zbyt optymistyczny obraz zdolności prognozowania modelu, ponieważ popularne algorytmy dopasowania (np. Wykorzystujące błąd kwadratu lub kryteria prawdopodobieństwa) zwykle starają się uniknąć dużych błędów prognozowania, a zatem są podatne na nadmierne dopasowanie - pomyłkowy hałas dla sygnału w danych.

Prawdziwą analizą poza próbą byłoby oszacowanie modelu na podstawie danych do dnia dzisiejszego, zbudowanie prognozy wartości jutra , poczekanie do jutra, zapisanie błędu prognozy ponownie oszacuj model, stwórz nową prognozę i tak dalej. Na koniec tego ćwiczenia można by uzyskać próbkę błędów prognozy które byłyby naprawdę poza próbą i dałyby bardzo realistyczny obraz wydajność modelu. e TYT+1 Y , T + 2 { e T + l } L L = 1eT+1YT+1f^(XT+1h),YT+2{eT+l}l=1L

Ponieważ ta procedura jest bardzo czasochłonna, ludzie często uciekają się do analizy „pseudo” lub „symulowanej” poza próbą, co oznacza naśladowanie procedury opisanej w ostatnim akapicie, przy użyciu raczej historycznej daty , raczej niż dzisiejsza data , jako punkt początkowy. Wynikające z tego błędy prognozowania są następnie wykorzystywane do oszacowania zdolności prognozowania modelu poza próbą.T { e t } T t = T 0 + 1T0<TT{et}t=T0+1T

Zauważ, że analiza pseudo poza próbą nie jest jedynym sposobem na oszacowanie wydajności modelu poza próbą. Alternatywy obejmują walidację krzyżową i kryteria informacyjne.

Bardzo dobre omówienie wszystkich tych zagadnień znajduje się w rozdziale 7

http://www.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf


3
Link PDF nie działa, ale wydaje się być bezpłatną książką online Tibshirani „Elementy uczenia statystycznego: eksploracja danych, wnioskowanie i przewidywanie”
Oleg Melnikov
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.