Załóżmy, że mam panel zmiennych objaśniających , dla , , a także wektor zmiennych zależnych od wyniku binarnego . Zatem obserwuje się tylko w czasie końcowym a nie w żadnym wcześniejszym czasie. Całkowicie ogólnym przypadkiem jest wielokrotność dla dla każdej jednostki w każdym czasie , ale skupmy się na przypadku dla zwięzłości. i = 1 . . . N t = 1 . . . T Y i T Y T X i j t j = 1 ... K i t K = 1
Zastosowaniami takich „niezrównoważonych” par z tymczasowymi zmiennymi objaśniającymi są np. (Dzienne ceny akcji, dywidendy kwartalne), (dzienne prognozy pogody, coroczne huragany) lub (cechy pozycji szachowej po każdym ruchu, wynik wygranej / przegranej w koniec gry).
Jestem zainteresowany w (ewentualnie nieliniowej) współczynników regresji za to prognozy z , wiedząc, że w danych treningowych, biorąc pod uwagę wcześniejsze obserwacje dla , prowadzi do ostatecznego wynikuY i t X i t t < T Y i T
Pochodząc z tła ekonometrycznego, nie widziałem wielu modeli regresji zastosowanych do takich danych. OTOH, widziałem następujące techniki uczenia maszynowego stosowane do takich danych:
- robi nadzorowanego uczenia się na całego zestawu danych, np minimalizacja
po prostu ekstrapolując / przypisując obserwowane do wszystkich poprzednich punktów w czasie
Wydaje się to „niewłaściwe”, ponieważ nie uwzględni czasowej korelacji między różnymi punktami w czasie.
- robienie uczenia wzmacniającego, takiego jak różnica czasowa z parametrem uczenia i parametrem dyskontowym , i rekurencyjne rozwiązywanie dla poprzez propagację zaczynając odλ β t t = T
with gradient względem . f ( ) β
Wydaje się to bardziej „poprawne”, ponieważ uwzględnia strukturę czasową, ale parametry i są swego rodzaju „ad hoc”.λ
Pytanie : czy istnieje literatura na temat sposobu mapowania powyższych nadzorowanych / uczących się technik uczenia się w ramy regresji stosowane w statystyce klasycznej / ekonometrii? W szczególności chciałbym być w stanie oszacować parametry w „jednym przejściu” (tj. Dla wszystkich jednocześnie), wykonując (nieliniowe) najmniejsze kwadraty lub maksymalne prawdopodobieństwo w modelach takich jak t = 1 ... T
Chciałbym również dowiedzieć się, czy meta-parametry uczące się różnicy czasowej i można odzyskać z formuły o najwyższym prawdopodobieństwie.λ