Pracuję nad zadaniem domowym, w którym mój profesor chciałby, abyśmy stworzyli prawdziwy model regresji, symulowali próbkę danych, a on spróbuje znaleźć nasz prawdziwy model regresji, korzystając z niektórych technik, których nauczyliśmy się w klasie. My również będziemy musieli zrobić to samo z zestawem danych, który nam dał.
Mówi, że był w stanie stworzyć całkiem dokładny model dla wszystkich poprzednich prób spróbowania go oszukać. Niektórzy studenci tworzą jakiś szalony model, ale prawdopodobnie był w stanie stworzyć prostszy model, który był po prostu wystarczający.
Jak mogę opracować dla niego trudny model? Nie chcę być super tani, wykonując 4 warunki kwadratowe, 3 obserwacje i ogromną wariancję? Jak mogę stworzyć pozornie nieszkodliwy zestaw danych, który ma pod nim twardy model?
Po prostu musi przestrzegać 3 zasad:
Twój zestaw danych musi mieć jedną zmienną „Y” i 20 zmiennych „X” oznaczonych jako „Y”, „X1”, ..., „X20”.
Twoja zmienna odpowiedzi musi pochodzić z modelu regresji liniowej, który spełnia: gdzie i .
ϵ i ∼ N ( 0 , σ 2 ) p ≤ 21Wszystkie zmienne które zostały użyte do utworzenia są zawarte w zbiorze danych.Y
Należy zauważyć, że nie wszystkie 20 zmiennych X musi znajdować się w rzeczywistym modelu
Myślałem o użyciu czegoś takiego jak Fama-French 3 Factor Model i zmuszeniu go, by zaczął od danych giełdowych (SPX i AAPL) i musiałem przekształcić te zmienne w stale złożone zwroty, aby nieco je zaciemnić. Ale to pozostawia mi brakujące wartości w pierwszej obserwacji i jej szeregach czasowych (o których jeszcze nie rozmawialiśmy w klasie).
Nie jestem pewien, czy jest to właściwe miejsce do publikowania czegoś takiego. Czułem, że może to wygenerować dobrą dyskusję.
Edycja: Nie pytam też w szczególności o „gotowe” modele. Jestem bardziej ciekawy tematów / narzędzi w statystykach, które pozwolą komuś o tym poradzić.