Mam duży zestaw danych składający się z wartości kilkuset zmiennych finansowych, które można by zastosować w regresji wielokrotnej do przewidywania zachowania funduszu indeksowego w czasie. Chciałbym zmniejszyć liczbę zmiennych do około dziesięciu, jednocześnie zachowując jak największą moc predykcyjną. Dodano: Zredukowany zestaw zmiennych musi być podzbiorem oryginalnego zestawu zmiennych, aby zachować ekonomiczne znaczenie oryginalnych zmiennych. Tak więc na przykład nie powinienem kończyć liniowymi kombinacjami lub agregacjami oryginalnych zmiennych.
Niektóre (prawdopodobnie naiwne) przemyślenia, jak to zrobić:
- Wykonaj prostą regresję liniową dla każdej zmiennej i wybierz dziesięć z największą wartości. Oczywiście nie ma gwarancji, że dziesięć najlepszych indywidualnych zmiennych łącznie będzie najlepszą grupą dziesięciu.
- Przeprowadź analizę głównych składników i spróbuj znaleźć dziesięć oryginalnych zmiennych o największych powiązaniach z pierwszymi kilkoma głównymi osiami.
Nie sądzę, żebym mógł przeprowadzić regresję hierarchiczną, ponieważ zmienne nie są tak naprawdę zagnieżdżone. Wypróbowanie wszystkich możliwych kombinacji dziesięciu zmiennych jest niewykonalne obliczeniowo, ponieważ istnieje zbyt wiele kombinacji.
Czy istnieje standardowe podejście do rozwiązania tego problemu zmniejszenia liczby zmiennych w regresji wielokrotnej?
Wydaje się, że byłby to wystarczająco powszechny problem, że byłoby standardowe podejście.
Bardzo pomocna odpowiedź byłaby taka, która nie tylko wspomina o standardowej metodzie, ale także daje przegląd tego, jak i dlaczego to działa. Alternatywnie, jeśli nie ma jednego standardowego podejścia, a raczej wielu z różnymi mocnymi i słabymi stronami, bardzo pomocną odpowiedzią byłoby takie, które omawia ich zalety i wady.
komentarz Whubera poniżej wskazuje, że wniosek w ostatnim akapicie jest zbyt szeroki. Zamiast tego przyjąłbym jako dobrą odpowiedź listę głównych podejść, być może z bardzo krótkim opisem każdego z nich. Po uzyskaniu warunków mogę samodzielnie wyodrębnić szczegóły każdego z nich.