Często buduję model (klasyfikację lub regresję), w którym mam pewne zmienne predykcyjne, które są sekwencjami, i staram się znaleźć zalecenia dotyczące techniki, aby je podsumować w najlepszy możliwy sposób, aby można je było włączyć do modelu jako predyktory.
Jako konkretny przykład, powiedzmy, że budowany jest model przewidujący, czy klient odejdzie z firmy w ciągu następnych 90 dni (w dowolnym czasie od t do t + 90, a więc wynik binarny). Jednym z dostępnych predyktorów jest poziom salda finansowego klientów za okresy od t_0 do t-1. Może reprezentuje to miesięczne obserwacje z poprzednich 12 miesięcy (tj. 12 pomiarów).
Szukam sposobów na konstruowanie funkcji z tej serii. Używam opisów każdej serii klientów, takich jak średnia, wysoka, niska, standardowe odchylenie, pasuje do regresji OLS, aby uzyskać trend. Czy istnieją inne metody obliczania cech? Inne miary zmiany lub zmienności?
DODAJ:
Jak wspomniano w odpowiedzi poniżej, wziąłem również pod uwagę (ale zapomniałem tu dodać) użycie dynamicznego dopasowania czasu (DTW), a następnie hierarchiczne grupowanie na wynikowej macierzy odległości - tworząc pewną liczbę klastrów, a następnie używając członkostwa w klastrze jako funkcji. Punktacja danych testowych prawdopodobnie musiałaby przebiegać zgodnie z procesem, w którym DTW przeprowadzono dla nowych przypadków i centrów klastrów - dopasowując nowe serie danych do ich najbliższych centroidów ...