Mam kilka modeli predykcyjnych, których wydajność chciałbym przetestować ponownie (tj. Zabrać mój zestaw danych, „przewinąć” go do poprzedniego momentu i zobaczyć, jak ten model działałby prospektywnie).
Problem polega na tym, że niektóre z moich modeli zostały zbudowane w procesie interaktywnym. Na przykład, zgodnie z zaleceniami Strategii modelowania regresji Franka Harrella , w jednym modelu użyłem ograniczonych sześciennych splajnów, aby obsłużyć możliwe nieliniowe powiązania między cechami a odpowiedzią. Przydzieliłem stopnie swobody każdego splajnu w oparciu o połączenie wiedzy dziedzinowej i jednowymiarowych miar siły asocjacji. Ale stopnie swobody, na które chcę pozwolić mojemu modelowi, oczywiście zależą od wielkości zestawu danych, który różni się dramatycznie podczas testowania wstecznego. Jeśli nie chcę ręcznie wybierać stopni swobody osobno dla każdego testu, w którym model jest testowany, jakie są inne opcje?
Dla innego przykładu, obecnie pracuję nad wykrywaniem wartości odstających poprzez znajdowanie punktów o dużej dźwigni. Gdybym był szczęśliwy, mogąc to zrobić ręcznie, po prostu spojrzałbym na każdy punkt danych o dużej dźwigni, sprawdzał poczytalność, czy dane są czyste, i albo je odfiltrowałem, albo wyczyściłem ręcznie. Ale zależy to od wiedzy z zakresu domen, więc nie wiem, jak zautomatyzować ten proces.
Byłbym wdzięczny za porady i rozwiązania zarówno (a) dotyczące ogólnego problemu automatyzacji interaktywnych części procesu budowania modelu, lub (b) szczegółowe porady dotyczące tych dwóch przypadków. Dzięki!