Jak przypisać większą wagę do najnowszych obserwacji w R?
Zakładam, że jest to często zadawane pytanie lub pragnienie, ale trudno mi dokładnie wymyślić, jak to zrealizować. Próbowałem znaleźć wiele, ale nie jestem w stanie znaleźć dobrego praktycznego przykładu.
W moim przykładzie z czasem miałbym duży zestaw danych. Chcę powiedzieć, że zastosuj jakiś wykładniczy ważenie wierszy danych, które są nowsze. Miałbym więc jakąś funkcję wykładniczą, mówiąc, że obserwacje w 2015 roku są ___ ważniejsze dla szkolenia modelu niż obserwacje w 2012 roku.
Moje zmienne zestawu danych zawierają połączenie wartości kategorycznych i liczbowych, a moim celem jest wartość liczbowa - jeśli to ma znaczenie.
Chciałbym przetestować / wypróbować to przy użyciu modeli takich jak GBM / Random Forest, najlepiej w pakiecie CARET.
pytanie o aktualizację
Doceniam odpowiedź podaną poniżej na temat wykładniczego rozkładu masy według odległości daty między dwoma punktami.
Jeśli jednak chodzi o szkolenie tego modelu w karetce, w jaki sposób uwzględniane są wagi? Wartość masy w każdym rzędzie treningowym to odległość między pewnym punktem w przyszłości a momentem, w którym ten punkt miał miejsce w przeszłości.
Czy odważniki wchodzą w grę tylko podczas prognozy? Bo jeśli wejdą w grę podczas treningu, czy nie spowodowałoby to różnego rodzaju problemów, ponieważ różne krzyżówki miałyby różne ciężary, próbując przewidzieć coś, co może mieć w danym momencie wcześniej?