Trenuję model klasyfikacyjny z Random Forest, aby rozróżnić 6 kategorii. Moje dane transakcyjne zawierają około 60 000 obserwacji i 35 zmiennych. Oto przykład, jak to w przybliżeniu wygląda.
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
Po utworzeniu modelu chciałbym ocenić obserwacje z ostatnich kilku tygodni. Ponieważ nastąpiły zmiany w systemie, nowsze obserwacje będą bardziej przypominały środowisko obecnych obserwacji, które chciałbym przewidzieć. Dlatego chcę utworzyć zmienną wagi, aby Losowy Las przywiązywał większą wagę do ostatnich obserwacji.
Czy ktoś wie, czy pakiet randomForest w R jest w stanie obsłużyć wagi na obserwację?
Czy możesz również zasugerować, jaka jest dobra metoda tworzenia zmiennej wagi? Na przykład, ponieważ moje dane pochodzą z 2013 r., Pomyślałem, że mogę wziąć liczbę miesięcy od daty jako wagę. Czy ktoś widzi problem z tą metodą?
Z góry bardzo dziękuję!