Próbuję przewidzieć przy użyciu losowego modelu lasu w R.
Jednak dostaję błędy, ponieważ niektóre czynniki mają inne wartości w zestawie testowym niż w zestawie treningowym. Na przykład czynnik Cat_2
ma wartości 34, 68, 76
itp. W zestawie testowym, które nie pojawiają się w zestawie szkoleniowym. Niestety nie mam kontroli nad zestawem testowym ... muszę go używać tak, jak jest.
Moim jedynym obejściem było przekonwertowanie problematycznych czynników z powrotem na wartości liczbowe przy użyciu as.numeric()
. To działa , ale nie jestem bardzo zadowolony, ponieważ wartości te są kody, które nie mają sensu liczbowej ...
Czy uważasz, że byłoby inne rozwiązanie, aby usunąć nowe wartości z zestawu testowego? Ale bez usuwania wszystkich innych wartości czynników (powiedzmy wartości 1, 2, 14, 32
itp.), Które są zarówno w trakcie szkolenia, jak i testu, i zawierają informacje potencjalnie przydatne do prognoz.