Używam losowego lasu na wielowymiarowych zgrupowanych danych (50 liczbowych zmiennych wejściowych), które mają strukturę hierachiczną. Dane zebrano przy 6 replikacjach w 30 pozycjach 70 różnych obiektów, co dało 12600 punktów danych, które nie są niezależne.
Wygląda na to, że losowy las przesadza z danymi, ponieważ błąd OOB jest znacznie mniejszy niż błąd, który otrzymujemy, gdy zostawiamy dane z jednego obiektu podczas treningu, a następnie przewidujemy wynik pominiętego obiektu z wyszkolonym losowym lasem. Ponadto skorelowałem reszty.
Myślę, że przeregulowanie jest spowodowane, ponieważ losowy las oczekuje niezależnych danych. Czy można powiedzieć losowemu lasowi o hierarchicznej strukturze danych? A może istnieje inna potężna metoda łączenia lub zmniejszania, która może obsługiwać zgrupowane dane o dużych wymiarach i silnej strukturze interakcji?
Jakaś wskazówka, jak mogę zrobić lepiej?