Losowy las na zgrupowanych danych

11

Używam losowego lasu na wielowymiarowych zgrupowanych danych (50 liczbowych zmiennych wejściowych), które mają strukturę hierachiczną. Dane zebrano przy 6 replikacjach w 30 pozycjach 70 różnych obiektów, co dało 12600 punktów danych, które nie są niezależne.

Wygląda na to, że losowy las przesadza z danymi, ponieważ błąd OOB jest znacznie mniejszy niż błąd, który otrzymujemy, gdy zostawiamy dane z jednego obiektu podczas treningu, a następnie przewidujemy wynik pominiętego obiektu z wyszkolonym losowym lasem. Ponadto skorelowałem reszty.

Myślę, że przeregulowanie jest spowodowane, ponieważ losowy las oczekuje niezależnych danych. Czy można powiedzieć losowemu lasowi o hierarchicznej strukturze danych? A może istnieje inna potężna metoda łączenia lub zmniejszania, która może obsługiwać zgrupowane dane o dużych wymiarach i silnej strukturze interakcji?

Jakaś wskazówka, jak mogę zrobić lepiej?

regression random-forest

— Beate
źródło

Jaka jest natura danych hierarchicznych? Czy pozwala to na wykorzystanie liści danych jako punktów danych?

— casperOne

1

Czy rozważałeś ładowanie na najwyższym poziomie hierarchii, a nie pojedynczej osoby?

— generic_user

1

Bardzo późno na imprezę, ale myślę, że może to mieć związek z czymś, co zrobiłem kilka lat temu. Ta praca została opublikowana tutaj:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

i dotyczy radzenia sobie ze zmienną korelacją w zbiorze drzew decyzyjnych. Powinieneś rzucić okiem na bibliografię, która wskazuje na wiele propozycji rozwiązania tego rodzaju problemów (co jest powszechne w obszarze „genetycznym”).

Kod źródłowy jest dostępny tutaj (ale tak naprawdę nie jest już utrzymywany).

— 0asa
źródło

-1

Nadmierne dopasowanie losowego lasu może być spowodowane z różnych przyczyn i zależy w dużym stopniu od parametrów RF. W swoim poście nie jest jasne, jak dostroiłeś RF.

Oto kilka wskazówek, które mogą pomóc:

Zwiększ liczbę drzew
Dostrój maksymalną głębokość drzew. Ten parametr w dużym stopniu zależy od rodzaju problemu. Korzystanie z mniejszych drzew może pomóc w problemach z przeregulowaniem.

— Bella Fadida
źródło

2

Bardzo późno na imprezę, ale ta odpowiedź nie rozwiąże żadnych problemów ze względu na hierarchiczny charakter zbioru danych.

— cbeleites niezadowoleni z SX