Stosuję algorytm losowego lasu jako klasyfikator w zestawie danych mikromacierzy, które są podzielone na dwie znane grupy z tysiącami funkcji. Po pierwszym uruchomieniu sprawdzam znaczenie funkcji i ponownie uruchamiam algorytm drzewa z 5, 10 i 20 najważniejszymi funkcjami. Uważam, że dla wszystkich funkcji, w pierwszej dziesiątce i 20, szacowany przez OOB poziom błędu wynosi 1,19%, podczas gdy w przypadku 5 najlepszych funkcji wynosi 0%. Wydaje mi się to sprzeczne z intuicją, więc zastanawiałem się, czy możesz wyjaśnić, czy czegoś mi brakuje, czy używam niewłaściwych danych.
I za pomocą pakietu randomForest w R z ntree = 1000, nodesize = 1 i mtry = sqrt (n)