Mam wykształcenie informatyczne, ale staram się uczyć danych, rozwiązując problemy w Internecie.
Pracowałem nad tym problemem przez ostatnie kilka tygodni (około 900 wierszy i 10 funkcji). Początkowo korzystałem z regresji logistycznej, ale teraz przerzuciłem się na losowe lasy. Kiedy uruchamiam mój przypadkowy model lasu na danych treningowych, otrzymuję naprawdę wysokie wartości dla auc (> 99%). Jednak gdy uruchamiam ten sam model na danych testowych, wyniki nie są tak dobre (dokładność około 77%). To prowadzi mnie do przekonania, że przesadzam z danymi treningowymi.
Jakie są najlepsze praktyki dotyczące zapobiegania nadmiernemu dopasowaniu w losowych lasach?
Używam r i rstudio jako mojego środowiska programistycznego. Korzystam z randomForest
pakietu i zaakceptowałem wartości domyślne dla wszystkich parametrów