Mam problem z klasyfikacją około 1000 pozytywnych i 10000 negatywnych próbek w zestawie treningowym. Tak więc ten zestaw danych jest dość niezrównoważony. Zwykły losowy las próbuje tylko oznaczyć wszystkie próbki testowe jako klasę większości.
Oto kilka dobrych odpowiedzi na temat podpróbkowania i ważonego losowego lasu: Jakie są implikacje dla szkolenia zespołu drzew z bardzo stronniczymi zestawami danych?
Jakie metody klasyfikacji oprócz RF mogą najlepiej poradzić sobie z problemem?