Mam bardzo stronniczy zestaw danych binarnych - mam 1000 razy więcej przykładów klasy ujemnej niż pozytywnej. Chciałbym trenować zespół drzew (na przykład Extra Random Trees lub A Random Forest) na tych danych, ale trudno jest utworzyć zestawy danych szkoleniowych, które zawierają wystarczającą liczbę przykładów pozytywnej klasy.
Jakie byłyby konsekwencje zastosowania warstwowego podejścia do próbkowania w celu normalizacji liczby pozytywnych i negatywnych przykładów? Innymi słowy, czy złym pomysłem jest na przykład sztuczne zawyżanie (poprzez ponowne próbkowanie) liczby pozytywnych przykładów klas w zestawie szkoleniowym?