Jest to ogólnie pytanie, które nie jest specyficzne dla żadnej metody ani zestawu danych. Jak radzimy sobie z problemem nierównowagi klas w uczeniu maszynowym nadzorowanym, w którym liczba 0 wynosi około 90%, a liczba 1 wynosi około 10% w zbiorze danych. Jak optymalnie szkolimy klasyfikatora.
Jednym ze sposobów, które stosuję, jest próbkowanie w celu zrównoważenia zestawu danych, a następnie szkolenie klasyfikatora i powtórzenie tego dla wielu próbek.
Wydaje mi się, że jest to przypadkowe. Czy istnieją ramy pozwalające podejść do tego rodzaju problemów?