Myślę, że podpróbkowanie (próbkowanie w dół) jest popularną metodą kontrolowania nierównowagi klas na poziomie podstawowym, co oznacza, że naprawia źródło problemu. Tak więc dla wszystkich twoich przykładów losowe wybranie 1000 z większości klas za każdym razem zadziałałoby. Możesz nawet pobawić się tworzeniem 10 modeli (10 krotności 1.000 większości w porównaniu z 1.000 mniejszością), dzięki czemu będziesz korzystać z całego zestawu danych. Możesz użyć tej metody, ale znowu wyrzucasz 9 000 próbek, chyba że wypróbujesz kilka metod łączenia. Łatwa naprawa, ale trudne do uzyskania optymalnego modelu na podstawie danych.
Stopień, w jakim musisz kontrolować nierównowagę klas, zależy w dużej mierze od twojego celu. Jeśli zależy ci na czystej klasyfikacji, wówczas nierównowaga wpłynie na 50% prawdopodobieństwo odcięcia dla większości technik, więc rozważę zmniejszenie próbkowania. Jeśli zależy ci tylko na kolejności klasyfikacji (chcesz, aby dodatnie wartości były ogólnie wyższe niż ujemne) i zastosujesz miarę, taką jak AUC, nierównowaga klasowa będzie jedynie wpływać na twoje prawdopodobieństwo, ale względna kolejność powinna być przyzwoicie stabilna dla większości technik.
Regresja logistyczna jest korzystna dla nierównowagi klas, ponieważ dopóki masz> 500 klasy mniejszości, oszacowania parametrów będą wystarczająco dokładne, a jedyny wpływ będzie na przechwycenie, które można skorygować, jeśli jest to coś, co możesz chcieć. Regresja logistyczna modeluje prawdopodobieństwa, a nie tylko klasy, dzięki czemu można wykonać więcej ręcznych dostosowań w zależności od potrzeb.
Wiele technik klasyfikacji ma również argument wagi klasowej, który pomoże ci bardziej skoncentrować się na klasie mniejszości. Będzie karać za błędną klasyfikację prawdziwej klasy mniejszości, więc twoja ogólna akumulacja nieco ucierpi, ale zaczniesz widzieć więcej klas mniejszości, które są poprawnie sklasyfikowane.