Tworzenie niezrównoważonego zestawu danych


11

Chciałbym przetestować mój wyszkolony model na niezrównoważonym zbiorze danych. Czy są dostępne algorytmy do generowania danych syntetycznych ze zbilansowanego zbioru danych (spam / nie spam)?


Zawsze możesz przywrócić równowagę dowolnego zestawu danych, po prostu próbkując jedną klasę.
user2974951,

Odpowiedzi:


8

Wypróbuj SMOTE , który jest algorytmem używanym do nadmiernego próbkowania. Tworzy próbki syntetyczne z klasy, którą chcesz przesadzić z próbkami.

Możesz użyć tego do stworzenia dowolnej liczby potrzebnych próbek.


1
czy SMOTE może być również stosowany do niedostatecznego próbkowania?
Stuart Peterson,

Cóż, można uzyskać podpróbkowanie klasy A przez oversampling klasy notA ...
kjetil b halvorsen

3
@StuartPeterson Nie, SMOTE jest algorytmem nadmiernego próbkowania, ale istnieje wiele innych algorytmów
niepełnego
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.