podejścia szkoleniowe dla wysoce niezrównoważonego zestawu danych

16

Mam wysoce niezrównoważony zestaw danych testowych. Zestaw dodatni składa się ze 100 przypadków, a zestaw ujemny składa się z 1500 przypadków. Po stronie treningowej mam większą pulę kandydatów: pozytywny zestaw treningowy ma 1200 przypadków, a negatywny zestaw treningowy ma 12000 przypadków. W przypadku tego rodzaju scenariusza mam kilka możliwości:

1) Korzystanie z ważonej SVM dla całego zestawu treningowego (P: 1200, N: 12000)

2) Używając SVM na podstawie próbnego zestawu treningowego (P: 1200, N: 1200), 1200 przypadków negatywnych jest próbkowanych z 12000 przypadków.

Czy istnieją jakieś teoretyczne wskazówki dotyczące decydowania, które podejście jest lepsze? Ponieważ zestaw danych testowych jest wysoce niezrównoważony, czy powinienem również korzystać z zestawu danych niezrównoważonych?

— pytanie bitowe
źródło

1

sprawdź następujące pytania: Nadzorowane uczenie się z „rzadkimi” zdarzeniami i Najlepszy sposób obsługi niezbilansowanego zestawu danych wieloklasowych za pomocą SVM . Czy to pomaga ? Szczerze mówiąc, twoje pytania brzmią raczej podobnie;).

— steffen

7

Z ostatniego postu na reddit interesująca będzie odpowiedź datapraxis .

edycja: wspomniany artykuł to Haibo He, Edwardo A. Garcia, „Learning from Imbalanced Data”, IEEE Transactions on Knowledge and Data Engineering, str. 1263-1284, wrzesień 2009 (PDF)

— użytkownik728785
źródło

0

Rozszerzona regresja logistyczna parowana, uczenie się oparte na ROC, przyspieszanie i tworzenie worków (agregacja Bootstrap), klastrowy zespół klastrowy (LCE), sieć Bayesian, najbliższe klasyfikatory centroidów, techniki bayesowskie, zbiór ważony szorstki, k-NN

oraz wiele metod próbkowania w celu radzenia sobie z nierównowagą.

— Vladimir Chupakhin
źródło