Mam wysoce niezrównoważony zestaw danych testowych. Zestaw dodatni składa się ze 100 przypadków, a zestaw ujemny składa się z 1500 przypadków. Po stronie treningowej mam większą pulę kandydatów: pozytywny zestaw treningowy ma 1200 przypadków, a negatywny zestaw treningowy ma 12000 przypadków. W przypadku tego rodzaju scenariusza mam kilka możliwości:
1) Korzystanie z ważonej SVM dla całego zestawu treningowego (P: 1200, N: 12000)
2) Używając SVM na podstawie próbnego zestawu treningowego (P: 1200, N: 1200), 1200 przypadków negatywnych jest próbkowanych z 12000 przypadków.
Czy istnieją jakieś teoretyczne wskazówki dotyczące decydowania, które podejście jest lepsze? Ponieważ zestaw danych testowych jest wysoce niezrównoważony, czy powinienem również korzystać z zestawu danych niezrównoważonych?