Mam zestaw danych, który ma atrybut klasy binarnej. Istnieje 623 przypadki z klasą +1 (rak dodatni) i 101 671 przypadków z klasą -1 (rak ujemny).
Wypróbowałem różne algorytmy (Naive Bayes, Random Forest, AODE, C4.5) i wszystkie mają niedopuszczalne współczynniki fałszywie ujemnych. Losowy las ma najwyższą ogólną dokładność prognozowania (99,5%) i najniższy współczynnik fałszywych wyników ujemnych, ale wciąż nie trafia w 79% klas dodatnich (tj. Nie wykrywa 79% nowotworów złośliwych).
Jakieś pomysły, jak mogę poprawić tę sytuację?
Dzięki!