Przede wszystkim chciałbym opisać niektóre popularne układy używane w książkach Data Mining, wyjaśniając, jak radzić sobie z niezrównoważonymi zestawami danych . Zwykle główna sekcja nosi nazwę Niezrównoważone zestawy danych i obejmują te dwie podsekcje: Klasyfikacja wrażliwa na koszty i Techniki pobierania próbek.
Wydaje się, że w obliczu problemu z rzadką klasą można przeprowadzić zarówno klasyfikację wrażliwą na koszty, jak i próbkowanie. Zamiast tego uważam, że należy zastosować techniki wrażliwe na koszty, jeśli rzadka klasa jest również celem klasyfikacji, a błędne zaklasyfikowanie zapisu tej klasy jest kosztowne.
Z drugiej strony, techniki próbkowania, takie jak nadmierne próbkowanie i niepełne próbkowanie, są przydatne, jeśli celem klasyfikacji jest ogólnie dobra dokładność, bez koncentrowania się na konkretnej klasie.
Przekonanie to wynika z uzasadnienia MetaCost, które jest ogólnym sposobem uczynienia klasyfikatora wrażliwym na koszty: jeśli ktoś chce uczynić klasyfikator wrażliwym na koszty, aby ukarać błąd błędnej klasyfikacji rzadkiej klasy, powinien przesadzić z drugą klasą . Z grubsza mówiąc, klasyfikator próbuje dostosować się do drugiej klasy i staje się specyficzny dla rzadkiej klasy.
Jest to przeciwieństwo nadmiernego próbkowania rzadkiej klasy, co jest zwykle sugerowanym sposobem radzenia sobie z tym problemem. Nadmierne pobieranie próbek z rzadkiej klasy lub niepełne pobieranie próbek z drugiej klasy jest przydatne do poprawy ogólnej dokładności.
Proszę, byłoby wspaniale, gdybyś potwierdził moje myśli.
Mówiąc to, częstym pytaniem dotyczącym niezrównoważonego zestawu danych jest:
Czy powinienem spróbować uzyskać zestaw danych, który zawiera tyle rzadkich rekordów, co inne?
Moja odpowiedź brzmi: jeśli szukasz dokładności: OK. Możesz to zrobić, znajdując rzadsze przykłady klas lub usuwając niektóre rekordy innej klasy.
Jeśli skupiasz się na rzadkiej klasie, stosując technikę wrażliwą na koszty, odpowiedziałbym: możesz znaleźć tylko rzadszy przykład klasy, ale nie powinieneś usuwać zapisów drugiej klasy. W tym drugim przypadku nie będzie można pozwolić klasyfikatorowi dostosować się do innej klasy, a błąd błędnej klasyfikacji rzadkiej klasy może wzrosnąć.
Co byś odpowiedział