W ostatnim dobrze odebranym pytaniu Tim pyta, kiedy niezrównoważone dane naprawdę stanowią problem w uczeniu maszynowym ? Przesłanka tego pytania polega na tym, że istnieje wiele literatury dotyczącej uczenia maszynowego, która omawia równowagę klas i problem niezrównoważonych klas . Chodzi o to, że zestawy danych z nierównowagą między klasą dodatnią i ujemną powodują problemy dla niektórych algorytmów klasyfikacji uczenia maszynowego (w tym tutaj modeli probabilistycznych) i należy szukać metod „równoważenia” zestawu danych, przywracając idealne 50/50 podział na klasy dodatnie i ujemne.
Ogólny sens tych głosowanych odpowiedzi jest taki, że „tak nie jest, przynajmniej jeśli jesteś rozważny w swoim modelowaniu”. M. Henry L., w głosowaniu w głosowaniu na przyjętą odpowiedź, stwierdza
[...] nie ma problemu niskiego poziomu z wykorzystaniem niezrównoważonych danych. Z mojego doświadczenia wynika, że rada „unikania niezrównoważonych danych” dotyczy albo algorytmu, albo odziedziczonej mądrości. Zgadzam się z AdamO, że ogólnie niezrównoważone dane nie stanowią problemu koncepcyjnego dla dokładnie określonego modelu.
AdamO twierdzi, że „problem” z równowagą klas jest tak naprawdę rzadkością klasową
Dlatego przynajmniej w regresji (ale podejrzewam we wszystkich okolicznościach), jedynym problemem związanym z niezrównoważonymi danymi jest to, że skutecznie masz małą próbkę. Jeśli jakakolwiek metoda jest odpowiednia dla liczby osób w rzadszej klasie, nie powinno być problemu, jeśli proporcja członków nie jest zrównoważona.
Jeśli jest to prawdziwy problem, pozostawia otwarte pytanie: jaki jest cel wszystkich metod ponownego próbkowania mających na celu zbilansowanie zestawu danych: oversampling, undersampling, SMOTE itp.? Najwyraźniej nie rozwiązują problemu niejawnego posiadania małej próbki, nie można tworzyć informacji z niczego!