Mieliśmy już wiele pytań na temat niezrównoważonych danych podczas korzystania z regresji logistycznej , SVM , drzew decyzyjnych , tworzenia worków i wielu innych podobnych pytań, co sprawia, że jest to bardzo popularny temat! Niestety, każde z pytań wydaje się być specyficzne dla algorytmu i nie znalazłem żadnych ogólnych wskazówek dotyczących postępowania z niezrównoważonymi danymi.
Cytując jedną z odpowiedzi Marca Claesena , dotyczącą niezrównoważonych danych
(...) w dużej mierze zależy od metody uczenia się. Większość podejść ogólnego przeznaczenia ma jeden (lub kilka) sposobów radzenia sobie z tym.
Ale kiedy dokładnie powinniśmy martwić się o niezrównoważone dane? Na jakie algorytmy ma to największy wpływ i które potrafią sobie z tym poradzić? Jakie algorytmy potrzebowałyby nas do zrównoważenia danych? Wiem, że omawianie każdego z algorytmów byłoby niemożliwe na takiej stronie pytań i odpowiedzi, raczej szukam ogólnych wskazówek, kiedy może to stanowić problem.