musisz poradzić sobie z nierównowagą klas, jeśli / ponieważ poprawia to Twój model (w przypadku niewidocznych danych) „Lepsze” to coś, co musisz sam zdefiniować. Może to być dokładność, może to być koszt, może to być prawdziwa stopa dodatnia itp.
Istnieje subtelny niuans, który należy zrozumieć, gdy mówi się o braku równowagi klasowej. Mianowicie, czy twoje dane są niezrównoważone, ponieważ:
- sam rozkład danych jest niezrównoważony
W niektórych przypadkach jedna klasa występuje znacznie częściej niż inna. I jest w porządku. W takim przypadku musisz sprawdzić, czy niektóre błędy są droższe niż inne. Jest to typowy przykład wykrywania śmiertelnych chorób u pacjentów, sprawdzania, czy ktoś jest terrorystą itp. Wraca do krótkiej odpowiedzi. Jeśli niektóre błędy są bardziej kosztowne niż inne, będziesz chciał je „ukarać”, zwiększając ich koszty. Dlatego lepszy model będzie miał niższy koszt. Jeśli wszystkie błędy są tak złe, nie ma prawdziwego powodu, dla którego warto stosować modele wrażliwe na koszty.
Należy również zauważyć, że stosowanie modeli wrażliwych na koszty nie jest specyficzne dla niezrównoważonych zestawów danych. Możesz używać takich modeli, jeśli twoje dane są również idealnie zrównoważone.
- nie reprezentuje prawdziwego rozkładu danych
Czasami twoje dane są „niezrównoważone”, ponieważ nie reprezentują prawdziwego rozkładu danych. W takim przypadku musisz zachować ostrożność, ponieważ masz „zbyt wiele” przykładów jednej klasy i „zbyt mało” drugiej, a zatem musisz upewnić się, że Twój model nie jest nadmiernie / słabo na jednej z tych klas.
Różni się to od korzystania z kosztów, ponieważ może nie być tak, że jeden błąd jest gorszy od drugiego. To, co by się stało, byłoby stronnicze i nie byłoby korzystne dla twojego modelu, gdyby niewidzialne dane nie miały takiego samego rozkładu jak dane, na których trenowałeś.
Powiedzmy, że podaję dane treningowe, a Twoim celem jest odgadnięcie, czy coś jest czerwone, czy niebieskie. To, czy pomylisz kolor niebieski z czerwonym, czy czerwony z niebieskim, nie ma większego znaczenia. Twoje dane treningowe zawierają 90% czerwonych wystąpień, podczas gdy w prawdziwym życiu zdarzają się tylko w 10% przypadków. Musisz sobie z tym poradzić, aby ulepszyć swój model.