Moim zadaniem „uczenia maszynowego” jest oddzielanie łagodnego ruchu internetowego od ruchu złośliwego. W scenariuszu realnym większość (powiedzmy 90% lub więcej) ruchu internetowego jest łagodna. Dlatego czułem, że powinienem również wybrać podobną konfigurację danych do szkolenia moich modeli. Ale natknąłem się na jeden lub dwa artykuły badawcze (w mojej dziedzinie pracy), które wykorzystywały podejście „równoważenia klas” do szkolenia modeli, sugerując taką samą liczbę przypadków łagodnego i złośliwego ruchu.
Ogólnie, jeśli buduję modele uczenia maszynowego, powinienem wybrać zestaw danych, który jest reprezentatywny dla rzeczywistego problemu, lub jest zbalansowanym zestawem danych, który lepiej nadaje się do budowy modeli (ponieważ niektóre klasyfikatory nie zachowują się dobrze w przypadku nierównowagi klas lub z innych nieznanych mi powodów)?
Czy ktoś może rzucić więcej światła na zalety i wady obu wyborów i jak zdecydować, który wybrać?