Chciałbym przeprowadzić kombinację nadpróbkowania i podpróbkowania, aby zrównoważyć mój zestaw danych z około 4000 klientami podzielonymi na dwie grupy, gdzie jedna z grup ma udział około 15%.
Zajrzałem do SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) i ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), ale oba tworzą nowe próbki syntetyczne na podstawie istniejących obserwacji i np. KNN.
Ponieważ jednak wiele atrybutów związanych z klientami jest kategorycznych, nie sądzę, aby była to właściwa droga. Na przykład wiele moich zmiennych, takich jak Region_A i Region_B, wzajemnie się wykluczają, ale używając kNN nowe obserwacje można umieścić zarówno w Region_A, jak i Region_B. Czy zgadzasz się, że to jest problem?
W takim przypadku - w jaki sposób można przeprowadzić nadpróbkowanie w R, po prostu powielając istniejące obserwacje? Czy to zły sposób na zrobienie tego?