Używam Pythona do uruchamiania losowego modelu lasu w moim niezrównoważonym zbiorze danych (zmienną docelową była klasa binarna). Podczas dzielenia zestawu danych szkoleniowych i testowych zastanawiałem się, czy zastosować próbkowanie warstwowe (jak pokazano w kodzie), czy nie. Do tej pory zauważyłem w moim projekcie, że rozwarstwiony przypadek doprowadziłby do wyższej wydajności modelu. Ale myślę, że jeśli użyję mojego modelu do przewidzenia nowych przypadków, które prawdopodobnie będą się różnić w rozkładzie klasy docelowej w moim obecnym zestawie danych. Skłoniłem się więc do rozluźnienia tego ograniczenia i skorzystania z niestratyfikowanego podziału. Czy ktoś może doradzić, aby wyjaśnić tę kwestię?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)