Mam zadanie klasyfikacji, w którym mam wiele predyktorów (z których jeden jest najbardziej pouczający) i używam modelu MARS do budowy mojego klasyfikatora (jestem zainteresowany dowolnym prostym modelem, a używanie glms do celów ilustracyjnych byłoby też dobrze). Teraz mam ogromną nierównowagę klas w danych treningowych (około 2700 próbek ujemnych na każdą próbkę dodatnią). Podobnie jak w przypadku zadań związanych z wyszukiwaniem informacji, bardziej martwię się przewidywaniem pozytywnych próbek testowych o najwyższym rankingu. Z tego powodu wydajność krzywych Precision Recall jest dla mnie ważna.
Przede wszystkim po prostu wyszkoliłem model na podstawie danych treningowych, utrzymując równowagę klasy w jej obecnym stanie. Mój wyszkolony model wizualizuję na czerwono, a najważniejsze dane na niebiesko.
Szkolenie na temat niezrównoważonych danych, ocena na niezrównoważonych danych :
Sądząc, że nierównowaga klasy odrzuca model, ponieważ uczenie się próbek pozytywnych zajmujących najwyższe pozycje w rankingu jest niewielką częścią całego zestawu danych, zwiększyłem próbkę pozytywnych punktów treningowych, aby uzyskać zrównoważony zestaw danych treningowych. Kiedy wykreślam wyniki na zbalansowanym zestawie treningowym, osiągam dobre wyniki. Zarówno w przypadku krzywych PR, jak i ROC mój wyuczony model radzi sobie lepiej niż dane wejściowe.
Szkolenie na temat danych zbalansowanych (upsamplowanych), ocena również danych zbalansowanych (upsamplowanych):
Jeśli jednak użyję tego modelu wyszkolonego na zbalansowanych danych, aby przewidzieć oryginalny, niezrównoważony zestaw treningowy, nadal otrzymam słabą wydajność na krzywej PR.
Trening na (zbalansowanych) zbalansowanych danych, ocena oryginalnych niezrównoważonych danych:
Więc moje pytania to:
- Czy powód wizualizacji krzywej PR pokazuje gorszą wydajność mojego wyuczonego modelu (czerwony), podczas gdy krzywa ROC wykazuje poprawę z powodu nierównowagi klasy?
- Czy metody ponownego próbkowania / próbkowania w górę / próbkowania w dół mogą rozwiązać ten problem, zmuszając szkolenie do skoncentrowania się na regionie o wysokiej precyzji / niskim przywołaniu?
- Czy istnieje inny sposób skoncentrowania szkolenia na regionie o wysokiej precyzji / niskim przywołaniu?