W prostej klasyfikacji mamy dwie klasy: klasa-0 i klasa-1. W niektórych danych mam tylko wartości dla klasy-1, więc żadnej dla klasy-0. Teraz myślę o stworzeniu modelu do modelowania danych dla klasy 1. Tak więc, kiedy pojawiają się nowe dane, model ten jest stosowany do nowych danych i znajduje prawdopodobieństwo określające prawdopodobieństwo, że nowe dane pasują do tego modelu. Następnie porównując z progiem, mogę filtrować nieodpowiednie dane.
Moje pytania to:
- Czy to dobry sposób na pracę z takimi problemami?
- Czy w tym przypadku można zastosować klasyfikator RandomForest? Czy muszę dodawać sztuczne dane dla klasy 0, które, mam nadzieję, klasyfikator uważa za hałas?
- Jakiś inny pomysł może pomóc w rozwiązaniu tego problemu?