Jak podejść do problemu klasyfikacji, w którym jedna z klas jest zdefiniowana jako „żadna z pozostałych”


9

Załóżmy, że interesują mnie trzy klasy , , . Ale mój zestaw danych zawiera jeszcze kilka prawdziwych klas .c1c2c3(cj)j=4n

Oczywistą odpowiedzią jest zdefiniowanie nowej klasy która odnosi się do wszystkich klas , ale podejrzewam, że nie jest to dobry pomysł, ponieważ próbki w będą rzadkie i niezbyt do siebie podobne.c^4cjj>3c^4

Aby zwizualizować to, co próbuję powiedzieć, załóżmy, że mam następujące dwie zmienne spacje i klasy , , , są przedstawione w kolorze czerwonym, til, zielonym i odpowiednio czarny. Podejrzewam, że tak wyglądałyby moje dane.c1c2c3c^4=j=4ncj

wprowadź opis zdjęcia tutaj

Czy istnieje jakiś standardowy sposób rozwiązania tego problemu? Jaki byłby najbardziej wydajny klasyfikator i dlaczego?


Zastanów się nad użyciem jednego vs. odpoczynku en.wikipedia.org/wiki/Multiclass_classification#One-vs.-rest
DaL

1
Możesz chcieć eksplorować modele bez etykiety . Wygląda na podobny problem, z tym że jest wieloklasowy, a nie binarny, jak większość problemów PU.
Ricardo Cruz,

Odpowiedzi:


4

dwuetapowego podejścia, wykorzystując pomysł klasy , o której wspomniałeś.c4^

W pierwszym kroku użyj binarnego klasyfikatora (wyuczonego na całym zbiorze danych), aby zdecydować, czy próbka należy do klasy (tj. Do dowolnej klasy). W tym celu możesz również przyjrzeć się metodom wykrywania wartości odstających , jeśli próbki należące do „interesujących” klas znacznie różnią się od pozostałych.c4^

Jeśli wynik jest negatywny, przejdź do następnego kroku, nowy klasyfikator trenuje tylko na próbkach należących do klas i użyj tej prognozy jako ostatecznej.c1,c2,c3

Myślę, że nawet stosując proste podejście grupujące jako pierwszy krok (np. K- średnie oznacza użycie jako początkowych wartości centroidów, średni centroid dla każdego ), nadal byłoby przydatne.centj=xiD:yi=jxixiD:yi=j1c1,c2,c3,c4^


Sugestia Bogasa jest świetna, jeśli nie masz dużego nakładania się klas. W przeciwnym razie wybierz model z wieloma etykietami.
Ricardo Cruz,

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.