Jak podejść do problemu klasyfikacji, w którym jedna z klas jest zdefiniowana jako „żadna z pozostałych”

Załóżmy, że interesują mnie trzy klasy , , . Ale mój zestaw danych zawiera jeszcze kilka prawdziwych klas . $c_1$ $c_2$ $c_3$ $(c_j)_{j=4}^n$

Oczywistą odpowiedzią jest zdefiniowanie nowej klasy która odnosi się do wszystkich klas , ale podejrzewam, że nie jest to dobry pomysł, ponieważ próbki w będą rzadkie i niezbyt do siebie podobne. $\hat c_4$ $c_j$ $j>3$ $\hat c_4$

Aby zwizualizować to, co próbuję powiedzieć, załóżmy, że mam następujące dwie zmienne spacje i klasy , , , są przedstawione w kolorze czerwonym, til, zielonym i odpowiednio czarny. Podejrzewam, że tak wyglądałyby moje dane. $c_1$ $c_2$ $c_3$ $\hat c_4= \bigcup_{j=4}^n c_j$

Czy istnieje jakiś standardowy sposób rozwiązania tego problemu? Jaki byłby najbardziej wydajny klasyfikator i dlaczego?

machine-learning classification

— h3h325
źródło

Zastanów się nad użyciem jednego vs. odpoczynku en.wikipedia.org/wiki/Multiclass_classification#One-vs.-rest

— DaL

Możesz chcieć eksplorować modele bez etykiety . Wygląda na podobny problem, z tym że jest wieloklasowy, a nie binarny, jak większość problemów PU.

— Ricardo Cruz,

dwuetapowego podejścia, wykorzystując pomysł klasy , o której wspomniałeś. $\hat{c_4}$

W pierwszym kroku użyj binarnego klasyfikatora (wyuczonego na całym zbiorze danych), aby zdecydować, czy próbka należy do klasy (tj. Do dowolnej klasy). W tym celu możesz również przyjrzeć się metodom wykrywania wartości odstających , jeśli próbki należące do „interesujących” klas znacznie różnią się od pozostałych. $\hat{c_4}$

Jeśli wynik jest negatywny, przejdź do następnego kroku, nowy klasyfikator trenuje tylko na próbkach należących do klas i użyj tej prognozy jako ostatecznej. $c_1,c_2,c_3$

Myślę, że nawet stosując proste podejście grupujące jako pierwszy krok (np. K- średnie oznacza użycie jako początkowych wartości centroidów, średni centroid dla każdego ), nadal byłoby przydatne. $cent_j = \frac{\sum\limits_{x_i\in D: y_i=j}x_i}{\sum\limits_{x_i\in D: y_i=j}1}$ $c_1,c_2,c_3, \hat{c_4}$

— Bogas
źródło

Sugestia Bogasa jest świetna, jeśli nie masz dużego nakładania się klas. W przeciwnym razie wybierz model z wieloma etykietami.

— Ricardo Cruz,

To jest en.wikipedia.org/wiki/Cascading_classifiers

— Emre