Wybierz algorytm klasyfikacji binarnej

17

Mam problem z klasyfikacją binarną:

Około 1000 próbek w zestawie treningowym
10 atrybutów, w tym binarne, numeryczne i kategoryczne

Który algorytm jest najlepszym wyborem dla tego rodzaju problemu?

Domyślnie zacznę od SVM (wstępne posiadanie nominalnych wartości atrybutów przekonwertowanych na funkcje binarne), ponieważ jest uważane za najlepsze dla stosunkowo czystych i nie zaszumionych danych.

— IharS
źródło

15

Trudno powiedzieć, nie wiedząc trochę więcej o zestawie danych i tym, jak można go oddzielić od wektora cech, ale prawdopodobnie sugerowałbym użycie ekstremalnego losowego lasu w porównaniu ze standardowymi losowymi lasami ze względu na stosunkowo niewielki zestaw próbek.

Ekstremalne losowe lasy są bardzo podobne do standardowych losowych lasów, z jednym wyjątkiem, że zamiast optymalizacji podziałów na drzewa, ekstremalny losowy las tworzy losowe podziały. Początkowo wydaje się to negatywne, ale ogólnie oznacza, że masz znacznie lepszą generalizację i szybkość, chociaż AUC na twoim zestawie treningowym prawdopodobnie będzie nieco gorszy.

Regresja logistyczna jest również dość solidnym rozwiązaniem dla tego rodzaju zadań, chociaż przy twojej stosunkowo niskiej wymiarowości i małej próbce martwiłbym się zbytnim dopasowaniem. Możesz sprawdzić za pomocą K-Nearest Neighbors, ponieważ często działa bardzo dobrze przy niskich wymiarach, ale zwykle nie radzi sobie zbyt dobrze ze zmiennymi kategorialnymi.

Gdybym musiał wybrać jeden, nie wiedząc więcej o problemie, z pewnością postawiłbym swoje zakłady na ekstremalnie losowy las, ponieważ bardzo prawdopodobne jest, że zapewni on dobre uogólnienie tego rodzaju zbioru danych, a także lepiej obsługuje dane liczbowe i kategoryczne niż większość innych metod.

— indico
źródło

dobrze, dziękuję! Chociaż nie jestem jeszcze pewien, czy mogę użyć pakietu R „randomForest” ( cran.r-project.org/web/packages/randomForest/randomForest.pdf ) do wygenerowania ERF. Prawdopodobnie nie.

— IharS

12

W przypadku niskich parametrów dość ograniczona wielkość próbki i regresja logistyczna binarnego klasyfikatora powinny być wystarczająco mocne. Możesz użyć bardziej zaawansowanego algorytmu, ale to prawdopodobnie przesada.

— neone4373
źródło

5

Kiedy zmienne jakościowe są mieszane, sięgam po Lasy Losowej Decyzji, ponieważ bezpośrednio obsługuje zmienne kategoryczne bez transformacji kodowania 1-z-n. To traci mniej informacji.

— Sean Owen
źródło

5

Liniowy SVM powinien być dobrym punktem wyjścia. Przejrzyj ten przewodnik, aby wybrać odpowiedni estymator.

— Stanpol
źródło

2

Najpierw nie zalecałbym stosowania złożonych metod. Najpierw stosuj szybsze proste podejścia (kNN, NBC itp.), Następnie przechodź przez regresję liniową, regresję logistyczną, LDA, CART (RF), KREG, a następnie do najmniejszych kwadratów SVM, wznoszenia gradientu SVM, ANN, a następnie metaheurustyka (zachłanny) heurystyczne wspinanie pod górę z GA, inteligencją roju, optymalizacją kolonii mrówek itp.)