Myślę, że warto spróbować Random Forests ( randomForest ); w odpowiedzi na powiązane pytania podano kilka odniesień: wybór funkcji dla „ostatecznego” modelu podczas przeprowadzania walidacji krzyżowej w uczeniu maszynowym ; Czy modele CART mogą być solidne? . Zwiększanie / pakowanie czyni je bardziej stabilnymi niż pojedynczy KOSZYK, o którym wiadomo, że jest bardzo wrażliwy na małe zaburzenia. Niektórzy autorzy twierdzili, że działał on równie dobrze jak karane SVM lub Gradient Boosting Machines (patrz np. Cutler i in., 2009). Myślę, że z pewnością przewyższają NN.
Boulesteix i Strobl zapewniają ładny przegląd kilku klasyfikatorów w doborze optymalnego klasyfikatora i ujemne odchylenie w szacowaniu poziomu błędu: badanie empiryczne dotyczące prognozowania wielowymiarowego (BMC MRM 2009 9: 85). Słyszałem o innym dobrym badaniu na spotkaniu IV EAM , które powinno zostać poddane przeglądowi w Statistics in Medicine ,
João Maroco , Dina Silva, Manuela Guerreiro, Alexandre de Mendonça. Czy losowe lasy przewyższają sieci neuronowe, obsługują maszyny wektorowe i klasyfikatory analizy dyskryminacyjnej? Studium przypadku dotyczące ewolucji otępienia u starszych pacjentów z dolegliwościami poznawczymi
Podoba mi się również pakiet caret : jest dobrze udokumentowany i pozwala porównać dokładność predykcyjną różnych klasyfikatorów na tym samym zbiorze danych. Dba o zarządzanie próbkami szkoleniowymi / testowymi, dokładnością obliczeniową itp. W kilku przyjaznych dla użytkownika funkcjach.
Glmnet pakiet, od Friedmana i kol., Narzędzia karane GLM (patrz przegląd w Journal of Statistical Software ), więc pozostaje w znanym ramach modelowania.
W przeciwnym razie możesz także poszukać klasyfikatorów opartych na regułach asocjacji (zobacz Widok zadań CRAN na uczenie maszynowe lub 10 najlepszych algorytmów w eksploracji danych, aby uzyskać łagodne wprowadzenie do niektórych z nich).
Chciałbym wspomnieć o innym interesującym podejściu, które planuję ponownie wdrożyć w języku R (w rzeczywistości jest to kod Matlab), którym jest analiza dyskryminacyjnej korespondencji Hervé Abdiego. Chociaż początkowo opracowano go, aby poradzić sobie z badaniami na małej próbie z wieloma zmiennymi objaśniającymi (ostatecznie pogrupowanymi w spójne bloki), wydaje się, że skutecznie łączy klasyczne DA z technikami redukcji danych.
Referencje
- Cutler, A., Cutler, DR i Stevens, JR (2009). Metody oparte na drzewach , w wysokowymiarowej analizie danych w Cancer Research , Li, X. i Xu, R. (red.), Str. 83-101, Springer.
- Saeys, Y., Inza, I. i Larrañaga, P. (2007). Przegląd technik wyboru funkcji w bioinformatyce . Bioinformatics, 23 (19): 2507-2517.