Jestem więc nowicjuszem w dziedzinie ML i staram się dokonać klasyfikacji. Moim celem jest przewidzieć wynik wydarzenia sportowego. Zebrałem trochę danych historycznych i teraz próbuję wyszkolić klasyfikatora. Dostałem około 1200 próbek, z czego 0,2 oddzieliłem do celów testowych, inne poddałem wyszukiwaniu sieci (w tym walidacji krzyżowej) z różnymi klasyfikatorami. Do tej pory wypróbowałem SVM z jądrem liniowym, rbf i wielomianowym oraz Random Forests. Niestety nie mogę uzyskać dokładności znacznie większej niż 0,5 (to samo, co losowy wybór klasy). Czy to oznacza, że po prostu nie mogę przewidzieć wyniku tak złożonego wydarzenia? Czy mogę uzyskać dokładność co najmniej 0,7-0,8? Jeśli to wykonalne, to w co powinienem spojrzeć dalej?
- Uzyskaj więcej danych? (Mogę powiększyć zestaw danych do 5 razy)
- Wypróbować różne klasyfikatory? (Regresja logistyczna, kNN itp.)
- Ponownie ocenić mój zestaw funkcji? Czy są jakieś narzędzia ML do analizy, które funkcje mają sens, a które nie? Może powinienem zmniejszyć zestaw funkcji (obecnie mam 12 funkcji)?