Zastanawiam się, jaki rodzaj walidacji krzyżowej modelu wybrać dla problemu klasyfikacji: K-fold lub losowe podpróbkowanie (próbkowanie bootstrap)?
Moje najlepsze przypuszczenie to użycie 2/3 zbioru danych (około ~ 1000 pozycji) do treningu i 1/3 do walidacji.
W tym przypadku K-fold daje tylko trzy iteracje (fałdy), co nie wystarczy, aby zobaczyć stabilny średni błąd.
Z drugiej strony nie podoba mi się funkcja losowego podpróbkowania: niektóre elementy nie będą nigdy wybierane do szkolenia / walidacji, a niektóre będą używane więcej niż jeden raz.
Zastosowane algorytmy klasyfikacji: losowa regresja leśna i logistyczna.