Chcę wiedzieć, czy opisany poniżej proces jest prawidłowy / akceptowalny i czy dostępne jest jakiekolwiek uzasadnienie.
Pomysł: nadzorowane algorytmy uczenia się nie zakładają podstawowych struktur / dystrybucji danych. Na koniec dnia przedstawiają szacunkowe dane wyjściowe. Mam nadzieję, że jakoś oszacuję niepewność tych szacunków. Teraz proces budowania modelu ML jest z natury losowy (np. W próbkowaniu w celu weryfikacji krzyżowej dostrajania hiperparametrów i w podpróbkowaniu w stochastycznym GBM), więc potok modelowania da mi inną wydajność dla tych samych predyktorów z każdym innym ziarnem. Moim (naiwnym) pomysłem jest ciągłe przeprowadzanie tego procesu, aby uzyskać rozkład prognoz, i mam nadzieję, że mogę wypowiedzieć się na temat niepewności prognoz.
Jeśli to ma znaczenie, zestawy danych, z którymi pracuję, są zwykle bardzo małe (~ 200 wierszy).
Czy to ma sens?
Dla wyjaśnienia, tak naprawdę nie ładuję danych w tradycyjny sposób (tj. Nie próbuję ponownie danych). Ten sam zestaw danych jest używany w każdej iteracji, po prostu wykorzystuję losowość w Xval i stochastycznym GBM.