Obliczanie przedziałów predykcji podczas korzystania z weryfikacji krzyżowej

Czy szacunkowe odchylenia standardowe są obliczane za pomocą:

$s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}.$

( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation )

dla dokładności prognoz z 10-krotnej walidacji krzyżowej? Obawiam się, że dokładność prognozy obliczana między poszczególnymi zakładkami zależy od znacznego nakładania się zestawów treningowych (chociaż zestawy prognoz są niezależne). Wszelkie zasoby, które o tym dyskutują, byłyby bardzo pomocne.

— Christopher Dorian
źródło

Zainteresowanie: Matematyczny wzór na błąd prognozowania krotności K-krotności? , Szacunki wariancji w k-krotnej walidacji krzyżowej .

— chl

Interesujące są również: interwał regresji liniowej-predykcja .

— Gung - Przywróć Monikę

Obawiam się, że dokładność prognozy obliczana między poszczególnymi zakładkami zależy od znacznego nakładania się zestawów treningowych (chociaż zestawy prognoz są niezależne).

IMHO nakładanie się zestawów treningowych nie musi być tutaj dużym problemem. To znaczy, oczywiście ważne jest sprawdzenie, czy modele są stabilne. Stabilny oznacza, że prognozy modeli zastępczych walidacji krzyżowej są równoważne (tj. Niezależny przypadek uzyskałby taką samą prognozę dla wszystkich tych modeli), aw rzeczywistości krzyżowa walidacja zwykle twierdzi równoważność nie tylko między modelami zastępczymi, ale także modelem wyuczonym we wszystkich skrzynie Ta zależność jest raczej konsekwencją tego, co chcemy mieć.

Dotyczy to typowego pytania: jeśli trenuję model na tych danych, jakie są przedziały prognozowania? Jeśli pytanie brzmi: jeśli trenujemy model przypadków tej populacji, jakie są przedziały prognozowania? Nie możemy odpowiedzieć na to pytanie, ponieważ to nakładanie się w zestawach szkoleniowych oznacza, że nie doceniamy wariancji o nieznaną wartość. $n$

Jakie są konsekwencje w porównaniu z testowaniem z niezależnym zestawem testowym?

Szacunki wzajemnej weryfikacji mogą mieć większą wariancję niż testowanie ostatecznego modelu przy użyciu niezależnego zestawu testów o tym samym rozmiarze, ponieważ oprócz wariancji wynikającej z przypadków testowych mamy do czynienia z wariancją wynikającą z niestabilności modeli zastępczych.
Jeśli jednak modele są stabilne, wariancja ta jest niewielka / nieistotna. Ponadto można zmierzyć ten rodzaj stabilności.
Co może nie być mierzony jest jak przedstawiciel cały zestaw danych w porównaniu do populacji było wyciągnąć z. Obejmuje to część błędu końcowego modelu (jednak również mały niezależny zestaw testowy może mieć błąd) i oznacza to, że odpowiadającej wariancji nie można oszacować przez walidację krzyżową.
W praktyce aplikacyjnej (wydajność modelu wyuczonego na tych danych) obliczanie przedziału prognozy napotkałoby problemy, które IMHO są ważniejsze niż to, której części walidacji krzyżowej wariancji nie można wykryć: np.
- krzyżowa walidacja nie może przetestować wydajności przypadków niezależnych w czasie (prognozy są zwykle potrzebne dla przypadków mierzonych w przyszłości)
- dane mogą zawierać nieznane klastry, a wydajność poza klastrami może być ważna. Dane klastrowane są czymś, co można wziąć pod uwagę podczas weryfikacji krzyżowej, ale trzeba wiedzieć o klastrowaniu.
To coś więcej niż tylko krzyżowa walidacja vs. niezależny zestaw testów: w zasadzie trzeba usiąść i zaprojektować badanie walidacji, w przeciwnym razie istnieje wysokie ryzyko, że „niezależny” zestaw testów nie będzie aż tak niezależny. Po wykonaniu tej czynności można zastanowić się, które czynniki mogą mieć praktyczne znaczenie, a które można pominąć. Możesz dojść do wniosku, że po dokładnym przeanalizowaniu, waloryzacja krzyżowa jest wystarczająco dobra i rozsądna, ponieważ niezależna walidacja byłaby o wiele za droga w porównaniu z możliwym zyskiem z informacji.

Podsumowując, zwykłej formuły dla odchylenia standardowego, nazwałbym to analogicznie do i szczegółowo jak przeprowadzono test. $s_{CV}$ $RMSE_{CV}$

— cbeleites niezadowoleni z SX
źródło