Mam trochę danych i chcę zbudować model (powiedzmy model regresji liniowej) z tych danych. W następnym kroku chcę zastosować weryfikację krzyżową Leave-One-Out (LOOCV) na modelu, aby zobaczyć, jak dobrze sobie radzi.
Jeśli dobrze zrozumiałem LOOCV, buduję nowy model dla każdej z moich próbek (zestaw testowy), używając każdej próbki oprócz tej próbki (zestaw treningowy). Następnie używam modelu do przewidywania zestawu testowego i obliczania błędów .
W następnym kroku agreguję wszystkie błędy wygenerowane przy użyciu wybranej funkcji, na przykład średni błąd kwadratu. Mogę wykorzystać te wartości do oceny jakości (lub dobrego dopasowania) modelu.
Pytanie: Który model jest modelem, do którego odnoszą się te wartości jakości, więc który model powinienem wybrać, jeśli uznaję wskaźniki wygenerowane z LOOCV za odpowiednie dla mojego przypadku? LOOCV przyjrzał się różnym modelom (gdzie jest wielkością próby); który model powinienem wybrać?n
- Czy to model, który wykorzystuje wszystkie próbki? Ten model nigdy nie został obliczony podczas procesu LOOCV!
- Czy to model ma najmniejszy błąd?