Czy po sprawdzeniu krzyżowym zawsze dobrze jest trenować z pełnym zestawem danych ? Innymi słowy, czy można trenować ze wszystkimi próbkami w moim zbiorze danych i nie jest w stanie sprawdzić, czy to dopasowanie pasuje do siebie ?
Kilka podstaw problemu:
Powiedzmy, że mam rodzinę modeli sparametryzowanych przez . Powiedz także, że mam zestaw punktów danych i dokonuję wyboru modelu z k-krotną weryfikacją krzyżową, aby wybrać model, który najlepiej uogólnia dane. N
Aby wybrać model, mogę przeprowadzić wyszukiwanie (np. Wyszukiwanie w siatce) na , na przykład, uruchamiając k-krotnie weryfikację krzyżową dla każdego kandydata. W każdym z fałdów w ramach walidacji krzyżowej kończę na wyuczonym modelu . βα
Punktem walidacji krzyżowej jest to, że dla każdej z tych fałd mogę sprawdzić, czy wyuczony model się dopasował, testując go na „niewidzialnych danych”. W zależności od wyników mogłem wybrać model nauczyłem się dla parametrów który uogólnił się najlepiej podczas weryfikacji krzyżowej w wyszukiwaniu siatki.→ α najlepszy
Powiedzmy teraz, że po wyborze modelu chciałbym wykorzystać wszystkie punkty w moim zestawie danych i mam nadzieję, że nauczę się lepszego modelu. W tym celu mogłem użyć parametrów odpowiadających modelowi, który wybrałem podczas wyboru modelu, a następnie po szkoleniu na pełnym zbiorze danych otrzymałem nowy wyuczony model . Problem polega na tym, że jeśli wykorzystam wszystkie punkty z mojego zbioru danych do treningu, nie mogę sprawdzić, czy ten nowy wyuczony model pasuje do żadnych niewidocznych danych. Jaki jest właściwy sposób na obejście tego problemu?→ α b e s t β f u l l β f u l l