Wydaje się, że istnieją sprzeczne porady na temat tego, jak radzić sobie z porównywaniem błędu pociągu z błędem testu, szczególnie gdy istnieje między nimi różnica. Wydaje mi się, że istnieją dwie szkoły myślenia, które wydają mi się sprzeczne. Chcę zrozumieć, jak pogodzić te dwie rzeczy (lub zrozumieć, czego tu brakuje).
Myśl nr 1: Różnica między samą wydajnością pociągu i zestawu testowego nie wskazuje na przeregulowanie
Po pierwsze (omówione tutaj również: w jaki sposób porównania błędów treningu i testowania mogą wskazywać na przeregulowanie? ), Idea, że różnica między samym zestawem a zestawem testów nie może wskazywać na przeregulowanie. Jest to zgodne z moim praktycznym doświadczeniem z, na przykład, metodami drzewa zespolonego, w których nawet po strojeniu hiperparametrowym opartym na weryfikacji krzyżowej, różnica między błędem pociągu a błędem testu może pozostać nieco duża. Ale (niezależnie od typu modelu), dopóki błąd sprawdzania poprawności nie będzie się powtarzał, jesteś dobry. Przynajmniej takie jest myślenie.
Myśl 2: Kiedy widzisz lukę między wydajnością pociągu a testem: Rób rzeczy, które walczą z nadmiernym dopasowaniem
Są jednak porady, które widzisz z bardzo dobrych źródeł, które sugerują, że przerwa między błędem pociągu a błędem testu wskazuje na przeregulowanie. Oto przykład: przemówienie Andrew Ng „Nuts and Bolts of Deep Learning” (fantastyczny wykład) https://www.youtube.com/watch?v=F1ka6a13S9I, gdzie około godziny 48:00 rysuje schemat blokowy oznacza to, że „jeśli błąd zestawu pociągów jest niski, a błąd zestawu pociągów jest wysoki, należy dodać regularyzację, uzyskać więcej danych lub zmienić architekturę modelu” ... które są wszystkimi czynnościami, które możesz podjąć, aby zwalczyć nadmierne dopasowanie.
Co prowadzi mnie do ... : Czy coś tu brakuje? Czy jest to reguła praktyczna dla konkretnego modelu (generalnie prostsze modele wydają się mieć mniejszą przerwę między pociągiem a testem)? Czy są po prostu dwie różne szkoły myślenia?