Rozumiem, że nawet przy przestrzeganiu odpowiednich procedur walidacji krzyżowej i wyboru modelu, nadmierne dopasowanie nastąpi, jeśli ktoś będzie szukał wystarczająco modelu , chyba że nałoży ograniczenia na złożoność modelu, okres. Co więcej, często ludzie próbują nauczyć się kar za złożoność modelu na podstawie danych, które podważają ochronę, którą mogą zapewnić.
Moje pytanie brzmi: ile jest prawdy w powyższym stwierdzeniu?
Często słyszę, jak praktykujący ML mówią: „ W mojej firmie / laboratorium zawsze próbujemy każdego dostępnego modelu (np. Z bibliotek typu caret lub scikit-learn ), aby zobaczyć, który z nich działa najlepiej ”. Często twierdzę, że takie podejście może łatwo przerastać, nawet jeśli poważnie podchodzą do weryfikacji krzyżowej i utrzymują zestawy wstrzymujące w dowolny sposób. Co więcej, im trudniej szukają, tym bardziej prawdopodobne jest, że się przewyższą. Innymi słowy, nadmierna optymalizacja jest prawdziwym problemem i nie ma heurystyk, które mogłyby pomóc w systematycznej walce z nią. Czy mylę się myśląc w ten sposób?