Słyszałem wcześniej następujące wyrażenie:
„Optymalizacja jest źródłem wszelkiego zła w statystykach”.
Na przykład najlepsza odpowiedź w tym wątku zawiera to stwierdzenie w związku z niebezpieczeństwem zbyt agresywnej optymalizacji podczas wyboru modelu.
Moje pierwsze pytanie brzmi: czy ten cytat można przypisać komukolwiek w szczególności? (np. w literaturze statystycznej)
Z tego, co rozumiem, oświadczenie odnosi się do ryzyka nadmiernego dopasowania. Tradycyjna mądrość mówi, że właściwa walidacja krzyżowa już zwalcza ten problem, ale wygląda na to, że w tym problemie jest coś więcej.
Czy statystycy i praktycy ML powinni obawiać się nadmiernej optymalizacji swoich modeli, nawet jeśli przestrzegają ścisłych protokołów krzyżowej weryfikacji (np. 100 zagnieżdżonych 10-krotnych CV)? Jeśli tak, to skąd wiemy, kiedy przestać szukać „najlepszego” modelu?