Chociaż wyników prywatnego zestawu testowego nie można wykorzystać do dalszego udoskonalenia modelu, to czy wybór modelu z ogromnej liczby modeli przeprowadzanych na podstawie wyników prywatnego zestawu testowego nie jest możliwy? Czy nie sprawiłbyś, że dzięki temu samemu procesowi nadmierne dopasowanie do prywatnego zestawu testowego?
Według „Pseudo-matematyki i finansowego szarlatanizmu: skutki nadmiernego dopasowania testów historycznych na wyniki poza próbą” autorstwa Bailey i in. stosunkowo łatwo jest „dopasować”, wybierając najlepsze z dużej liczby modeli ocenianych w tym samym zestawie danych. Czy to nie dzieje się z prywatną tabelą wyników Kaggle?
- Jakie są statystyczne uzasadnienia dla najlepiej działających modeli na prywatnej tablicy wyników, które są modelami, które uogólniają najlepsze dane poza próbą?
- Czy firmy faktycznie używają zwycięskich modeli, czy też prywatna tabela liderów ma na celu jedynie zapewnienie „reguł gry”, a firmy są bardziej zainteresowane wglądem wynikającym z dyskusji na temat problemu?