Czy prywatna tabela liderów Kaggle jest dobrym predyktorem wydajności poza próbą zwycięskiego modelu?

Chociaż wyników prywatnego zestawu testowego nie można wykorzystać do dalszego udoskonalenia modelu, to czy wybór modelu z ogromnej liczby modeli przeprowadzanych na podstawie wyników prywatnego zestawu testowego nie jest możliwy? Czy nie sprawiłbyś, że dzięki temu samemu procesowi nadmierne dopasowanie do prywatnego zestawu testowego?

Według „Pseudo-matematyki i finansowego szarlatanizmu: skutki nadmiernego dopasowania testów historycznych na wyniki poza próbą” autorstwa Bailey i in. stosunkowo łatwo jest „dopasować”, wybierając najlepsze z dużej liczby modeli ocenianych w tym samym zestawie danych. Czy to nie dzieje się z prywatną tabelą wyników Kaggle?

Jakie są statystyczne uzasadnienia dla najlepiej działających modeli na prywatnej tablicy wyników, które są modelami, które uogólniają najlepsze dane poza próbą?
Czy firmy faktycznie używają zwycięskich modeli, czy też prywatna tabela liderów ma na celu jedynie zapewnienie „reguł gry”, a firmy są bardziej zainteresowane wglądem wynikającym z dyskusji na temat problemu?

model-selection overfitting out-of-sample

— spłukać
źródło

Nieco powiązane: stats.stackexchange.com/q/235591

— Kodiologist

Możesz spojrzeć na różnicę między wynikami prywatnymi i publicznymi. Można argumentować, że niedopasowany model powinien osiągnąć podobną wydajność w obu zestawach danych.

— shadowtalker

@shadowtalker To rzeczywiście byłby dobry sposób na wykrycie nadmiernego dopasowania, ale tak naprawdę interesuje nas moc predykcyjna modelu, a nie stopień nadmiernego dopasowania. Model overfit - tj. Taki, który działa znacznie lepiej w próbie niż poza próbką - może mieć lepszą wydajność poza próbką niż model, który nie jest nadmierny. Nie mam pod ręką referencji, ale uważam, że często zdarza się to w złożonych domenach, np. Widzenie komputerowe, przy użyciu złożonych modeli, np. CNN.

— rinspy

Cóż, przedstawione przez ciebie punkty są uczciwe, ale myślę, że jest znacznie bardziej realny problem z ludźmi, którzy są zbyt dobrzy w publicznej tabeli wyników .

Może się to zdarzyć, gdy wykonasz około 100 zgłoszeń, publiczny zestaw testowy ostatecznie wykrwawi się na twoim wyborze hiperparametrów, a tym samym się przełączy. Myślę, że pod tym względem niezbędny jest prywatny lider.

— M Sef
źródło