Czy konkursy Kaggle są po prostu wygrane przez przypadek?

Zawody Kaggle określają końcowe rankingi na podstawie ustalonego zestawu testów.

Wyciągnięty zestaw testowy jest próbką; może nie być reprezentatywny dla modelowanej populacji. Ponieważ każde zgłoszenie jest jak hipoteza, algorytm, który wygrał konkurencję, może po prostu przypadkiem dopasować zestaw testowy lepiej niż inne. Innymi słowy, gdyby wybrano inny zestaw testów i powtórzono konkurs, czy rankingi pozostaną takie same?

Dla korporacji sponsorującej nie ma to tak naprawdę znaczenia (prawdopodobnie 20 najlepszych zgłoszeń poprawiłoby ich poziom bazowy). Chociaż, jak na ironię, mogą skończyć na modelu o pierwszej pozycji, który jest gorszy niż w pierwszej piątce. Ale dla uczestników konkursu wydaje się, że Kaggle jest ostatecznie grą losową - szczęście nie jest potrzebne, aby natknąć się na właściwe rozwiązanie, należy natknąć się na tę, która pasuje do zestawu testowego!

Czy można zmienić konkurencję, aby zwyciężyły wszystkie najlepsze zespoły, których nie można statystycznie wyróżnić? Czy w tej grupie mógłby wygrać najbardziej oszczędny lub obliczeniowo tani model?

— użytkownik0
źródło

Niektórzy ludzie używają testowania na ukrytym zestawie, aby wycofać rzeczywiste wartości testowe. To pozwala im niemal idealnie dopasować wyniki. Blokada zapobiega temu. Osobiście uważam, że różnica między wstrzymywaniem a brakiem polega na pozbyciu się oszustów.

— EngrStudent

Oczywiście dane testowe powinny być przekazywane uczestnikom, ale zastanawiam się, czy posiadanie pojedynczego zestawu testów trzymających powoduje, że wyniki zawodów (dla najlepszych zespołów ) zasadniczo zależą głównie od przypadku.

X

$X$

— user0

Wyniki są ważone. Świetny system prawie zawsze przewyższa śmieci. Ciężar pracy wymaga tak dużej porażki, że ostatnia staje się pierwsza. Porządek lokalny, może o 10 stopni w rankingu lub mniejszy, gdy są tysiące uczestników, zmieniłby się, gdyby wstrzymanie zostało ponownie zbadane. Możesz to zrobić za pomocą eksperymentu numerycznego.

— EngrStudent

Z perspektywy korporacji sponsorującej nie są oni zmuszeni do wdrożenia zwycięskiego modelu. Jeśli dobrze pamiętam, model, który wygrał wyzwanie Netflix, nigdy nie został wdrożony. Mogą wziąć kilku wiarygodnych kandydatów spośród najlepszych modeli i przetestować je dalej.

— David Ernst,

Odpowiedzi:

Tak, twoje rozumowanie jest prawidłowe. Gdyby wybrano inny zestaw testowy i zawody się powtórzyły, rankingi rzeczywiście się zmieniły. Rozważ następujący przykład. Wszystkie zgłoszenia do konkursu Kaggle z binarnymi etykietami odgadują losowo (i, powiedzmy, niezależnie), aby przewidzieć ich wyniki. Przez przypadek jeden z nich zgodzi się z powstrzymaniem bardziej niż inni, mimo że nie ma żadnych prognoz.

Chociaż jest to nieco wymyślone, możemy zauważyć, że wariancja w każdym z modeli przedłożenia oznaczałaby, że zastosowanie wielu takich wpisów rzeczywiście pasowałoby do hałasu zestawu wstrzymań. To mówi nam, że (w zależności od wariancji poszczególnych modeli), modele z najwyższej półki prawdopodobnie uogólniają to samo. To jest ogród ścieżek rozwidlenia , tyle że „badacze” nie są tacy sami (ale to nie ma znaczenia).

Czy można zmienić konkurencję, aby zwyciężyły wszystkie zespoły, których nie można statystycznie odróżnić od najlepszych wyników w zestawie testowym?

W rzeczy samej.

Jednym z podejść (choć jest to niepraktyczne) byłoby jawne wypracowanie wariancji danego modelu w każdym wpisie, co dałoby nam CI na temat ich powstrzymywania.
Innym podejściem, które może zająć dużo obliczeń, jest bootowanie paska CI pod względem wydajności wstrzymania, poprzez udostępnienie szkoleniowego i testującego interfejsu API wszystkim modelom.

— VF1
źródło

Świetna odpowiedź. Czy potrafisz wyjaśnić, w jaki sposób można zastosować te dwie metody?

— user0

To interesujące: najlepszy model może w rzeczywistości nie być zwycięskim zespołem.

— user0

Wyraźnie wypracowanie wariancji nie jest możliwe bez dystrybucji danych (wspominam o tym, ponieważ wyjaśnia teorię). W tym artykule opisano kilka metod (i tam, gdzie zawodzą) szacowania dokładności, w tym bootstrap i walidację krzyżową. Jednak w przeciwieństwie do artykułu, w tym kontekście nie robimy CV dla wyboru modelu na zestawie treningowym, ale raczej dla solidnego „wyniku” na połączonym zestawie danych treningowych i testowych.

— VF1,

Być może dwie rundy są lepsze dla solidnego oszacowania zwycięzcy. Pierwsza usuwa 99% najgorszych, a druga runda dokonuje ponownej oceny rankingu w celu „dopracowania” zamówienia.

— EngrStudent

Aby dodać tutaj pomysły, sprawdź ten artykuł zwycięzcy konkursu March Madness Kaggle NCAA w 2014 roku. Przewiń w dół do sekcji 4, „Badanie symulacji”. Według ich symulacji, jeśli przewidywane prawdopodobieństwa ich modelu dla każdego pojedynku były w rzeczywistości prawdziwym stanem natury, ich mediana umieszczenia wynosiłaby 11 miejsce.

— klumbard

Istnieją inne rodzaje zawodów w Kaggle, które nie mają elementów szansy. Na przykład ten Skradziony Sanie Stanty .

Jest to dyskretny problem optymalizacji, a nawet nie ma prywatnej tablicy wyników. To, co widzisz na publicznej tablicy wyników, to końcowe wyniki.

W porównaniu z nauką nadzorowaną, która dla wielu osób jest łatwa, ten rodzaj konkurencji ma bardziej „trudny” charakter.

— Haitao Du
źródło