Mam konkretne pytanie dotyczące walidacji w badaniach nad uczeniem maszynowym.
Jak wiemy, system uczenia maszynowego prosi badaczy o szkolenie modeli na temat danych szkoleniowych, wybranie spośród modeli kandydujących według zestawu walidacyjnego i podanie dokładności zestawu testowego. W bardzo rygorystycznych badaniach zestaw testowy może być użyty tylko raz. Jednak nigdy nie może to być scenariusz badawczy, ponieważ musimy poprawić naszą wydajność, dopóki dokładność testu nie będzie lepsza niż najnowsze wyniki, zanim będziemy mogli opublikować (lub nawet przesłać) artykuł.
Teraz nadchodzi problem. Powiedzmy, że 50% to najnowocześniejszy wynik, a mój model ogólnie może osiągnąć dokładność 50--51, co jest średnio lepsze.
Jednak moja najlepsza dokładność walidacji (52%) daje bardzo niską dokładność testu, np. 49%. Następnie muszę zgłosić 49% jako moją ogólną wydajność, jeśli nie mogę dalej poprawiać modułu sprawdzania poprawności, co moim zdaniem nie ma nadziei. To naprawdę uniemożliwia mi zbadanie problemu, ale nie ma to znaczenia dla moich rówieśników, ponieważ nie widzą 52% acc, co moim zdaniem jest wartością odstającą.
Jak więc zwykle ludzie robią w swoich badaniach?
walidacja ps k-fold nie jest pomocna, ponieważ taka sama sytuacja może się nadal zdarzyć.