Najbardziej (i najczęściej) denerwuje mnie „walidacja” mająca na celu błąd uogólnienia modeli predykcyjnych, w których dane testowe nie są niezależne (np. Zazwyczaj wiele pomiarów danych na pacjenta w danych, brak ładowania początkowego lub pomiary podziału walidacji krzyżowej nie pacjenci ).
Jeszcze bardziej denerwujące są dokumenty, które dają tak błędne wyniki weryfikacji krzyżowej oraz niezależny zestaw testów, który wykazuje nadmiernie optymistyczne podejście do weryfikacji krzyżowej, ale ani jednego słowa, że projekt weryfikacji krzyżowej jest nieprawidłowy ...
(Byłbym bardzo szczęśliwy, gdyby te same dane zostały przedstawione „wiemy, że krzyżowa walidacja powinna rozdzielić pacjentów, ale utknęliśmy w oprogramowaniu, które na to nie pozwala. Dlatego też przetestowaliśmy naprawdę niezależny zestaw pacjentów testowych „)
(Zdaję sobie również sprawę, że ładowanie początkowe = ponowne próbkowanie z zastępowaniem zwykle działa lepiej niż walidacja krzyżowa = ponowne próbkowanie bez zastępowania. Jednak w przypadku danych spektroskopowych (widma symulowane i nieco sztuczny układ modelu, ale rzeczywiste widma) stwierdziliśmy, że powtórzenie / iteracja weryfikacji krzyżowej i obecnie -of-bootstrap miał podobną ogólną niepewność; oob miał więcej stronniczości, ale mniej wariancji - w przypadku rewie, patrzę na to z bardzo pragmatycznego punktu widzenia: wielokrotne sprawdzanie poprawności krzyżowej w porównaniu z bootstrapem nie ma znaczenia, o ile wiele artykułów nie dzielą się na pacjentów ani nie zgłaszają / omawiają / wspominają o niepewności losowej z powodu ograniczonej wielkości próbki testowej).
Oprócz tego, że się myli, ma to również efekt uboczny, że ludzie, którzy dokonują prawidłowej walidacji, często muszą bronić, dlaczego ich wyniki są znacznie gorsze niż wszystkie inne wyniki w literaturze.