Jako chemik (analityczny) spotykam oba podejścia: analityczne obliczanie liczb zasług (głównie dla regresji jednoczynnikowej), a także bezpośredni pomiar predykcyjnych liczb zasług.
Podział pociągu / testu jest dla mnie „młodszym bratem” eksperymentu walidacyjnego do pomiaru jakości prognozowania.
Długa odpowiedź:
Typowe eksperymenty, które wykonujemy np. Na studiach chemii fizycznej, wykorzystują regresję jednowymiarową. Właściwością będącą przedmiotem zainteresowania są często parametry modelu, np. Stała czasowa podczas pomiaru kinetyki reakcji, ale czasem także prognozy (np. Jednoznaczna kalibracja liniowa w celu przewidywania / pomiaru pewnej wartości zainteresowania).
Sytuacje te są bardzo łagodne z punktu widzenia niedopasowania: zwykle po oszacowaniu wszystkich parametrów pozostawia się wygodną liczbę stopni swobody i służą one do szkolenia (jak w edukacji) uczniów z klasycznym obliczaniem przedziału ufności lub przedziału prognozy oraz klasycznym błędem rozmnażanie - zostały opracowane dla takich sytuacji. I nawet jeśli sytuacja nie jest całkowicie podobna do podręcznika (np. Mam strukturę w moich danych, np. W kinetyce, oczekiwałbym, że dane są lepiej opisane przez wariancję między przebiegami reakcji + wariancję między pomiarami w przebiegu niż przez zwykłe podejście oparte tylko na jednej wariancji), zazwyczaj mogę przeprowadzić wystarczającą liczbę eksperymentów, aby uzyskać przydatne wyniki.
pnn < pnnnrefa, klasyczne podejścia nie działają. Ale ponieważ głównie wykonuję prognozy, zawsze mam bardzo bezpośrednią możliwość pomiaru zdolności predykcyjnej mojego modelu: wykonuję prognozy i porównuję je z wartościami odniesienia.
To podejście jest w rzeczywistości bardzo potężne (choć kosztowne ze względu na zwiększony wysiłek eksperymentalny), ponieważ pozwala mi sondować jakość predykcyjną również w warunkach, które nie zostały uwzględnione w danych treningowych / kalibracyjnych. Np. Mogę zmierzyć, w jaki sposób jakość predykcyjna pogarsza się po ekstrapolacji (ekstrapolacja obejmuje również np. Pomiary wykonane, powiedzmy, miesiąc po pozyskaniu danych treningowych), mogę zbadać odporność na zakłócające czynniki, które, jak sądzę, będą ważne itp. Innymi słowy , możemy badać zachowanie naszego modelu tak samo, jak badamy zachowanie dowolnego innego systemu: badamy pewne punkty lub zakłócamy go i patrzymy na zmianę odpowiedzi systemu itp.
Powiedziałbym, że im ważniejsza jest jakość predykcyjna (i wyższe ryzyko nadmiernego dopasowania), tym bardziej wolimy bezpośrednie pomiary jakości predykcyjnej niż liczby uzyskane na podstawie analizy. (Oczywiście moglibyśmy uwzględnić wszystkie te pomieszania również w projekcie eksperymentu szkoleniowego). Niektóre obszary, takie jak diagnostyka medyczna, wymagają przeprowadzenia odpowiednich badań walidacyjnych, zanim model zostanie „wypuszczony” na prawdziwych pacjentów.
Podział na pociąg / test (bez względu na to, czy wstrzymuje się *, czy też walidacja krzyżowa, pasek startowy lub ...) ułatwia ten krok. Zapisujemy dodatkowy eksperyment i nie dokonujemy ekstrapolacji (uogólniamy tylko do przewidywania nieznanych niezależnych przypadków tego samego rozkładu danych treningowych). Opisałbym to raczej jako weryfikację niż walidację (chociaż walidacja znajduje się głęboko w terminologii tutaj). Jest to często pragmatyczny sposób postępowania, jeśli nie ma zbyt wysokich wymagań co do dokładności liczb merytorycznych (może nie być konieczne ich dokładne określenie w scenariuszu weryfikacji koncepcji).
* nie należy mylić pojedynczego losowego podziału na pociąg i testować z odpowiednio zaprojektowanym badaniem w celu zmierzenia jakości prognozy.