Krótka odpowiedź: obie techniki walidacji obejmują szkolenie i testowanie szeregu modeli.
Długa odpowiedź na temat tego, jak to zrobić najlepiej: to oczywiście zależy. Ale oto kilka przemyśleń, które wykorzystuję przy podejmowaniu decyzji dotyczących walidacji ponownego próbkowania. Jestem chemometrem, więc te strategie, a także terminy są mniej więcej ściśle związane z problemami analityczno-chemicznymi.
Aby trochę wyjaśnić moje myśli, myślę o walidacji jako o pomiarze jakości modelu, a o szkoleniu jako o pomiarze parametrów modelu - prowadzi to do dość silnej analogii do każdego innego rodzaju pomiaru.
W odniesieniu do walidacji istnieją dwa różne punkty widzenia:
tradycyjny punkt widzenia do sprawdzania poprawności ponownego próbkowania jest taki: zestaw danych ponownie próbkowany (czasami nazywany zastępczym zestawem danych lub podzbiorem) jest praktycznie taki sam jak oryginalny (rzeczywisty) zestaw danych.
Dlatego „model zastępczy” dopasowany do zastępczego zestawu danych jest praktycznie taki sam, jak model dopasowany do całego rzeczywistego zestawu danych. Ale niektóre próbki są pominięte w zestawie danych zastępczych, model jest od nich niezależny. W związku z tym biorę te próbki, które zostały pominięte lub nie zostały załadowane, jako niezależny zestaw walidacyjny dla modelu zastępczego i wykorzystuję wynik jako przybliżenie całego modelu danych.
Jednak model zastępczy często nie jest tak naprawdę równoważny z modelem z całymi danymi: do treningu użyto mniej próbek (nawet w przypadku bootstrapu liczba różnych próbek jest mniejsza). Dopóki krzywa uczenia się rośnie, model zastępczy jest średnio nieco gorszy niż model z całymi danymi. Jest to dobrze znany pesymistyczny błąd weryfikacji poprawności próbkowania (jeśli skończysz z optymistycznym nastawieniem, jest to zwykle wskaźnik, że zestaw testowy pominięty / nie był niezależny od modelu).
Drugi punkt widzenia jest taki, że zestaw danych po ponownym próbkowaniu jest zaburzoną wersją całego zestawu danych. Zbadanie, w jaki sposób modele zastępcze (lub ich przewidywania dla próbek pominiętych / nieobjętych próbą) różnią się od modelu z całymi danymi, następnie mówi coś o stabilności modelu w odniesieniu do danych treningowych.
Z tej perspektywy modele zastępcze są czymś w rodzaju powtarzanych pomiarów. Powiedz, że Twoim zadaniem jest pomiar zawartości niektórych minerałów w całym szeregu rudy. Ruda nie jest jednorodna. Więc pobierasz próbki fizyczne z różnych lokalizacji, a następnie patrzysz na ogólną zawartość i jej różnorodność w całym pociągu. Podobnie, jeśli uważasz, że Twój model może nie być stabilny, możesz spojrzeć na ogólną wydajność i różnorodność modeli zastępczych.
n
Zazwyczaj próbuję ponownie przypadki, np. Jeden przypadek = wszystkie pomiary jednego pacjenta. Następnie wszyscy pacjenci po wyjęciu z torby nie mają żadnych pomiarów w danych treningowych. Jest to przydatne, jeśli wiesz, że pomiary jednego przypadku są bardziej podobne do siebie niż pomiary innych przypadków (lub przynajmniej nie można wykluczyć tej możliwości).
Walidacja ponownego próbkowania nie pozwala jednak zmierzyć wydajności nieznanych próbek. Jeśli dodatkowo chcesz zmierzyć wydajność nieznanych przyszłych próbek (dryf instrumentalny!), Potrzebujesz zestawu testowego, który jest mierzony „w przyszłości”, tj. Pewien czas po zmierzeniu wszystkich próbek treningowych. W chemii analitycznej jest to potrzebne, np. Jeśli chcesz dowiedzieć się, jak często trzeba powtarzać kalibrację przyrządu (dla każdego oznaczenia, codziennie, co tydzień, co miesiąc, ...)
Terminologia bootstrap vs. cross-validation :
- ponowne próbkowanie z wymianą jest często nazywane bootstrap,
- ponowne próbkowanie bez zastępczej walidacji krzyżowej.
Oba mogą mieć pewnego rodzaju rozwarstwienie. Historycznie podział na walidację krzyżową (przynajmniej w chemometrii) był często wykonywany w sposób nieprzypadkowy, np. 3-krotna walidacja krzyżowa postaci abcabc..abc (zestaw danych posortowany względem wyniku) do kalibracji / regresję, jeśli masz bardzo niewiele przypadków (próbki fizyczne) i chcesz się upewnić, że cały zakres danych jest objęty.
Obie techniki są zwykle powtarzane / powtarzane kilka razy. Ponownie, z powodów historycznych i przynajmniej w chemometrii, k-krotna walidacja krzyżowa często oznacza trening i testowanie modeli k (każdy testowany z 1/1 danych, które nie były zaangażowane w szkolenie). Jeśli taki losowy podział się powtarza, ludzie nazywają to iteracją lub powtarzaną weryfikacją krzyżową.
kknnn
- Zauważ, że bootstrap nie jest odpowiedni dla niektórych technik dopasowania modelu, które najpierw usuwają duplikaty pomiarów.
- Istnieją niektóre warianty bootstrap, np. .632-bootstrap i .632 + -bootstrap
kk