Nie widziałem wykładu, więc nie mogę komentować tego, co zostało powiedziane.
Moje 0,02 USD: Jeśli chcesz uzyskać dobre oszacowania wydajności za pomocą ponownego próbkowania, powinieneś naprawdę wykonać wszystkie operacje podczas ponownego próbkowania zamiast wcześniejszego. Dotyczy to w szczególności wyboru funkcji [1], a także trywialnych operacji, takich jak PCA. Jeśli powoduje to niepewność wyników, należy uwzględnić to w ponownym próbkowaniu.
Pomyśl o regresji głównych składników: PCA, po której następuje regresja liniowa niektórych składników. PCA szacuje parametry (z hałasem) i liczbę komponentów również należy wybrać (różne wartości spowodują różne wyniki => więcej hałasu).
Powiedzmy, że użyliśmy 10-krotnego CV ze schematem 1:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
lub schemat 2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
Powinno być jasne, że drugie podejście powinno dawać oszacowania błędów, które odzwierciedlają niepewność spowodowaną PCA, wybór liczby składników i regresję liniową. W efekcie CV w pierwszym schemacie nie ma pojęcia, co go poprzedziło.
Jestem winny, że nie zawsze wykonuję wszystkie operacje z ponownym próbkowaniem, ale tylko wtedy, gdy tak naprawdę nie dbam o oszacowania wydajności (co jest niezwykłe).
Czy istnieje duża różnica między tymi dwoma programami? To zależy od danych i przetwarzania wstępnego. Jeśli tylko centrujesz i skalujesz, prawdopodobnie nie. Jeśli masz mnóstwo danych, prawdopodobnie nie. W miarę zmniejszania się rozmiaru zestawu treningowego rośnie ryzyko uzyskania złych oszacowań, szczególnie jeśli n jest bliskie p.
Mogę z całą pewnością stwierdzić z doświadczenia, że nie uwzględnienie nadzorowanego wyboru funkcji podczas ponownego próbkowania jest naprawdę złym pomysłem (bez dużych zestawów szkoleniowych). Nie rozumiem, dlaczego przetwarzanie wstępne byłoby na to odporne (do pewnego stopnia).
@mchangun: Myślę, że liczba komponentów jest parametrem dostrajającym i prawdopodobnie zechcesz go wybrać przy użyciu oszacowań wydajności, które można uogólnić. Możesz automatycznie wybrać K, aby wyjaśnić co najmniej X% wariancji i uwzględnić ten proces w ponownym próbkowaniu, aby uwzględnić szum w tym procesie.
Max
[1] Ambroise, C., i McLachlan, G. (2002). Błąd selekcji w ekstrakcji genów na podstawie danych ekspresji genów mikromacierzy. Postępowania z National Academy of Sciences, 99 (10), 6562–6566.