Kiedy mają zastosowanie wyniki Shao dotyczące krzyżowej walidacji z pominięciem jednego z nich?

23

W swoim artykule Linear Model Selection by Cross-Validation Jun Shao pokazuje, że w przypadku problemu selekcji zmiennych w wielowymiarowej regresji liniowej metoda walidacji krzyżowej z pominięciem jednego elementu (LOOCV) jest „asymptotycznie niespójna”. W prostym języku angielskim ma tendencję do wybierania modeli ze zbyt wieloma zmiennymi. W badaniu symulacyjnym Shao pokazuje, że nawet w przypadku zaledwie 40 obserwacji LOOCV może mieć gorsze wyniki niż inne techniki walidacji krzyżowej.

Ten artykuł jest nieco kontrowersyjny i nieco ignorowany (10 lat po jego opublikowaniu moi koledzy z chemometrii nigdy o nim nie słyszeli i chętnie używali LOOCV do selekcji zmiennych ...). Istnieje również przekonanie (jestem tego winny), że jego wyniki wykraczają nieco poza pierwotnie ograniczony zakres.

Pytanie zatem: jak daleko sięgają te wyniki? Czy dotyczą następujących problemów?

Zmienny wybór regresji logistycznej / GLM?
Zmienny wybór do klasyfikacji Fisher LDA?
Zmienny wybór za pomocą SVM ze skończoną (lub nieskończoną) przestrzenią jądra?
Porównanie modeli w klasyfikacji, powiedzmy, że SVM używa różnych jąder?
Porównanie modeli w regresji liniowej, powiedzmy, porównanie MLR z regresją Ridge'a?
itp.

classification model-selection cross-validation

— shabbychef
źródło

W książkach chemometrii musi być coś; jedyny znany mi człowiek, który korzysta z LOO, również to robi.

14

Musisz określić cel modelu, zanim będziesz mógł stwierdzić, czy wyniki Shao mają zastosowanie. Na przykład, jeśli celem jest przewidywanie, LOOCV ma sens, a niespójność wyboru zmiennych nie stanowi problemu. Z drugiej strony, jeśli celem jest zidentyfikowanie ważnych zmiennych i wyjaśnienie, w jaki sposób wpływają one na zmienną odpowiedzi, wyniki Shao są oczywiście ważne i LOOCV nie jest właściwe.

AIC jest asymptotycznie LOOCV, a BIC jest asymptotycznie równoważny CV CV z pominięciem gdzie --- wynik BIC tylko dla modeli liniowych. BIC zapewnia więc spójny wybór modelu. Dlatego krótkie podsumowanie wyniku Shao jest takie, że AIC jest przydatny do przewidywania, ale BIC jest użyteczny do wyjaśnienia. $v$ $v=n[1-1/(\log(n)-1)]$

— Rob Hyndman
źródło

1

Wierzę, że Shao pokazał, że k-krotnie CV jest niespójne, jeśli

k

$k$ jest ustalone podczas gdy

n

$n$ rośnie.

— shabbychef

1

BIC ma k rosnący z n.

— Rob Hyndman,

1

Przypomnę tylko po cichu, że * IC <--> * CV korespondencja z papieru Shao działa tylko dla modeli liniowych, a BIC jest równoważne tylko k-krotnie CV z pewnym k.

n_{v} / n \to 1

$n_v/n \to 1$

, gdziejest liczbą próbek w zestawie testowym. Zatemkrotnie CV jest zawsze niespójne przy wyborze zmiennych. Czy źle zrozumiałem? Przezfold CV mam na myśli podzielenie próbki nagrup i szkolenie naz nich, i testowanie na 1 z nich, a następnie powtarzanierazy. Następniedla-fold CV, który nigdy nie zbliża się do 1.

n \to inf

$n \to \inf$

n_{v}

$n_v$

k

$k$

k

$k$

k

$k$

k - 1

$k-1$

k

$k$

n_{v} / n = 1 / k

$n_v/n = 1/k$

k

$k$

— shabbychef

3

@mbq: Nie - dowód AIC / LOO firmy Stone 1977 nie zakłada modeli liniowych. Z tego powodu, w przeciwieństwie do wyniku Shao, jest powszechnie cytowany; patrz na przykład rozdziały dotyczące wyboru modelu w EOSL lub Handbook of Computational Statistics, lub naprawdę dobry rozdział / artykuł na temat wyboru modelu. To tylko trochę więcej niż strona i jest warte przeczytania, ponieważ jest nieco fajne, ponieważ unika konieczności obliczania informacji / wyniku Fishera, aby uzyskać wynik.

— ars

7

Ten artykuł jest nieco kontrowersyjny i nieco ignorowany

Nie bardzo, jest dobrze uważany, jeśli chodzi o teorię wyboru modelu, choć z pewnością jest źle interpretowany. Prawdziwym problemem jest to, jak istotne jest to w praktyce modelowania w środowisku naturalnym. Załóżmy, że wykonujesz symulacje dla przypadków, które zamierzasz zbadać i ustalisz, że LOOCV jest rzeczywiście niespójny. Jedynym powodem, dla którego możesz to uzyskać, jest to, że znasz już „prawdziwy” model, a zatem możesz ustalić, że prawdopodobieństwo odzyskania „prawdziwego” modelu nie jest zbieżne z 1. W przypadku modelowania w środowisku naturalnym, jak często jest to prawda ( że zjawiska te są opisywane przez modele liniowe, a „prawdziwy” model jest podzbiorem rozważanych)?

Artykuł Shao jest z pewnością interesujący z punktu widzenia rozwoju teoretycznych ram. Zapewnia nawet pewną jasność: jeśli rzeczywiście rozważany jest „prawdziwy” model, to mamy konsekwentne wyniki, na których można zawiesić nasze czapki. Ale nie jestem pewien, jak interesujące byłyby rzeczywiste symulacje opisywanych przypadków. To w dużej mierze dlatego większość książek, takich jak EOSL, nie koncentruje się tak bardzo na wyniku Shao, ale zamiast tego na błędzie przewidywania / generalizacji jako kryterium wyboru modelu.

EDYCJA: Bardzo krótka odpowiedź na twoje pytanie: wyniki Shao mają zastosowanie, gdy wykonujesz oszacowanie metodą najmniejszych kwadratów, funkcję straty kwadratowej. Nie szerszy. (Myślę, że był interesujący artykuł autorstwa Yanga (2005?), Który badał, czy można uzyskać spójność i skuteczność, z negatywną odpowiedzią).

— ars
źródło

Nie sądzę, żeby miało to znaczenie, czy znam prawdziwy model na wolności. Jeśli istnieje „prawdziwy” model, wolałbym metodę, która z większym prawdopodobieństwem go znajdzie.

— shabbychef

2

@shabbychef: Nie zgadzam się. Ale zauważ: „Jeśli istnieje„ prawdziwy ”model” i jest on rozważany… skąd miałbyś to wiedzieć a priori?

— ars

1

Zauważ też, że mój drugi akapit faktycznie ma sens w twoim komentarzu. To ładna właściwość, ale nie wszystko jest jasne, jak można ją zastosować na wolności; nawet jeśli w pewnym sensie jest to pocieszające, może być wprowadzane w błąd.

— ars

2

@ars - zauważ, że „liniowość” „prawdziwego” modelu nie jest jedynym sposobem na odzyskanie „prawdziwego” modelu z modelu liniowego. Jeśli składnik nieliniowy modelu „prawdziwego” można dobrze modelować za pomocą pojęcia szumu (np. Efekty nieliniowe mają tendencję do wzajemnego znoszenia się), to myślę, że można rozsądnie nazwać model liniowy „prawdziwym”. Jest to podobne do założenia, że pozostała część liniowego szeregu Taylora jest znikoma.

— prawdopodobieństwo prawdopodobieństwa

1

v

$v$

6

$10/10$ $1$

Oprócz dowodów zastanawiam się, czy przeprowadzono na przykład badania symulacyjne któregokolwiek z pięciu wymienionych przypadków.

— shabbychef

Chcesz trochę?

2

Ja robię; Muszę jednak nauczyć się dużo więcej R, aby jednak podzielić się tutaj wynikami.

— shabbychef

1

@shabbychef: kiedykolwiek musiałeś to zrobić? A tak przy okazji, jeśli nadal liczysz chemometrów, którzy używają CV lub nie używają CV do selekcji zmiennych, możesz policzyć mnie po stronie tych, którzy odmawiają, ponieważ a) nie miałem jeszcze żadnych prawdziwych danych zestaw wystarczającej liczby przypadków (próbek), aby umożliwić nawet porównanie jednego modelu, ib) dla moich danych spektroskopowych, odpowiednia informacja jest zwykle „rozmazana” na dużych częściach widma, więc wolę regularyzacji, która nie dokonuje twardego wyboru zmiennych.

— cbeleites obsługuje Monikę

1

1) Odpowiedź @ars wspomina o Yang (2005): „Czy można udostępniać mocne strony AIC i BIC?” . Mówiąc luźniej, wydaje się, że nie można mieć kryterium wyboru modelu, aby osiągnąć zarówno spójność (tendencję do wybierania prawidłowego modelu, jeśli rzeczywiście istnieje prawidłowy model i należy on do rozważanych modeli), jak i wydajność (osiągnięcie najniższej średniej średni błąd kwadratu wśród wybranych modeli). Jeśli wybierasz średnio odpowiedni model, czasami dostajesz nieco za małe modele ... ale często brakuje prawdziwego predyktora, robisz gorzej pod względem MSE niż ktoś, kto zawsze zawiera kilka fałszywych predyktorów.

Tak więc, jak powiedziano wcześniej, jeśli bardziej zależy Ci na robieniu dobrych prognoz niż na uzyskiwaniu właściwych zmiennych, dobrze jest nadal używać LOOCV lub AIC.

2) Ale chciałem również zwrócić uwagę na dwa inne z jego artykułów: Yang (2006) „Porównywanie metod uczenia się do klasyfikacji” i Yang (2007) „Spójność walidacji krzyżowej przy porównywaniu procedur regresji” . Te dokumenty pokazują, że nie potrzebujesz stosunku danych treningu do testowania, aby zmniejszyć się do 0, jeśli porównujesz modele, które zbiegają się wolniej niż modele liniowe.

Tak więc, aby odpowiedzieć bardziej bezpośrednio na twoje pierwotne pytania 1-6: wyniki Shao dotyczą porównania modeli liniowych ze sobą. Niezależnie od tego, czy chodzi o regresję czy klasyfikację, jeśli porównujesz modele nieparametryczne, które zbiegają się wolniej (lub nawet porównujesz jeden model liniowy z jednym modelem nieparametrycznym), możesz wykorzystać większość danych do treningu i nadal mieć CV zgodne z wyborem modelu. .. ale Yang sugeruje, że LOOCV jest zbyt ekstremalny.

— Civilstat
źródło