W swoim artykule Linear Model Selection by Cross-Validation Jun Shao pokazuje, że w przypadku problemu selekcji zmiennych w wielowymiarowej regresji liniowej metoda walidacji krzyżowej z pominięciem jednego elementu (LOOCV) jest „asymptotycznie niespójna”. W prostym języku angielskim ma tendencję do wybierania modeli ze zbyt wieloma zmiennymi. W badaniu symulacyjnym Shao pokazuje, że nawet w przypadku zaledwie 40 obserwacji LOOCV może mieć gorsze wyniki niż inne techniki walidacji krzyżowej.
Ten artykuł jest nieco kontrowersyjny i nieco ignorowany (10 lat po jego opublikowaniu moi koledzy z chemometrii nigdy o nim nie słyszeli i chętnie używali LOOCV do selekcji zmiennych ...). Istnieje również przekonanie (jestem tego winny), że jego wyniki wykraczają nieco poza pierwotnie ograniczony zakres.
Pytanie zatem: jak daleko sięgają te wyniki? Czy dotyczą następujących problemów?
- Zmienny wybór regresji logistycznej / GLM?
- Zmienny wybór do klasyfikacji Fisher LDA?
- Zmienny wybór za pomocą SVM ze skończoną (lub nieskończoną) przestrzenią jądra?
- Porównanie modeli w klasyfikacji, powiedzmy, że SVM używa różnych jąder?
- Porównanie modeli w regresji liniowej, powiedzmy, porównanie MLR z regresją Ridge'a?
- itp.