Dlaczego eliminacja wsteczna jest uzasadniona podczas regresji wielokrotnej?


9

Czy nie powoduje to nadmiernego dopasowania? Czy moje wyniki byłyby bardziej wiarygodne, jeśli w ramach analizy dodałem procedurę typu jack-knife lub bootstrap?


8
Kto mówi, że to uzasadnione? Oczywiście powinno to prowadzić do nadmiernego dopasowania.
Gung - Przywróć Monikę

2
Jest to faktycznie sugerowane w wielu książkach (nadal?), Np . Amazon.com/Statistics-Explained-Introductory-Guide-Sciencesists/.... Sam zastanawiałem się nad tym samym problemem. Wydaje mi się, że mam co najmniej 3–4 książki statystyczne, które w ogóle nie omawiają problemu nadmiernego dopasowania, gdy wprowadzam regresję wielokrotną.
mmh

5
Szczerze mówiąc, jeśli wstępna książka statystyczna nie mówi o przeuczeniu i testowaniu, przeczytałbym inną książkę.
Matthew Drury

3
Eliminacja wsteczna (i selekcja do przodu) nadal ma tendencję do nadmiernego dopasowania, jeśli jako kryterium wyboru funkcji zostanie zastosowana walidacja krzyżowa z pominięciem jednego wykluczenia (np. PRESS).
Dikran Torbacz

5
@mmh niezbyt wprowadzający, ale bardzo polecam przeczytanie rozdziału 4 Strategii modelowania regresji Franka Harrella. Cóż, nie tylko rozdział 4 jest wart przeczytania, ale ta część jest szczególnie istotna w tej dyskusji).
Glen_b

Odpowiedzi:


2

Myślę, że budowanie modelu i testowanie go to różne rzeczy. Eliminacja wsteczna jest częścią budowy modelu. Nóż typu jack i pasek startowy są bardziej używane do jego testowania.

Z pewnością możesz mieć bardziej wiarygodne szacunki z bootstrap i nożem podnośnikowym niż prosta eliminacja do tyłu. Ale jeśli naprawdę chcesz przetestować nadmierne dopasowanie, ostatecznym testem jest próba podzielona, ​​trening na jednych, test na innych. Pominięcie jest zbyt niestabilne / zawodne w tym celu: http://www.russpoldrack.org/2012/12/the-perils-of-leave-one-out.html

Myślę, że co najmniej 10% badanych musi wyjść na zewnątrz, aby uzyskać bardziej stabilne oszacowania niezawodności modelu. A jeśli masz 20 przedmiotów, 2 przedmiotów to wciąż bardzo niewiele. Ale wtedy pojawia się pytanie, czy masz wystarczająco dużą próbkę, aby zbudować model, który można zastosować do reszty populacji.

Mam nadzieję, że przynajmniej częściowo odpowiedziała na twoje pytanie.


Tak więc można po prostu użyć weryfikacji krzyżowej z k<n (lub k<<n)?
mmh

Wprowadzenie do uczenia statystycznego omawia różne podejścia do ponownego próbkowania (zestawy walidacyjne, walidacja krzyżowa z różną liczbą grup, ładowanie początkowe) w rozdziale 5 i wybór modelu w rozdziale 6.
EdM
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.