Odpowiedzi:
Model oszczędny to model, który osiąga pożądany poziom wyjaśnienia lub przewidywania przy możliwie najmniejszej liczbie zmiennych predykcyjnych.
Do oceny modelu istnieją różne metody w zależności od tego, co chcesz wiedzieć. Istnieją zasadniczo dwa sposoby oceny modelu: Na podstawie prognoz i na podstawie dopasowania do bieżących danych. W pierwszym przypadku chcesz wiedzieć, czy Twój model odpowiednio przewiduje nowe dane, w drugim chcesz wiedzieć, czy Twój model odpowiednio opisuje relacje w twoich bieżących danych. To są dwie różne rzeczy.
Najlepszym sposobem oceny modeli używanych do prognozowania jest walidacja krzyżowa. Bardzo krótko, wycinasz swój zestaw danych np. 10 różnych elementów, użyj 9 z nich, aby zbudować model i przewidzieć wyniki dla dziesiątego zestawu danych. Prosta średnia kwadratowa różnica między zaobserwowanymi a przewidywanymi wartościami daje miarę dokładności prognozowania. Powtarzając to dziesięć razy, obliczasz średnią kwadratową różnicę dla wszystkich dziesięciu iteracji, aby uzyskać ogólną wartość ze standardowym odchyleniem. Pozwala to ponownie porównać dwa modele pod względem dokładności prognozowania przy użyciu standardowych technik statystycznych (test t lub ANOVA).
Wariantem na temat jest kryterium PRASY (Prediction Sum of Squares), zdefiniowane jako
Gdzie Y i ( - i ) jest przewidywana wartość dla obserwacji ith wykorzystaniem modelu opartego na wszystkich obserwacji minus wartość i-tego. To kryterium jest szczególnie przydatne, jeśli nie masz dużo danych. W takim przypadku podzielenie danych jak w podejściu krzyżowej weryfikacji może spowodować, że podzbiory danych będą zbyt małe, aby zapewnić stabilne dopasowanie.
Po pierwsze, pozwól mi stwierdzić, że tak naprawdę różni się to w zależności od używanego modelu. Na przykład test współczynnika prawdopodobieństwa może działać w przypadku uogólnionych addytywnych modeli mieszanych przy użyciu klasycznego gaussa dla błędów, ale nie ma znaczenia w przypadku wariantu dwumianowego.
Najpierw masz bardziej intuicyjne metody porównywania modeli. Możesz użyć Aikake Information Criterion (AIC) lub Bayesian Information Criterion (BIC), aby porównać stopień dopasowania dwóch modeli. Ale nic nie mówi, że oba modele naprawdę się różnią.
Kolejnym jest kryterium C Mallowa. To zasadniczo sprawdza możliwe odchylenie w twoim modelu, porównując model ze wszystkimi możliwymi podmodelami (lub starannym ich wyborem). Zobacz także http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf
Jeśli modele, które chcesz porównać, są modelami zagnieżdżonymi (tj. Wszystkie predyktory i interakcje bardziej oszczędnego modelu występują również w bardziej kompletnym modelu), możesz użyć formalnego porównania w postaci testu współczynnika wiarygodności (lub chi-kwadrat lub test F w odpowiednich przypadkach, np. przy porównywaniu prostych modeli liniowych dopasowanych przy użyciu najmniejszych kwadratów). Ten test zasadniczo kontroluje, czy dodatkowe predyktory lub interakcje naprawdę poprawiają model. To kryterium jest często stosowane w krokowych metodach do przodu lub do tyłu.
Masz zwolenników i wrogów tej metody. Ja osobiście nie jestem zwolennikiem automatycznego wyboru modelu, zwłaszcza gdy chodzi o opisywanie modeli, a to z kilku powodów:
Zasadniczo widzę więcej w porównaniu wybranych wcześniej wybranych modeli. Jeśli nie zależy ci na statystycznej ocenie modelu i testowaniu hipotez, możesz użyć walidacji krzyżowej, aby porównać dokładność predykcyjną swoich modeli.
Ale jeśli naprawdę zależy ci na wyborze zmiennych do celów predykcyjnych, możesz rzucić okiem na inne metody wyboru zmiennych, takie jak obsługa wektorowych maszyn, sieci neuronowe, losowe lasy i podobne. Są one znacznie częściej stosowane np. W medycynie, aby dowiedzieć się, które z tysięcy zmierzonych białek mogą odpowiednio przewidzieć, czy masz raka czy nie. Aby podać (sławny) przykład:
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
Wszystkie te metody mają również warianty regresji dla danych ciągłych.
Korzystanie z wyboru wstecz lub w przód jest powszechną strategią, ale nie mogę jej polecić. Wszystkie wyniki takiego budowania modelu są błędne. Wartości p są zbyt niskie, współczynniki są odchylone od zera i istnieją inne powiązane problemy.
Jeśli musisz dokonać automatycznego wyboru zmiennych, poleciłbym użycie bardziej nowoczesnej metody, takiej jak LASSO lub LAR.
Napisałem na ten temat prezentację SAS, zatytułowaną „Stopniowe zatrzymywanie: dlaczego stopniowe i podobne metody są złe i czego powinieneś używać”
Ale jeśli to możliwe, całkowicie unikałbym tych zautomatyzowanych metod i polegam na wiedzy specjalistycznej w tej dziedzinie. Jednym z pomysłów jest wygenerowanie około 10 rozsądnych modeli i porównanie ich w oparciu o kryterium informacyjne. @Nick Sabbe wymienił kilka z nich w swojej odpowiedzi.
Odpowiedź na to pytanie będzie w dużej mierze zależeć od twojego celu. Być może szukasz statystycznie znaczących współczynników lub możesz uniknąć wielu błędnych klasyfikacji przy przewidywaniu wyniku dla nowych obserwacji, lub możesz po prostu interesować się modelem z najmniej fałszywymi pozytywami; być może po prostu chcesz, aby krzywa była „najbliższa” danym.
W każdym z powyższych przypadków potrzebujesz jakiegoś środka do tego, czego szukasz. Niektóre popularne miary z różnymi aplikacjami to AUC, BIC, AIC, błąd resztkowy, ...
Obliczasz miarę, która najlepiej pasuje do celu dla każdego modelu, a następnie porównujesz „wyniki” dla każdego modelu. To prowadzi do najlepszego modelu dla twojego celu.
Niektóre z tych miar (np. AIC) kładą dodatkowy nacisk na liczbę niezerowych współczynników w modelu, ponieważ użycie zbyt wielu może po prostu przerastać dane (tak więc model jest bezużyteczny, jeśli użyjesz go do nowych danych, a tym bardziej do populacja). Mogą istnieć inne powody, dla których model musi przechowywać zmienne „jak najmniej”, np. Jeśli pomiar wszystkich z nich w celu prognozowania jest po prostu kosztowny. „Prostota” lub „niewielka liczba zmiennych” w modelu jest zwykle określana jako jego parsimony.
Krótko mówiąc, model oszczędny jest modelem „prostym”, nie zawierającym zbyt wielu zmiennych.
Jak często przy tego rodzaju pytaniach, odsyłam cię do doskonałej książki Elementy statystycznego uczenia się, aby uzyskać głębsze informacje na ten temat i powiązane zagadnienia.
Uważam, że dyskusja tutaj jest interesująca, szczególnie debata pomiędzy Parsimonious i Model z większą liczbą współczynników i zmiennych.
Mój prof. Późny dr Steve podkreślał oszczędny model z niskim R ^ 2 w porównaniu z innym modelem z lepszym dopasowaniem / dużym R ^ 2.
Dzięki za wszystkie ryby tutaj!
Akash