Z grubsza mówiąc, istnieją trzy różne źródła błędu prognozowania:
- stronniczość twojego modelu
- wariancja twojego modelu
- niewyjaśniona wariancja
Nie możemy nic zrobić z punktem 3 (z wyjątkiem próby oszacowania niewyjaśnionej wariancji i włączenia jej do naszych gęstości predykcyjnych i przedziałów prognozowania). Pozostaje nam 1 i 2.
Jeśli faktycznie masz „właściwy” model, to powiedzmy, że szacunki parametrów OLS będą obiektywne i będą miały minimalną wariancję między wszystkimi obiektywnymi (liniowymi) estymatorami (są NIEBIESKIE). Prognozy z modelu OLS będą najlepszymi liniowymi obiektywnymi prognozami (BLUP). To brzmi dobrze.
Okazuje się jednak, że chociaż mamy obiektywne prognozy i minimalną wariancję wśród wszystkich obiektywnych prognoz, wariancja może być nadal dość duża. Co ważniejsze, czasami możemy wprowadzić „małą” stronniczość i jednocześnie zaoszczędzić „dużo” wariancji - a dzięki poprawie kompromisu możemy uzyskać niższy błąd predykcji z modelem tendencyjnym (mniejsza wariancja) niż z obiektywnym ( wyższa wariancja). Nazywa się to „kompromisem wariancji uprzedzeń”, a to pytanie i odpowiedzi są pouczające: kiedy preferowany estymator jest lepszy niż obiektywny?
I właśnie regularyzacja, taka jak lasso, regresja kalenicy, elastyczna siatka i tak dalej. Wyciągają model do zera. (Podejścia bayesowskie są podobne - przyciągają model w kierunku priorytetów.) Zatem modele regularyzowane będą tendencyjne w porównaniu z modelami nieregulowanymi, ale mają również mniejszą wariancję. Jeśli wybierzesz swoje prawo do regularyzacji, wynikiem będzie prognoza z niższym błędem.
Jeśli szukasz „regularyzacji kompromisowej wariancji odchylenia” lub podobnej, masz do myślenia. Na przykład ta prezentacja jest przydatna.
EDYCJA: ameba całkiem słusznie wskazuje, że zastanawiam się, dlaczego dokładnie regularyzacja daje mniejszą wariancję modeli i prognoz. Rozważ model lasso z dużym parametrem regularyzacji . Jeśli , wszystkie twoje oszacowania parametrów lasso zostaną zmniejszone do zera. Stała wartość parametru zero ma zerową wariancję. (Nie jest to do końca poprawne, ponieważ wartość progowa powyżej której parametry zostaną zmniejszone do zera, zależy od danych i modelu. Jednak biorąc pod uwagę model i dane, można znaleźćλλ→∞λλtak, że model jest modelem zerowym. Zawsze trzymaj swoje kwantyfikatory prosto.) Jednak model zerowy będzie miał również olbrzymią tendencję. W końcu nie obchodzi go faktyczna obserwacja.
To samo dotyczy niezupełnie skrajnych wartości parametrów regularyzacji: małe wartości dają nieregularne oszacowania parametrów, które będą mniej tendencyjne (obiektywne, jeśli masz „prawidłowy” model), ale mają wyższe zmienność. Będą „skakać” zgodnie z twoimi obserwacjami. Wyższe wartości twojej regularyzacji będą coraz bardziej „ograniczały” szacunki parametrów. Właśnie dlatego metody te mają nazwy takie jak „lasso” lub „siatka elastyczna”: ograniczają swobodę parametrów użytkownika w zakresie przemieszczania się i śledzenia danych.λ
(Piszę na ten temat mały artykuł, który, mam nadzieję, będzie raczej dostępny. Dodam link, gdy będzie dostępny).