Spróbuję to wyjaśnić w przypadku liniowym. Rozważ model liniowy
Gdy (liczba zmiennych niezależnych mniejsza lub równa liczbie obserwacji) i macierz projektowa ma pełną rangę, najmniejszym kwadratowym estymatorem jest Błąd i przewidywania to
z którego możemy wywnioskować
Oznacza to, że każdy parametr jest szacowany z dokładnością do kwadratuWięc ogólna kwadratowa dokładność wynosiP ≤ n b b = ( X , T X ) - 1 x T Y ‖ X ( b - β 0 ) ‖ 2 2
Yi=∑j=1pβjX(j)i+ϵi,i=1,...,n.
p≤nbb^= ( XT.X)- 1XT.Y
∥ X( b^- β0) ∥2)2)σ2)
E∥X(b^−β0)∥22n=σ2np.
β0jσ2/n,j=1,...,p.(σ2/n)p.
Co teraz, jeśli liczba obserwacji jest mniejsza niż liczba zmiennych niezależnych ? „Uważamy”, że nie wszystkie nasze niezależne zmienne odgrywają rolę w wyjaśnianiu , więc tylko kilka, powiedzmy , jest niezerowych. Gdybyśmy wiedzieli, które zmienne są niezerowe, moglibyśmy pominąć wszystkie inne zmienne i powyższym argumentem ogólna kwadratowa dokładność wynosiłaby(p>n)Yk(σ2/n)k.
Ponieważ zestaw niezerowych zmiennych jest nieznany, potrzebujemy pewnej kary regularyzacji (na przykład ) z parametrem regularyzacji (który kontroluje liczbę zmiennych). Teraz chcesz uzyskać wyniki podobne do omówionych powyżej, chcesz oszacować dokładność do kwadratu. Problem polega na tym, że twój optymalny estymator jest teraz zależny od . Ale wielkim faktem jest to, że przy właściwym wyborze można z dużym prawdopodobieństwem uzyskać górną granicę błędu prognozy, czyli „nierówność wyroczni”
Zwróć uwagę na dodatkowy czynnik X β X X ‖ X ( β - β 0 ) ‖ 2 2l1λβ^λλlogpc
∥X(β^−β0)∥22n≤const.σ2logpnk.
logp, czyli cena za brak znajomości zestawu zmiennych niezerowych. „ ” zależy tylko od lub .
p nconst.pn