Jakie są założenia regresji grzbietu i jak je przetestować?

Rozważmy standardowy model regresji wielokrotnej gdzie , więc normalność, homoscedastyczność i nieskorelacja błędów pozostają w mocy.

Y = X β + ε

$Y=X\beta+\varepsilon$

ε \sim N (0, σ^{2} I_{n})

$\varepsilon \sim \mathcal N(0, \sigma^2I_n)$

Załóżmy, że wykonujemy regresję grzbietu, dodając tę samą niewielką ilość do wszystkich elementów przekątnej : $X$

β_{r i d g e} = [X^{'} X + k I]^{- 1} X^{'} Y

$\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y$

Istnieją pewne wartości dla których współczynnik grzbietu ma mniejszy średni błąd kwadratowy niż te uzyskane przez OLS, chociaż jest tendencyjnym estymatorem . W praktyce jest uzyskiwane przez walidację krzyżową. $k$ $\beta_\mathrm{ridge}$ $\beta$ $k$

Oto moje pytanie: jakie są założenia modelu kalenicy? Aby być bardziej konkretnym,

Czy wszystkie założenia dotyczące zwykłego najmniejszego kwadratu (OLS) są prawidłowe z regresją kalenicy?
Jeśli tak, w przypadku pytania 1, w jaki sposób testujemy homoscedastyczność i brak autokorelacji z tendencyjnym estymatorem $\beta$ ?
Czy jest jakaś praca nad testowaniem innych założeń OLS (homoscedastyczność i brak autokorelacji) w regresji grzbietu?

regression assumptions ridge-regression

— akyves
źródło

Należy pamiętać, że OLS nie zakłada, że predyktory są niezależne. Takie założenia przyjmują tylko określone metody lub formuły rozwiązania. Ważne jest, jak wybrać mnożnik regresji grzbietu, a nie to, że oszacowanie może być stronnicze. Jeśli ten mnożnik zostanie wybrany poprzez spojrzenie na ślad grzbietu, to tak naprawdę nie masz sposobu na oszacowanie niepewności, co podważa większość formalnych testów diagnostycznych w teorii regresji liniowej. To prowadzi mnie do pytania, co właściwie rozumiesz przez „regresję grzbietu”: jak dokładnie oceniasz jego parametr?

β

$\beta$

— whuber

Być może się mylę, ale biorąc pod uwagę standardowy model regresji wielokrotnej . A jeśli nie ma pełnej rangi, prowadzi to do nieodwracalnej macierzy , szczególnie w przypadku dużego wymiaru X. Zredagowałem swoje pytanie. Dzięki.

β_{O L S} = (X^{'} X)^{- 1} X^{'} Y

$\beta_{OLS}=(X'X)^{-1}X'Y$

X

$X$

X^{'} X

$X'X$

— akyves

Regresja liniowa doskonale radzi sobie z kolinearnością, o ile nie jest „zbyt duża”.

— jona

To nie jest model regresji wielokrotnej: to tylko jeden sposób wyrażenia szacunku najmniejszych kwadratów. Gdy nie jest odwracalna, równania normalne nadal mają rozwiązania i (zwykle) model nadal ma unikalne dopasowanie , co oznacza, że tworzy unikalne prognozy.

X^{'} X

$X^\prime X$

— whuber

Powiązane: Modelowe założenia regresji częściowej najmniejszych kwadratów (PLS) .

— ameba mówi Przywróć Monikę

Odpowiedzi:

Jakie jest założenie procedury statystycznej?

Nie jestem statystykiem, więc może to być źle, ale myślę, że słowo „założenie” jest często używane dość nieformalnie i może odnosić się do różnych rzeczy. Dla mnie „założenie” jest, ściśle mówiąc, czymś, co może mieć jedynie wynik teoretyczny (twierdzenie).

Kiedy ludzie mówią o założeniach regresji liniowej ( patrz tutaj do szczegółowej dyskusji), zwykle odnoszą się do twierdzenia Gaussa-Markowa, które mówi, że przy założeniach błędów nieskorelowanych, równych wariancji, błędów zerowych, OLS jest NIEBIESKI , tj. jest bezstronny i ma minimalną wariancję. Poza kontekstem twierdzenia Gaussa-Markowa nie jest dla mnie jasne, co w ogóle oznaczałoby „założenie regresji”.

$t$ $t$ $n$ $t$ $t$ $n-1$

Założenia technik regresji karnej

Rozważ teraz dowolną technikę regresji regulowanej: regresję grzbietu, lasso, siatkę elastyczną, regresję głównych składników, regresję częściowych najmniejszych kwadratów itp. Itd. Cały sens tych metod polega na uprzedzonym oszacowaniu parametrów regresji i nadziei na zmniejszenie oczekiwanego strata poprzez wykorzystanie kompromisu wariancji odchylenia.

$\hat \beta$

Ale co z matematycznym wynikiem, że regresja kalenicy zawsze bije OLS?

$\lambda$ $\beta$ $\lambda$

Ten wynik w rzeczywistości nie wymaga żadnych założeń i zawsze jest prawdziwy, ale dziwne byłoby twierdzenie, że regresja kalenicowa nie ma żadnych założeń.

Okej, ale skąd mam wiedzieć, czy mogę zastosować regresję grzbietu, czy nie?

Powiedziałbym, że nawet jeśli nie możemy mówić o założeniach, możemy mówić o praktycznych zasadach . Dobrze wiadomo, że regresja grzbietowa jest najbardziej przydatna w przypadku regresji wielokrotnej ze skorelowanymi predyktorami. Powszechnie wiadomo, że ma tendencję do przewyższania OLS, często z dużym marginesem. Będzie miał tendencję do przewyższania go nawet w przypadku heteroscedastyczności, skorelowanych błędów lub cokolwiek innego. Zatem prosta reguła mówi, że jeśli masz dane wielokoliniowe, regresja kalenicy i walidacja krzyżowa są dobrym pomysłem.

Prawdopodobnie istnieją inne przydatne zasady praktyczne i sztuczki handlowe (takie jak np. Co robić z wartościami odstającymi brutto). Ale to nie są założenia.

$p$ $p$

— ameba mówi Przywróć Monikę
źródło

W sytuacji, w której wyprowadza się właściwości wnioskowania w odniesieniu do niektórych procedur, na przykład, czy są to właściwości testu hipotez nachylenia regresji, czy właściwości przedziału ufności lub przedziału prognozowania, na przykład same testy zostaną uzyskane na podstawie zestaw założeń. Ponieważ w wielu obszarach tematycznych zdecydowanie najczęstszym celem stosowania regresji jest przeprowadzenie pewnego wnioskowania (w niektórych obszarach zastosowania jest to rzadko wykonywane z jakiegokolwiek innego powodu), założenia, które można przyjąć dla procedury wnioskowania są naturalnie powiązane with ... ctd

— Glen_b -Reinstate Monica

ctd ... rzecz, na której są używane. Więc jeśli potrzebujesz pewnych założeń, aby wyprowadzić test t do testowania współczynnika regresji lub dla częściowego testu F lub dla CI dla średniej lub przedziału predykcji ... a wszystkie zwykłe formy wnioskowania czynią to samo lub prawie ten sam zbiór założeń, wówczas można je rozsądnie uznać za założenia związane z przeprowadzaniem wnioskowania przy użyciu tej rzeczy. Jeśli ktoś ma dokonać wnioskowania z regresją kalenicy (powiedzmy przedział prognozy) i dokonuje w tym celu założeń, można je również uznać za założenia ... ctd

— Glen_b -Reinstate Monica 26.11.15

musiała być w stanie wyprowadzić (i przypuszczalnie zatem użyć) tego rodzaju wnioskowanie na temat regresji grzbietu.

— Glen_b

R^{2}

$R^2$

Nie za późno mam nadzieję podziękować @amoeba. Świetna odpowiedź!

— akyves

Chciałbym przekazać pewne informacje z perspektywy statystyki. Jeśli Y ~ N (Xb, sigma2 * In), to średni błąd kwadratowy b ^ wynosi

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

Jeśli XT X jest w przybliżeniu zero, to inv (XT X) będzie bardzo duże. Zatem oszacowanie parametru b nie jest stabilne i może powodować następujący problem.

pewna wartość bezwzględna oszacowania parametru jest bardzo duża
b ma przeciwny znak dodatni lub ujemny niż oczekiwano.
dodanie lub usunięcie zmiennych lub obserwacji spowoduje, że oszacowania parametrów drastycznie się zmienią.

Aby ustabilizować szacunkową najmniejszą kwadratową wartość b, wprowadzamy regresję grzbietu, szacując wartość b^(k)=inv(X.T*X+kI)*X.T*Y.I możemy udowodnić, że zawsze istnieje wartość ak, która powoduje błąd średni kwadrat

MSE(b^(k)) < MSE(b^).

W uczeniu maszynowym regresja kalenicy nazywa się regularyzacją L2 i ma na celu walkę z nadmiernie dopasowanymi problemami powodowanymi przez wiele funkcji.

— Emma
źródło