Regresja liniowa, gdy znasz tylko

Załóżmy, że . $X\beta =Y$

Nie wiemy dokładnie, tylko jego korelację z każdego czynnika prognostycznego, . $Y$ $X^\mathrm{t}Y$

Zwykłym rozwiązaniem najmniejszych kwadratów (OLS) jest i nie ma problemu. $\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y$

Załóżmy jednak, że jest bliskie liczbie pojedynczej (wielokoliniowość) i musisz oszacować optymalny parametr grzbietu. Wszystkie metody wydaje się potrzeba dokładnych wartości . $X^\mathrm{t}X$ $Y$

Czy istnieje alternatywna metoda, gdy znany jest tylko ? $X^\mathrm{t}Y$

regression multicollinearity

— Ząbkować
źródło

interesujące pytanie. Być może zadziałałby jakiś algorytm EM ...

— probabilislogiczny

Nie rozumiem, czy nie można użyć weryfikacji krzyżowej do oszacowania optymalnego parametru grzbietu?

— Pardis,

@Pardis: W pytaniu nie podano funkcji utraty, więc nie wiemy, co oznacza optymalne . Czy widzisz problemy, na które natrafimy, jeśli funkcją utraty jest MSE?

— kardynał

@JohnSmith: Nawiązujesz do punktu, w którym jechałem. Nic nie wskazuje na to, jak zmierzyć „optymalność”. To, co skutecznie robisz, to wprowadzenie innej metryki (funkcji odległości) do pomiaru „jakości” prognozy lub dopasowania. Podejrzewam, że potrzebujemy więcej szczegółów z PO, aby dostać się bardzo daleko.

— kardynał

@Pardis: Jak zauważyłeś, znalezienie szacunków nie stanowi problemu. :) Jeśli jednak zdecydujesz się na crossvalidację, jak zamierzasz oszacować MSE poza próbą, tj. Po lewej stronie dla każdej iteracji? :)

— kardynał

Odpowiedzi:

To interesujące pytanie. Zaskakujące jest, że można zrobić coś pod pewnymi założeniami, ale istnieje potencjalna utrata informacji o rezydualnej wariancji. To zależy od ile utracono. $X$

Rozważmy następującą wartość rozkładu pojedynczą o o o matrycy z ortonormalnych kolumny macierzą diagonalną o dodatniej wartości osobliwe w przekątnej i a macierz ortogonalna. Następnie kolumny tworzą ortonormalną podstawę dla przestrzeni kolumn i jest wektorem współczynników dla rzutu na tę przestrzeń kolumny po rozwinięciu w $\newcommand{\t}{^\mathrm{t}}X = UDV\t$ $X$ $U$ $n \times p$ $D$ $d_1 \geq d_2 \geq ... \geq d_p > 0$ $V$ $p \times p$ $U$ $X$

Z = U^{t} Y = D^{- 1} V^{t} V D U^{t} Y = D^{- 1} V^{t} X^{t} Y

$Z = U\t Y = D^{-1} V\t V D U\t Y = D^{-1} V\t X\t Y$

Y

$Y$

U

$U$ Podstawa kolumnyZe wzoru widzimy, że jest obliczeniowy ze znajomości i osiągalne.

Z

$Z$

X

$X$

X^{t} Y

$X\t Y$

Ponieważ predyktor regresji grzbietu dla danego można obliczyć jako widzimy, że współczynniki dla predyktora regresji grzbietu w podstawie kolumny wynoszą Teraz przyjmujemy założenie dystrybucyjne, że ma wymiarową średnią i macierz kowariancji . Zatem ma wymiarową średnią i macierz kowariancji . Jeśli wyobrażamy sobie niezależność $\lambda$

\hat{Y} = X (X^{t} X + λ I)^{- 1} X^{t} Y = U D (D^{2} + λ I)^{- 1} D U^{t} Y = U D (D^{2} + λ I)^{- 1} D Z

$\hat{Y} = X(X\t X + \lambda I)^{-1} X\t Y = U D(D^2 + \lambda I)^{-1} D U\t Y = U D(D^2 + \lambda I)^{-1} D Z$

U

$U$

\hat{Z} = D (D^{2} + λ I)^{- 1} D Z .

$\hat{Z} = D (D^2 + \lambda I)^{-1} D Z.$

Y

$Y$

n

$n$

ξ

$\xi$

σ^{2} I_{n}

$\sigma^2 I_n$

Z

$Z$

p

$p$

U^{t} ξ

$U\t \xi$

σ^{2} I_{p}

$\sigma^2 I_p$

Y^{New}

$Y^{\text{New}}$ z takim samym rozkładem jak ( od tego momentu warunkowo na ) odpowiadający ma to samo dystrybucja jako i jest niezależna i Tutaj trzecia równość następuje po ortogonalności i i czwarty fakt, że

Y

$Y$

X

$X$

Z^{New} = U^{t} Y^{New}

$Z^{\text{New}} = U\t Y^{\text{New}}$

Z

$Z$

\begin{array}{rcl} E | | Y^{New} - \hat{Y} | |^{2} & = & E | | Y^{New} - U Z^{New} + U Z^{New} - U \hat{Z} | |^{2} \\ = & E | | Y^{New} - U Z^{New} | |^{2} + E | | U Z^{New} - U \hat{Z} | |^{2} \\ = & {Err}_{0} + E | | Z^{New} - \hat{Z} | |^{2} . \end{array}

$\begin{eqnarray*} E ||Y^{\text{New}} - \hat{Y}||^2 &= & E || Y^{\text{New}} - U Z^{\text{New}} + U Z^{\text{New}} - U \hat{Z} ||^2 \\ & = & E || Y^{\text{New}} - U Z^{\text{New}}||^2 + E||U Z^{\text{New}} - U \hat{Z} ||^2 \\ & = & \text{Err}_0 + E||Z^{\text{New}} - \hat{Z} ||^2. \end{eqnarray*}$

Y^{New} - U Z^{New}

$Y^{\text{New}} - U Z^{\text{New}}$

U Z^{New} - U \hat{Z}

$U Z^{\text{New}} - U \hat{Z}$

U

$U$ ma kolumny ortonormalne. Ilość jest błędem, o którym nie możemy uzyskać żadnych informacji, ale nie zależy też od . Aby zminimalizować błąd przewidywania po lewej stronie, musimy zminimalizować drugi termin po prawej stronie.

{Err}_{0}

$\text{Err}_0$

λ

$\lambda$

Według standardowego obliczenia Tutaj jest znany jako efektywny stopień swobody regresji grzbietu z parametrem . Bezstronny estymator to

\begin{array}{rcl} E | | Z^{New} - \hat{Z} | |^{2} & = & E | | Z - \hat{Z} | |^{2} + 2 \sum_{i = 1}^{p} cov (Z_{i}, {\hat{Z}}_{i}) \\ = & E | | Z - \hat{Z} | |^{2} + 2 σ^{2} \underset{df (λ)}{\underset{⏟}{\sum_{i = 1}^{p} \frac{d_{i}^{2}}{d_{i}^{2} + λ}}} . \end{array}

$\begin{eqnarray*} E||Z^{\text{New}} - \hat{Z} ||^2 &= & E||Z - \hat{Z}||^2 + 2 \sum_{i=1}^p \text{cov}(Z_i, \hat{Z}_i) \\ & = & E||Z - \hat{Z}||^2 + 2 \sigma^2 \underbrace{\sum_{i=1}^p \frac{d_i^2}{d_i^2 + \lambda}}_{\text{df}(\lambda)}. \end{eqnarray*}$

df (λ)

$\text{df}(\lambda)$

λ

$\lambda$

E | | Z - \hat{Z} | |^{2}

$E||Z - \hat{Z}||^2$

err (λ) = | | Z - \hat{Z} | |^{2} = \sum_{i = 1}^{p} {(1 - \frac{d_{i}^{2}}{d_{i}^{2} + λ})}^{2} Z_{i}^{2} .

$\text{err}(\lambda) = ||Z - \hat{Z}||^2 = \sum_{i=1}^p \left(1 - \frac{d_i^2}{d_i^2 + \lambda}\right)^2 Z_i^2.$

Łączymy to z (bezstronnym) estymatorem z biorąc pod uwagę, że wiemy , które następnie musimy zminimalizować. Oczywiście można to zrobić tylko wtedy, gdy znamy lub mamy rozsądne domysły co do estymatora .

err (λ) + 2 σ^{2} df (λ)

$\text{err}(\lambda) + 2 \sigma^2 \text{df}(\lambda)$

E | | Z^{New} - \hat{Z} | |^{2}

$E||Z^{\text{New}} - \hat{Z} ||^2$

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

Szacowanie może być bardziej problematyczne. Można pokazać, że Jeśli więc możliwe jest wybranie tak małej, że kwadratowe odchylenie może zostać zignorowane, możemy spróbować oszacować jako Jeśli ta praca będzie zależy wiele na . $\sigma^2$

E | | Z - \hat{Z} | |^{2} = σ^{2} (p - \underset{d (λ)}{\underset{⏟}{\sum_{i = 1}^{p} \frac{d_{i}^{2}}{d_{i}^{2} + λ} (2 - \frac{d_{i}^{2}}{d_{i}^{2} + λ})}}) + bias (λ)^{2} .

$E||Z - \hat{Z}||^2 = \sigma^2\left(p - \underbrace{\sum_{i=1}^p \frac{d_i^2}{d_i^2 + \lambda}\left(2 - \frac{d_i^2}{d_i^2 + \lambda}\right)}_{\text{d}(\lambda)}\right) + \text{bias}(\lambda)^2.$

λ

$\lambda$

σ^{2}

$\sigma^2$

{\hat{σ}}^{2} = \frac{1}{p - d (λ)} | | Z - \hat{Z} | |^{2} .

$\hat{\sigma}^2 = \frac{1}{p-\text{d}(\lambda)} ||Z - \hat{Z}||^2.$

X

$X$

Aby uzyskać szczegółowe informacje, zobacz sekcję 3.4.1 i rozdział 7 w języku ESL lub jeszcze lepiej rozdział 2 w GAM .

— NRH
źródło

Zdefiniuj jak w pytaniu i dla różnych parametrów i ustawia przykładowych etykiet. Następnie można obliczyć, ponieważ nieznane spada po rozwinięciu obu normy. $β$ $β(λ,K)=[(X^TX)_{KK}+λI]^{−1}(X^TY)_K$ $\lambda$ $K$ $e(λ,K):=\|Xβ(λ,K)-Y\|^2-\|Xβ-Y\|^2$ $\|Y\|^2$

Prowadzi to do następującego algorytmu:

Obliczyć dla pewnych wyborów zbioru szkolenie . $e(λ,K)$ $K$
Wykreśl wyniki jako funkcję . $\lambda$
Zaakceptuj wartość gdzie wykres jest najbardziej płaski. $\lambda$
Użyj jako ostatecznego oszacowania. $β^*=[X^TX+λI]^{−1}X^TY$

— Arnold Neumaier
źródło

Zgaduję, że „gdzie fabuła jest najbardziej płaska” będzie w bardzo mała, jak z grubsza 0 :)

λ

$\lambda$

— jbowman

@jbowman: Stanie się tak tylko wtedy, gdy problem będzie dobrze uwarunkowany i nie wymaga regularności, wtedy jest rzeczywiście wystarczające. W przypadku źle uwarunkowanym przewidywanie pozycji poza będzie słabe z powodu przeregulowania, a zatem będzie duże.

λ = 0

$\lambda=0$

K

$K$

e (λ, K)

$e(\lambda,K)$

— Arnold Neumaier

@ArnoldNeumaier: nie jest obliczalny. Znamy tylko korelację z każdym predyktorem. znajduje się w „domenie predyktora”, a nie w „domenie Y” (jeśli N jest rozmiarem próby, a p liczbą predyktorów, mamy tylko wartości p, po jednej dla każdego predyktora).

(X^{T} Y)_{K}

$(X^TY)_K$

(X^{T} Y)

$(X^TY)$

— Jag

@Jag: Wówczas nie ma wystarczających informacji, aby wybrać . Ale musiało być jakoś zebrane. Jeśli podczas jej zbierania podzielisz próbkę na partii i złożysz osobno dla każdej partii, wówczas możesz zarezerwować jedną partię dla weryfikacji krzyżowej.

λ

$\lambda$

X^{T} Y

$X^TY$

k

$k$

X^{T} Y

$X^TY$

— Arnold Neumaier,

@ArnoldNeumaier: są podawane zewnętrznie, nie zbierane.

X^{T} Y

$X^TY$

— Jag