Funkcje wpływu i OLS

Próbuję zrozumieć, jak działają funkcje wpływu. Czy ktoś mógłby wyjaśnić w kontekście prostej regresji OLS

y_{i} = α + β \cdot x_{i} + ε_{i}

$\begin{equation} y_i = \alpha + \beta \cdot x_i + \varepsilon_i \end{equation}$

gdzie chcę funkcję wpływu dla . $\beta$

regression least-squares

— stevejb
źródło

Nie ma jeszcze konkretnego pytania: czy chcesz zobaczyć, jak obliczana jest funkcja wpływu? Czy chcesz konkretny przykład empiryczny? Heurystyczne wyjaśnienie, co to znaczy?

— whuber

Jeśli spojrzysz na artykuł Franka Critchleya z 1986 roku, „wpływaj na funkcje w głównych komponentach” (nie pamiętam dokładnej nazwy artykułu). Definiuje tutaj funkcję wpływu dla zwykłej regresji (która może, ale nie musi, potwierdzić moją odpowiedź).

— probabilityislogic

Odpowiedzi:

Funkcje wpływu są w zasadzie narzędziem analitycznym, które można wykorzystać do oceny wpływu (lub „wpływu”) usunięcia obserwacji na wartość statystyki bez konieczności ponownego obliczania tej statystyki . Można je również wykorzystać do tworzenia asymptotycznych oszacowań wariancji. Jeśli wpływ jest równy wariancja asymptotyczna wynosi . $I$ $\frac{I^2}{n}$

Sposób, w jaki rozumiem funkcje wpływu, jest następujący. Masz jakiś teoretyczny CDF, oznaczony . Dla prostych OLS masz $F_{i}(y)=Pr(Y_{i}<y_{i})$

P. r (Y_{ja} < y_{ja}) = P. r (α + β x_{ja} + ϵ_{ja} < y_{ja}) = Φ (\frac{y_{ja} - (α + β x_{ja})}{σ})

$Pr(Y_{i}<y_{i})=Pr(\alpha+\beta x_{i} + \epsilon_{i} < y_{i})=\Phi\left(\frac{y_{i}-(\alpha+\beta x_{i})}{\sigma}\right)$ Gdzie to standardowy normalny CDF, a to wariancja błędu. Teraz możesz pokazać, że każda statystyka będzie funkcją tego CDF, stąd zapis (tj. Jakaś funkcja ). Załóżmy teraz, że zmienimy funkcję „trochę” na Gdzie i . Zatem reprezentuje CDF danych z usuniętym „i” punktem danych. Możemy zrobić serię Taylor

Φ (z)

$\Phi(z)$

σ^{2}

$\sigma^2$

S (F)

$S(F)$

F

$F$

F

$F$

F_{(i)} (z) = (1 + ζ) F (z) - ζ δ_{(i)} (z)

$F_{(i)}(z)=(1+\zeta)F(z)-\zeta \delta_{(i)}(z)$

δ_{i} (z) = I (y_{i} < z)

$\delta_{i}(z)=I(y_{i}<z)$

ζ = \frac{1}{n - 1}

$\zeta=\frac{1}{n-1}$

F_{(i)}

$F_{(i)}$

F_{(i)} (z)

$F_{(i)}(z)$ about . To daje:

ζ = 0

$\zeta=0$

S. [{fa}_{(ja)} (z, ζ)] \approx S. [{fa}_{(ja)} (z, 0)] + ζ [\frac{\partial S. [{fa}_{(ja)} (z, ζ)]}{\partial ζ} |_{ζ = 0}]

$S[F_{(i)}(z,\zeta)] \approx S[F_{(i)}(z,0)]+\zeta\left[\frac{\partial S[F_{(i)}(z,\zeta)]}{\partial \zeta}|_{\zeta=0}\right]$

Zauważ, że więc otrzymujemy: $F_{(i)}(z,0)=F(z)$

S [F_{(i)} (z, ζ)] \approx S [F (z)] + ζ [\frac{\partial S [F_{(i)} (z, ζ)]}{\partial ζ} |_{ζ = 0}]

$S[F_{(i)}(z,\zeta)] \approx S[F(z)]+\zeta\left[\frac{\partial S[F_{(i)}(z,\zeta)]}{\partial \zeta}|_{\zeta=0}\right]$

Pochodna cząstkowa nazywana jest tutaj funkcją wpływu. Jest to więc przybliżona korekta „pierwszego rzędu”, którą należy wprowadzić do statystyki z powodu usunięcia „i-tej” obserwacji. Zauważ, że w regresji reszta nie idzie do zera asymetrycznie, więc jest to przybliżenie zmian, które możesz faktycznie uzyskać. Teraz napisz jako: $\beta$

β = \frac{\frac{1}{n} \sum_{j = 1}^{n} (y_{j} - \bar{y}) (x_{j} - \bar{x})}{\frac{1}{n} \sum_{j = 1}^{n} (x_{j} - \bar{x})^{2}}

$\beta=\frac{\frac{1}{n}\sum_{j=1}^{n}(y_{j}-\overline{y})(x_{j}-\overline{x})}{\frac{1}{n}\sum_{j=1}^{n}(x_{j}-\overline{x})^2}$

Zatem beta jest funkcją dwóch statystyk: wariancji X i kowariancji między X i Y. Te dwie statystyki mają reprezentacje w kategoriach CDF, ponieważ:

c o v (X, Y) = \int (X - μ_{x} (F)) (Y - μ_{y} (F)) d F

$cov(X,Y)=\int(X-\mu_x(F))(Y-\mu_y(F))dF$ i gdzie

v a r (X) = \int (X - μ_{x} (F))^{2} d F

$var(X)=\int(X-\mu_x(F))^{2}dF$

μ_{x} = \int x d F

$\mu_x=\int xdF$

Aby usunąć i-tą obserwację, zamieniamy w obu całkach, aby dać: $F\rightarrow F_{(i)}=(1+\zeta)F-\zeta \delta_{(i)}$

μ_{x (i)} = \int x d [(1 + ζ) F - ζ δ_{(i)}] = μ_{x} - ζ (x_{i} - μ_{x})

$\mu_{x(i)}=\int xd[(1+\zeta)F-\zeta \delta_{(i)}]=\mu_x-\zeta(x_{i}-\mu_x)$

V. za r (X)_{(ja)} = \int (X - μ_{x (ja)})^{2)} re {fa}_{(ja)} = \int (X - μ_{x} + ζ (x_{ja} - μ_{x}))^{2)} re [(1 + ζ) fa - ζ δ_{(ja)}]

$Var(X)_{(i)}=\int(X-\mu_{x(i)})^{2}dF_{(i)}=\int(X-\mu_x+\zeta(x_{i}-\mu_x))^{2}d[(1+\zeta)F-\zeta \delta_{(i)}]$

ignorując warunki i upraszczając, otrzymujemy: Podobnie dla kowariancji $\zeta^{2}$

V. za r (X)_{(ja)} \approx V. za r (X) - ζ [(x_{ja} - μ_{x})^{2)} - V. za r (X)]

$Var(X)_{(i)}\approx Var(X)-\zeta\left[(x_{i}-\mu_x)^2-Var(X)\right]$

do o v (X, Y)_{(ja)} \approx do o v (X, Y) - ζ [(x_{ja} - μ_{x}) (y_{ja} - μ_{y}) - do o v (X, Y)]

$Cov(X,Y)_{(i)}\approx Cov(X,Y)-\zeta\left[(x_{i}-\mu_x)(y_{i}-\mu_y)-Cov(X,Y)\right]$

Możemy teraz wyrazić jako funkcję . To jest: $\beta_{(i)}$ $\zeta$

β_{(ja)} (ζ) \approx \frac{do o v (X, Y) - ζ [(x_{ja} - μ_{x}) (y_{ja} - μ_{y}) - do o v (X, Y)]}{V. za r (X) - ζ [(x_{ja} - μ_{x})^{2)} - V. za r (X)]}

$\beta_{(i)}(\zeta)\approx \frac{Cov(X,Y)-\zeta\left[(x_{i}-\mu_x)(y_{i}-\mu_y)-Cov(X,Y)\right]}{Var(X)-\zeta\left[(x_{i}-\mu_x)^2-Var(X)\right]}$

Możemy teraz korzystać z serii Taylor:

β_{(ja)} (ζ) \approx β_{(ja)} (0) + ζ {[\frac{\partial β_{(ja)} (ζ)}{\partial ζ}]}_{ζ = 0}

$\beta_{(i)}(\zeta)\approx \beta_{(i)}(0)+\zeta\left[\frac{\partial \beta_{(i)}(\zeta)}{\partial \zeta}\right]_{\zeta=0}$

Uproszczenie tego daje:

β_{(ja)} (ζ) \approx β - ζ [\frac{(x_{ja} - μ_{x}) (y_{ja} - μ_{y})}{V. za r (X)} - β \frac{(x_{ja} - μ_{x})^{2)}}{V. za r (X)}]

$\beta_{(i)}(\zeta)\approx \beta-\zeta\left[\frac{(x_{i}-\mu_x)(y_{i}-\mu_y)}{Var(X)}-\beta\frac{(x_{i}-\mu_x)^2}{Var(X)}\right]$

Po podłączeniu wartości statystyki , , i otrzymujemy: $\mu_y$ $\mu_x$ $var(X)$ $\zeta=\frac{1}{n-1}$

β_{(ja)} \approx β - \frac{x_{ja} - \bar{x}}{n - 1} [\frac{y_{ja} - \bar{y}}{\frac{1}{n} \sum_{jot = 1}^{n} (x_{jot} - \bar{x})^{2)}} - β \frac{x_{ja} - \bar{x}}{\frac{1}{n} \sum_{jot = 1}^{n} (x_{jot} - \bar{x})^{2)}}]

$\beta_{(i)}\approx \beta-\frac{x_{i}-\overline{x}}{n-1}\left[\frac{y_{i}-\overline{y}}{\frac{1}{n}\sum_{j=1}^{n}(x_{j}-\overline{x})^2}-\beta\frac{x_{i}-\overline{x}}{\frac{1}{n}\sum_{j=1}^{n}(x_{j}-\overline{x})^2}\right]$

I możesz zobaczyć, w jaki sposób można oszacować efekt usunięcia pojedynczej obserwacji bez konieczności ponownego dopasowywania modelu. Możesz także zobaczyć, w jaki sposób x równe średniej nie ma wpływu na nachylenie linii . Pomyśl o tym, a zobaczysz, jak to ma sens. Możesz również napisać to bardziej zwięźle w kategoriach standardowych wartości (podobnie jak dla y): $\tilde{x}=\frac{x-\overline{x}}{s_{x}}$

β_{(ja)} \approx β - \frac{\tilde{x_{ja}}}{n - 1} [\tilde{y_{ja}} \frac{s_{y}}{s_{x}} - \tilde{x_{ja}} β]

$\beta_{(i)}\approx \beta-\frac{\tilde{x_{i}}}{n-1}\left[\tilde{y_{i}}\frac{s_y}{s_x}-\tilde{x_{i}}\beta\right]$

— prawdopodobieństwo prawdopodobieństwa
źródło

Czyli historia dotyczy wpływu dodatkowego punktu danych? Bardziej przyzwyczaiłem się do odpowiedzi impulsowej dla danych szeregów czasowych, w kontekście statystycznym cały wpływ byłby opisany efektem krańcowym lub (lepszym wyborem) współczynnikiem beta ze standardowej regresji. Naprawdę potrzebuję więcej kontekstu, aby ocenić pytanie i odpowiedź, ale myślę, że ten jest miły (+1 jeszcze nie czeka, ale czeka).

— Dmitrij Celov,

@dmitrij - To właśnie sugerowano (lub wywnioskowałem) z linku - chodzi o właściwości odporności statystyki. Funkcje wpływu są nieco bardziej ogólne niż 1 punkt danych - możesz ponownie zdefiniować funkcję delta, aby była ich sumą (tak wiele obserwacji). Do pewnego stopnia uważałbym go za „tani nóż” - ponieważ nie wymaga on ponownego dopasowania modelu.

— probabilityislogic

Oto super ogólny sposób mówienia o funkcjach wpływu regresji. Najpierw zajmę się jednym ze sposobów prezentacji funkcji wpływu:

Załóżmy, że jest dystrybucją na . Funkcja rozkładu zanieczyszczonej , można określić jako: gdzie jest miara prawdopodobieństwa na , który wyznacza prawdopodobieństwo 1 do i 0 do wszystkich innych elementów . $F$ $\Sigma$ $F_\epsilon(x)$

{fa}_{ϵ} (x) = (1 - ϵ) fa + ϵ δ_{x}

$F_\epsilon(x)=(1-\epsilon)F+\epsilon\delta_x$

δ_{x}

$\delta_x$

Σ

$\Sigma$

{x}

$\{x\}$

Σ

$\Sigma$

Na tej podstawie możemy dość łatwo zdefiniować funkcję wpływu:

Funkcję wpływu na na , jest zdefiniowany jako: $\hat{\theta}$ $F$ $\psi_i:\mathcal{X}\to\Gamma$

ψ_{\hat{θ}, fa} (x) = lim_{ϵ \to 0} \frac{\hat{θ} ({fa}_{ϵ} (x)) - \hat{θ} (fa)}{ϵ}

$\begin{equation} \psi_{\hat{\theta},F}(x)=\lim\limits_{\epsilon\to 0}\dfrac{\hat{\theta}(F_\epsilon(x))-\hat{\theta}(F)}{\epsilon} \end{equation}$

Stąd można zobaczyć, że funkcja wpływu jest pochodną Gateaux w w kierunku . To sprawia, że interpretacja funkcji wpływu (dla mnie) jest nieco jaśniejsza: funkcja wpływu mówi ci, jaki wpływ ma konkretna obserwacja na estymator. $\hat\theta$ $F$ $\delta_x$

Oszacowanie OLS stanowi rozwiązanie problemu:

\hat{θ} = \arg min_{θ} mi [(Y - X θ)^{T.} (Y - X θ)]

$\hat\theta=\arg\min_\theta E[(Y-X\theta)^T(Y-X\theta)]$

Wyobraź sobie skażoną dystrybucję, która kładzie nieco większy nacisk na obserwację : $(x,y)$

{\hat{θ}}_{ϵ} = \arg min_{θ} (1 - ϵ) mi [(Y - X θ)^{T.} (Y - X θ)] + ϵ (y - x θ)^{T.} (y - x θ)

$\hat\theta_\epsilon = \arg\min_\theta (1-\epsilon)E[(Y-X\theta)^T(Y-X\theta)]+\epsilon (y-x\theta)^T(y-x\theta)$

Przyjmowanie warunków pierwszego zamówienia:

{(1 - ϵ) mi [X^{T.} X] + ϵ x^{T.} x} {\hat{θ}}_{ϵ} = (1 - ϵ) mi [X^{T.} Y] + ϵ x^{T.} y

$\left\{(1-\epsilon)E[X^TX]+\epsilon x^Tx\right\}\hat\theta_\epsilon = (1-\epsilon)E[X^TY]+\epsilon x^Ty$

Ponieważ funkcja wpływu jest tylko pochodną Gateaux, możemy teraz powiedzieć:

- (mi [X^{T.} X] + x^{T.} x) {\hat{θ}}_{ϵ} + mi [X^{T.} X] ψ_{θ} (x, y) = - mi [X^{T.} Y] + x^{T.} y

$-(E[X^TX]+x^Tx)\hat\theta_\epsilon + E[X^TX]\psi_{\theta}(x,y) = -E[X^TY] + x^Ty$

Przy , , więc: $\epsilon=0$ $\hat\theta_\epsilon=\hat\theta=E[X^TX]^{-1}E[X^TY]$

ψ_{θ} (x, y) = mi [X^{T.} X]^{- 1} x^{T.} (y - x θ)

$\psi_{\theta}(x,y)=E[X^TX]^{-1}x^T(y-x\theta)$

Skończonym próbkowym odpowiednikiem tej funkcji wpływu jest:

ψ_{θ} (x, y) = {(\frac{1}{N.} \sum_{ja} X_{ja}^{T.} X_{ja})}^{- 1} x^{T.} (y - x θ)

$\psi_{\theta}(x,y)=\left(\dfrac{1}{N}\sum_i X_i^TX_i\right)^{-1}x^T(y-x\theta)$

Ogólnie rzecz biorąc, uważam, że z tym frameworkiem (działającym z funkcjami wpływowymi jako pochodnymi Gateaux) łatwiej sobie poradzić.

— jayk
źródło