Próbuję zrozumieć, jak działają funkcje wpływu. Czy ktoś mógłby wyjaśnić w kontekście prostej regresji OLS
gdzie chcę funkcję wpływu dla .
Próbuję zrozumieć, jak działają funkcje wpływu. Czy ktoś mógłby wyjaśnić w kontekście prostej regresji OLS
gdzie chcę funkcję wpływu dla .
Odpowiedzi:
Funkcje wpływu są w zasadzie narzędziem analitycznym, które można wykorzystać do oceny wpływu (lub „wpływu”) usunięcia obserwacji na wartość statystyki bez konieczności ponownego obliczania tej statystyki . Można je również wykorzystać do tworzenia asymptotycznych oszacowań wariancji. Jeśli wpływ jest równy wariancja asymptotyczna wynosi .I 2
Sposób, w jaki rozumiem funkcje wpływu, jest następujący. Masz jakiś teoretyczny CDF, oznaczony . Dla prostych OLS masz
Φ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)-ζδ(i)(z)δi(z)=I(yi<z)ζ=1
Zauważ, że więc otrzymujemy: S[ F ( i ) (z,ζ)]≈S[F(z)]+ζ [ ∂ S [ F ( i ) ( z , ζ ) ]
Pochodna cząstkowa nazywana jest tutaj funkcją wpływu. Jest to więc przybliżona korekta „pierwszego rzędu”, którą należy wprowadzić do statystyki z powodu usunięcia „i-tej” obserwacji. Zauważ, że w regresji reszta nie idzie do zera asymetrycznie, więc jest to przybliżenie zmian, które możesz faktycznie uzyskać. Teraz napisz jako:
Zatem beta jest funkcją dwóch statystyk: wariancji X i kowariancji między X i Y. Te dwie statystyki mają reprezentacje w kategoriach CDF, ponieważ:
v a r ( X ) = ∫ ( X - μ x ( F ) ) 2 d F μ x = ∫ x d F.
Aby usunąć i-tą obserwację, zamieniamy w obu całkach, aby dać:
ignorując warunki i upraszczając, otrzymujemy: Podobnie dla kowariancji
Możemy teraz wyrazić jako funkcję . To jest:
Możemy teraz korzystać z serii Taylor:
Uproszczenie tego daje:
Po podłączeniu wartości statystyki , , i otrzymujemy:
I możesz zobaczyć, w jaki sposób można oszacować efekt usunięcia pojedynczej obserwacji bez konieczności ponownego dopasowywania modelu. Możesz także zobaczyć, w jaki sposób x równe średniej nie ma wpływu na nachylenie linii . Pomyśl o tym, a zobaczysz, jak to ma sens. Możesz również napisać to bardziej zwięźle w kategoriach standardowych wartości (podobnie jak dla y):
Oto super ogólny sposób mówienia o funkcjach wpływu regresji. Najpierw zajmę się jednym ze sposobów prezentacji funkcji wpływu:
Załóżmy, że jest dystrybucją na . Funkcja rozkładu zanieczyszczonej , można określić jako: gdzie jest miara prawdopodobieństwa na , który wyznacza prawdopodobieństwo 1 do i 0 do wszystkich innych elementów .
Na tej podstawie możemy dość łatwo zdefiniować funkcję wpływu:
Funkcję wpływu na na , jest zdefiniowany jako:
Stąd można zobaczyć, że funkcja wpływu jest pochodną Gateaux w w kierunku . To sprawia, że interpretacja funkcji wpływu (dla mnie) jest nieco jaśniejsza: funkcja wpływu mówi ci, jaki wpływ ma konkretna obserwacja na estymator.
Oszacowanie OLS stanowi rozwiązanie problemu:
Wyobraź sobie skażoną dystrybucję, która kładzie nieco większy nacisk na obserwację :
Przyjmowanie warunków pierwszego zamówienia:
Ponieważ funkcja wpływu jest tylko pochodną Gateaux, możemy teraz powiedzieć:
Przy , , więc:θ
Skończonym próbkowym odpowiednikiem tej funkcji wpływu jest:
Ogólnie rzecz biorąc, uważam, że z tym frameworkiem (działającym z funkcjami wpływowymi jako pochodnymi Gateaux) łatwiej sobie poradzić.