Jeśli skurcz jest zastosowany w sprytny sposób, czy zawsze działa lepiej dla bardziej wydajnych estymatorów?

Załóżmy, że mam dwa estymatory i które są spójnymi estymatorami tego samego parametru i takie, że z w sensie psd. Zatem asymptotycznie jest bardziej wydajny niż . Te dwa estymatory oparte są na różnych funkcjach strat. $\widehat{\beta}_1$ $\widehat{\beta}_2$ $\beta_0$

\sqrt{n} ({\hat{β}}_{1} - β_{0}) \overset{d}{\to} N (0, V_{1}), \sqrt{n} ({\hat{β}}_{2} - β_{0}) \overset{d}{\to} N (0, V_{2})

$\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2)$

V_{1} \leq V_{2}

$V_1 \leq V_2$

{\hat{β}}_{1}

$\widehat{\beta}_1$

{\hat{β}}_{2}

$\widehat{\beta}_2$

Teraz chcę poszukać niektórych technik kurczenia się, aby poprawić właściwości skończonych próbek moich estymatorów.

Załóżmy, że znalazłem technikę skurczu, która poprawia estymator $\widehat{\beta}_2$ w skończonej próbce i daje mi wartość MSE równą $\widehat{\gamma}_2$ . Czy to oznacza, że mogę znaleźć odpowiednią technikę skurczu do zastosowania w $\widehat{\beta}_1$ , która da mi MSE nie większą niż $\widehat{\gamma}_2$ ?

Innymi słowy, jeśli skurcz jest zastosowany sprytnie, czy zawsze działa lepiej dla bardziej wydajnych estymatorów?

— Alik
źródło

Odpowiedzi:

Pozwólcie, że zasugeruję nieco nudny kontrprzykład. Powiedz, że jest nie tylko asymptotycznie bardziej wydajny niż , ale także osiąga Cramer Rao Lower Bound. Sprytną techniką skurczu dla byłoby: z . Asymptotyczna wariancja to gdzie ostatnia równość używa lemmy w pracy Hausmana . Mamy $\hat{\beta}_1$ $\hat{\beta}_2$ $\hat{\beta}_2$

{\hat{β}}_{2}^{*} = w {\hat{β}}_{2} + (1 - w) {\hat{β}}_{1}

$\hat{\beta}_2^\ast = w \hat{\beta}_2 + (1 - w) \hat{\beta}_1$

w \in (0, 1)

$w\in(0,1)$

{\hat{β}}_{2}^{*}

$\hat{\beta}_2^\ast$

V^{*} = A v a r (w {\hat{β}}_{2} + (1 - w) {\hat{β}}_{1}) = A v a r (w ({\hat{β}}_{2} - {\hat{β}}_{1}) + {\hat{β}}_{1}) = V_{1} + w^{2} (V_{2} - V_{1})

$V^\ast = \mathbb{Avar}(w \hat{\beta}_2 + (1 - w) \hat{\beta}_1) = \mathbb{Avar}(w (\hat{\beta}_2 - \hat{\beta}_1) + \hat{\beta}_1 ) = V_1 + w^2 (V_2 - V_1)$

V_{2} - V^{*} = V_{2} (1 - w^{2}) - V_{1} (1 - w^{2}) \geq 0

$V_2 - V^\ast = V_2(1-w^2) - V_1(1-w^2) \geq 0$ więc istnieje asymptotyczna poprawa ryzyka (nie ma terminów stronniczości). Znaleźliśmy więc technikę skurczu, która daje pewne asymptotyczne (a zatem mam nadzieję, że skończona próbka) ulepszenia w stosunku do . Jednak nie ma podobnego estymatora skurczu który wynika z tej procedury.

{\hat{β}}_{2}

$\hat{\beta}_2$

{\hat{β}}_{1}^{*}

$\hat{\beta}_1^\ast$

Chodzi tutaj oczywiście o to, że kurczenie się odbywa się w kierunku wydajnego estymatora, a zatem nie ma zastosowania do samego wydajnego estymatora. Wydaje się to dość oczywiste na wysokim poziomie, ale zgaduję, że w konkretnym przykładzie nie jest to tak oczywiste ( MLE i estymator metody momentów dla rozkładu równomiernego może być przykładem?).

— Matthias Schmidtblaicher
źródło

Dziękuję za ciekawy przykład! (+1) Jednak nie jest dla mnie jasne, że należy to traktować jako kontrprzykład: jest zarówno asymptotyczne, jak i nie pokazuje, że nie można poprawić, aby miał takie samo lub niższe ryzyko. (W rzeczywistości Twój automatycznie ma co takie samo ryzyko jak .) Aby podać kontrprzykład, ryzyko modyfikacji estymatora musi być mniej niż ryzyko i nie jest jasne, czy jest to możliwe w tym schemacie.

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

{\hat{β}}_{1}

$\hat\beta_1$

— user795305

Dziękuję i zajęte punkty. Chciałbym jednak zauważyć, że nigdzie w pytaniu nie określono, że MSE zmodyfikowanego będzie musiało być niższe niż . Zatem jest prawidłową techniką kurczenia się w tym kontekście. Ale zgadzam się, że jest to tylko częściowa odpowiedź i nie mogę się doczekać, aby zobaczyć, co inni ludzie mają do powiedzenia na to pytanie.

{\hat{β}}_{2}

$\hat{\beta}_2$

{\hat{β}}_{1}

$\hat{\beta}_1$

{\hat{β}}_{2}^{⋆}

$\hat{\beta}^\star_2$

— Matthias Schmidtblaicher

W akapicie rozpoczynającym się od „Załóżmy, że znalazłem ...” OP wydaje się to określać. Czy ja nie rozumiem? Poniżej pozwól gwiazdom oznaczać zmodyfikowane estymatory, tak aby dla niektórych funkcji (być może skurczenia) . Załóżmy, że znajdujemy więc . W cytowanym akapicie OP pyta, czy możemy znaleźć , aby .

{\hat{β}}_{j}^{*} = f_{j} ({\hat{β}}_{j})

$\hat\beta_j^* = f_j(\hat\beta_j)$

f_{j}

$f_j$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

r i s k ({\hat{β}}_{2}) \geq r i s k ({\hat{β}}_{2}^{*})

$risk(\hat\beta_2) \ge risk(\hat\beta_2^*)$

f_{1}

$f_1$

r i s k ({\hat{β}}_{1}^{*}) \leq r i s k ({\hat{β}}_{2}^{*})

$risk(\hat\beta_1^*) \le risk(\hat\beta_2^*)$

— user795305

Widzę. Jeśli to jest pytanie, jest po prostu tożsamością, a odpowiedź jest twierdząca w tym przykładzie. Czytałem na pytanie „Jeśli uda nam się znaleźć funkcję tak, że , czy nie istnieje więc ? ”

f_{1}

$f_1$

f (β, x)

$f(\beta, x)$

r i s k (f ({\hat{β}}_{2}, x)) < r i s k ({\hat{β}}_{2})

$risk(f(\hat{\beta}_2,x)) < risk(\hat{\beta}_2)$

g (β, x)

$g(\beta, x)$

r i s k (g ({\hat{β}}_{1}, x)) < r i s k ({\hat{β}}_{1})

$risk(g(\hat{\beta}_1,x)) < risk(\hat{\beta}_1)$

— Matthias Schmidtblaicher

dzięki za udostępnienie tych kredytów, mimo że tak naprawdę nie odpowiedziałem na twoje pytanie ...

— Matthias Schmidtblaicher

-2

To interesujące pytanie, na którym najpierw chciałbym wskazać kilka najważniejszych wydarzeń.

Dwa estymatory są spójne
$\hat{\beta}_1$ jest bardziej wydajny niż ponieważ osiąga mniejszą zmienność $\hat\beta_2$
Funkcje utraty nie są takie same
jedna metoda skurczu jest stosowana do jednej, aby zmniejszyć zmienność, która sama w sobie stanowi lepszy estymator
Pytanie : Innymi słowy, jeśli skurcz jest zastosowany sprytnie, czy zawsze działa lepiej dla bardziej wydajnych estymatorów?

Zasadniczo możliwe jest ulepszenie estymatora w określonych ramach, takich jak obiektywna klasa estymatorów. Jednak, jak wskazałeś, różne funkcje strat utrudniają sytuację, ponieważ jedna funkcja straty może zminimalizować straty kwadratowe, a druga minimalizuje entropię. Co więcej, użycie słowa „zawsze” jest bardzo trudne, ponieważ jeśli jeden estymator jest najlepszy w klasie, nie można domagać się żadnego lepszego estymatora, mówiąc logicznie.

Dla prostego przykładu (w tej samej strukturze), niech dwa estymatory, a mianowicie Bridge (regresja karana z ) i Lasso (prawdopodobieństwo kary pierwszej normy) i rzadki zestaw parametrów mianowicie , model liniowy , normalność terminu błędu, , znany , funkcja straty kwadratowej (błędy najmniejszych kwadratów) i niezależność zmiennych towarzyszących w . Wybierzmy dla dla pierwszego estymatora i dla drugiego estymatora. Następnie możesz poprawić estymatory, wybierając $l_p$ $\beta$ $y=x\beta+e$ $e\sim N(0,\sigma^2<\infty)$ $\sigma$ $x$ $l_p$ $p=3$ $p=2$ $p\rightarrow 1$ co daje lepszy estymator o mniejszej wariancji. Następnie w tym przykładzie istnieje szansa na poprawę estymatora.

Więc moja odpowiedź na twoje pytanie brzmi „tak”, biorąc pod uwagę, że zakładasz tę samą rodzinę estymatorów i tę samą funkcję straty, a także założenia.

— TPArrow
źródło

nie jest dla mnie jasne, co masz na myśli, biorąc . Biorąc pod uwagę dwa estymatory (powiedzmy, mając i w regularyzacji najmniejszych kwadratów , tak jak dyskutujesz w odpowiedzi), pytanie dotyczy sposobów przetworzenia tych estymatorów (poprzez, powiedzmy, skurcz). W szczególności pyta, czy istnieją metody, które mogą zapewnić podobną poprawę (pod względem MSE) w przypadku spójnych i asymptotycznie normalnych estymatorów. Nie jest dla mnie jasne, co powinna w związku z tym przekazać twoja odpowiedź.

p \to 1

$p \to 1$

p = 3

$p=3$

p = 2

$p=2$

ℓ_{p}

$\ell_p$

— user795305

@Ben Dzięki. pytanie dotyczy skurczu i próbowałem wziąć prosty przykład, w którym stosuje się skurcz, nakładając karę na estymator. Widzę to dość powiązane. PS: LASSO ( prawdopodobieństwo karane normą ) oznacza operator najmniejszego bezwzględnego

l_{p}

$l_p$

l_{1}

$l_1$

— skurczu

To wciąż nie jest dla mnie jasne. Czy proponujesz, abyśmy wzięli wstępne szacunki i a następnie ocenili ich bliższy operator , aby nowe oszacowania to , dla ? Jeśli tak, czy możesz przedstawić dowód (lub inny argument) na swoje roszczenia dotyczące poprawy MSE? Próbowałem wcześniej podkreślić, że pytanie dotyczy estymatorów przetwarzania końcowego - jakie dokładnie są twoje szacunki dla przetwarzania końcowego?

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$

ℓ_{p}

$\ell_p$

{\hat{α}}_{j}^{p} = \arg min_{α} ‖ α - {\hat{β}}_{j} ‖_{2}^{2} + λ ‖ α ‖_{p}

$\hat\alpha^p_j = \arg\min_\alpha \|\alpha-\hat\beta_j\|_2^2 + \lambda \|\alpha\|_p$

j \in {1, 2}

$j \in \{1,2\}$

p = 2, 3

$p=2,3$

— user795305

dzięki @ Ben, czuję, że nie mamy konsensusu w kwestii definicji skurczu. Traktujesz to jak post-proces, ale ja jako przetwarzanie wbudowane. Myślę, że oboje mamy rację, ponieważ pytanie nie uwzględnia rodzaju skurczu. PS: Wydaje mi się, że to, co masz na myśli mówiąc o skurczu, jest jak ustalanie progów.

— TPArrow

Skurcz może być zarówno liniowy, jak i końcowy. Przykłady, o których wspomniałeś w odpowiedzi, dotyczą „skurczu w linii”, a pytanie dotyczy „skurczu po obróbce”. Zauważ, że pytanie podaje dwa estymatory i , a następnie prosi o zastosowanie techniki skurczu w przypadku lub . Myślę, że warto w tym celu ponownie przeczytać pytanie.

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$

— user795305