Jaka intuicja kryje się za definiowaniem kompletności statystyki jako niemożności stworzenia bezstronnego estymatora ?

21

W statystyce klasycznej istnieje definicja, że statystyka zbioru danych jest zdefiniowana jako kompletna dla parametru nie jest możliwe sformułowanie z niej obiektywnego estymatora sposób nietrwały. Oznacza to, że jedynym sposobem na uzyskanie dla wszystkich jest prawie na pewno równe . $T$ $y_1, \ldots, y_n$ $\theta$ $0$ $E h(T (y )) = 0$ $\theta$ $h$ $0$

Czy kryje się za tym intuicja? Wydaje się, że jest to raczej mechaniczny sposób zdefiniowania tego, zdaję sobie sprawę, że już o to pytano, ale zastanawiałem się, czy istniała bardzo łatwa do zrozumienia intuicja, która ułatwiłaby studentom wprowadzającym łatwiejsze przyswojenie materiału.

— użytkownik1398057
źródło

2

To bardzo dobre pytanie, musiałem się w to zagłębić. Okazuje się, że powodem, dla którego jest tak mechaniczną definicją i nie wydaje się intuicyjnie znacząca dla zwykłego praktyka, takiego jak ja, jest to, że jest ona przede wszystkim wykorzystywana do udowodnienia podstawowego wkładu w statystyki matematyczne. W szczególności moje krótkie poszukiwania ujawniły, że twierdzenie Lehmanna-Scheffégo i twierdzenie Basu wymagają kompletności statystyki, aby je utrzymać. Są to wkłady z połowy lat 50. Nie mogę zaoferować intuicyjnego wyjaśnienia - ale jeśli naprawdę chcesz je zbudować, być może skojarzenia z dowodami

— Jeremias K

18

Spróbuję dodać do drugiej odpowiedzi. Po pierwsze, kompletność jest warunkiem technicznym, który jest głównie uzasadniony twierdzeniami, które go wykorzystują. Zacznijmy od pokrewnych pojęć i twierdzeń, w których występują.

Niech $X=(X_1,X_2,\dotsc,X_n)$ reprezentuje wektor danych idid, który modelujemy jako mający rozkład $f(x;\theta), \theta \in \Theta$ gdzie parametr $\theta$ rządzący danymi jest nieznany. $T=T(X)$ jest wystarczające, jeśli rozkład warunkowy $X \mid T$ nie zależy od parametru $\theta$ . $V=V(X)$ jestpomocnicze,jeśli rozkład $V$ nie zależy od $\theta$ (w rodzinie $f(x;\theta)$ ). $U=U(X)$ jestobiektywnym estymatorem zerowym,jeśli jego oczekiwanie wynosi zero, niezależnie od $\theta$ . $S=S(X)$ jestkompletną statystyką,jeśli jakikolwiek obiektywny estymator zera oparty na $S$ jest identycznie zerowy, to znaczy, jeśli $\DeclareMathOperator{\E}{\mathbb{E}} \E g(S)=0 (\text{for all $\theta$})$ a następnie $g(S)=0$ ae (dla wszystkich $\theta$ ).

Załóżmy teraz, że masz dwa różne obiektywne estymatory $\theta$ oparte na wystarczającej statystyce $T$ , $g_1(T), g_2(T)$ . Oznacza to, że w symbolach

E g_{1} (T) = θ, E g_{2} (T) = θ

$\E g_1(T)=\theta ,\\ \E g_2(T)=\theta$ i

P (g_{1} (T) \neq g_{2} (T)) > 0

$\DeclareMathOperator{\P}{\mathbb{P}} \P(g_1(T) \not= g_2(T) ) > 0$ (dla wszystkich

θ

$\theta$ ). Zatem

g_{1} (T) - g_{2} (T)

$g_1(T)-g_2(T)$ jest obiektywnym estymatorem zera, który nie jest identyczny zero, co dowodzi, że

T

$T$ nie jest kompletny. Tak więc kompletność wystarczającej statystyki

T

$T$ daje nam do zrozumienia, że istnieje tylko jeden unikalny obiektywny estymator

θ

$\theta$ na podstawie

T

$T$ . Jest to już bardzo zbliżone do twierdzenia Lehmanna – Scheffégo.

Spójrzmy na kilka przykładów. Załóżmy, że $X_1, \dotsc, X_n$ są teraz identyczne w przedziale $(\theta, \theta+1)$ . Możemy pokazać, że ( $X_{(1)} < X_{(2)} < \dotsm < X_{(n)}$ jest statystyką rzędu) para $(X_{(1)}, X_{(n)})$ jest wystarczająca, ale nie jest kompletna, ponieważ różnica $X_{(n)}-X_{(1)}$ jest pomocniczy, możemy obliczyć jego oczekiwanie, niech to będzie $c$ (co jest funkcjątylko $n$ ), a następnie $X_{(n)}-X_{(1)} -c$ będzie bezstronnym estymatorem zera która nie jest identycznie zerowa. Zatem nasza wystarczająca statystyka w tym przypadku nie jest kompletna i wystarczająca. I widzimy, co to oznacza: istnieją funkcje wystarczającej statystyki, które nie są pouczające o $\theta$ (w kontekście modelu). Nie może się to zdarzyć przy pełnej wystarczającej statystyce; jest w pewnym sensie maksymalnie informacyjny, ponieważ żadna z jego funkcji nie jest pozbawiona informacji. Z drugiej strony, jeśli istnieje funkcja minimalnie wystarczającej statystyki, która ma oczekiwane zero, która mogłaby być postrzegana jako składnik szumu , warunki zakłócenia / hałasu w modelach mają oczekiwanie zerowe. Można więc powiedzieć, że niekompletne wystarczające statystyki zawierają pewien szum .

Spójrz ponownie na zakres $R=X_{(n)}-X_{(1)}$ w tym przykładzie. Ponieważ jego dystrybucja nie zależy od $\theta$ , sama w sobie nie zawiera żadnych informacji o $\theta$ . Ale wraz z wystarczającą statystyką tak się dzieje! W jaki sposób? Spójrz na przypadek, w którym zaobserwowano $R=1$ Następnie, w kontekście naszego (znanego jako prawdziwy) modelu, mamy doskonałą wiedzę na temat $\theta$ ! Mianowicie możemy z całą pewnością powiedzieć, że $\theta = X_{(1)}$ . Możesz sprawdzić, czy jakakolwiek inna wartość dla $\theta$ następnie prowadzi do tego, że $X_{(1)}$ lub $X_{(n)}$ są niemożliwą obserwacją, zgodnie z założonym modelem. Z drugiej strony, jeśli obserwujemy $R=0.1$ , wówczas zakres możliwych wartości $\theta$ jest raczej duży (ćwiczenie ...).

W tym sensie statystyka pomocnicza $R$ zawiera pewne informacje o dokładności, z jaką możemy oszacować $\theta$ na podstawie tych danych i modelu. W tym przykładzie i innych statystyka pomocnicza $R$ „przejmuje rolę wielkości próby”. Zwykle przedziały ufności i takie wymagają wielkości próby $n$ , ale w tym przykładzie możemy zrobić warunkowy przedział ufności, który jest obliczany przy użyciu tylko $R$ , a nie $n$ (ćwiczenie). To była idea Fishera, że wnioskowanie powinno być uwarunkowane niektóre statystyki pomocnicze.

Twierdzenie Basu: jeśli $T$ jest całkowicie wystarczające, to jest niezależne od jakiejkolwiek statystyki pomocniczej. Oznacza to, że wnioskowanie na podstawie pełnej wystarczającej statystyki jest prostsze, ponieważ nie musimy brać pod uwagę wnioskowania warunkowego. Uzależnienie od statystyki niezależnej od $T$ niczego nie zmienia.

Następnie ostatni przykład, aby dać trochę więcej intuicji. Zmień przykład naszego rozkładu równomiernego na rozkład równomierny w przedziale $(\theta_1, \theta_2)$ (z $\theta_1<\theta_2$ ). W tym przypadku statystyki $(X_{(1)}, X_{(n)})$ są kompletne i wystarczające. Co się zmieniło? Widzimy, że kompletność jest naprawdę własnością modelu. W pierwszym przypadku mieliśmy ograniczoną przestrzeń parametrów. To ograniczenie zniszczyło kompletność, wprowadzając relacje w statystykach zamówień. Usuwając to ograniczenie, otrzymaliśmy kompletność! W pewnym sensie brak kompletności oznacza, że przestrzeń parametrów nie jest wystarczająco duża, a powiększając ją możemy mieć nadzieję na przywrócenie kompletności (a tym samym łatwiejsze wnioskowanie).

Niektóre inne przykłady, w których brak kompletności jest spowodowany ograniczeniami przestrzeni parametrów,

zobacz moją odpowiedź na: Jakiego rodzaju informacjami są informacje Fishera?
Niech $X_1, \dotsc, X_n$ będzie oznaczony jako $\mathcal{Cauchy}(\theta,\sigma)$ (model w skali lokalizacji). Następnie statystyki zamówień są wystarczające, ale niekompletne. Ale teraz powiększyć ten model do pełni nieparametrycznego modelu, nadal IID ale z jakiegoś zupełnie nieokreślonym rozkładzie $F$ . Statystyki zamówień są wystarczające i kompletne.
W przypadku rodzin wykładniczych z kanoniczną przestrzenią parametrów (czyli tak dużą, jak to możliwe) minimalna wystarczająca statystyka jest również kompletna. Ale w wielu przypadkach wprowadzenie ograniczeń przestrzeni parametrów, jak w przypadku zakrzywionych rodzin wykładniczych , niszczy kompletność.

Bardzo istotnym artykułem jest Interpretacja kompletności i twierdzenie Basu.

— kjetil b halvorsen
źródło

7

Pewna intuicja może być dostępna w teorii najlepszych obiektywnych estymatorów (minimalna wariancja).

Jeśli to jest najlepszym obiektywnym estymatorem iff jest nieskorelowane ze wszystkimi obiektywnymi estymatorami zero. $E_\theta W=\tau(\theta)$ $W$ $\tau(\theta)$ $W$

Dowód : Niech będzie obiektywnym estymatorem nieskorelowanym ze wszystkimi obiektywnymi estymatorami zero. Niech będzie kolejnym estymatorem, tak że . Napisz . Z założenia $W$ $W'$ $E_\theta W'=E_\theta W=\tau(\theta)$ $W'=W+(W'-W)$ . W związku z tym, dla każdego , . $Var_\theta W'=Var_\theta W+Var_\theta (W'-W)$ $W'$ $Var_\theta W'\geq Var_\theta W$

Załóżmy teraz, że jest najlepszym obiektywnym estymatorem. Niech będzie jakiś inny estymator o . jest również bezstronny dla . Mamy $W$ $U$ $E_\theta U=0$ $\phi_a:=W+aU$ $\tau(\theta)$ Gdyby nie było taki sposób, , to otrzymujemy za

V a r_{θ} ϕ_{a} := V a r_{θ} W + 2 a C o v_{θ} (W, U) + a^{2} V a r_{θ} U .

$Var_\theta \phi_a:=Var_\theta W+2aCov_\theta(W,U)+a^2Var_\theta U.$

θ_{0} \in Θ

$\theta_0\in\Theta$

C o v_{θ_{0}} (W, U) < 0

$Cov_{\theta_0}(W,U)<0$

V a r_{θ} ϕ_{a} < V a r_{θ} W

$Var_\theta \phi_a<Var_\theta W$

.

nie może być zatem najlepszym obiektywnym estymatorem. CO BYŁO DO OKAZANIA

a \in (0, - 2 C o v_{θ_{0}} (W, U) / V a r_{θ_{0}} U)

$a\in(0,-2Cov_{\theta_0}(W,U)/Var_{\theta_0} U)$

W

$W$

Intuicyjnie wynik mówi, że jeśli estymator jest optymalny, nie może być możliwe jego ulepszenie poprzez dodanie do niego trochę szumu, w sensie połączenia go z estymatorem, który jest średnio tylko zerowy (będąc obiektywnym estymatorem zerowym ).

Niestety trudno jest scharakteryzować wszystkie obiektywne estymatory zera. Sytuacja staje się znacznie prostsza, jeśli samo zero jest jedynym obiektywnym estymatorem zera, ponieważ każda statystyka spełnia . Kompletność opisuje taką sytuację. $W$ $Cov_\theta(W,0)=0$

— Christoph Hanck
źródło