Czy estymacja MLE jest asymptotycznie normalna i skuteczna, nawet jeśli model nie jest prawdziwy?

Przesłanka: to może być głupie pytanie. Znam tylko stwierdzenia o właściwościach asymptotycznych MLE, ale nigdy nie badałem dowodów. Gdybym to zrobił, może nie zadawałbym tych pytań, a może zdałbym sobie sprawę, że te pytania nie mają sensu ... więc spokojnie.

Często widziałem stwierdzenia, które mówią, że estymator MLE parametrów modelu jest asymptotycznie normalny i wydajny. Instrukcja jest zwykle zapisywana jako

$\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})$ jako $N\to\infty$

gdzie to liczba próbek, to informacja Fishera, a to prawdziwa wartość parametru (wektora) . Teraz, skoro istnieje odniesienie do prawdziwego modelu, czy to oznacza, że wynik nie zostanie zachowany, jeśli model nie jest prawdziwy? $N$ $\mathbf{I}$ $\theta_0$

Przykład: załóżmy, że modeluję moc wyjściową z turbiny wiatrowej w funkcji prędkości wiatru plus addytywny szum Gaussa $P$ $V$

$P=\beta_0+\beta_1V+\beta_2V^2+\epsilon$

Wiem, że model jest zły, z co najmniej dwóch powodów: 1) jest naprawdę proporcjonalny do trzeciej potęgi i 2) błąd nie jest addytywny, ponieważ zlekceważyłem inne predyktory, które nie są nieskorelowane z prędkością wiatru (wiem też że powinno wynosić 0, ponieważ przy prędkości wiatru 0 energia nie jest generowana, ale tutaj nie ma to znaczenia). Załóżmy teraz, że mam nieskończoną bazę danych dotyczących mocy i prędkości wiatru z mojej turbiny wiatrowej. Mogę narysować tyle próbek, ile chcę, o dowolnej wielkości. Załóżmy, że narysuję 1000 próbek o wielkości 100 i obliczę , oszacowanie MLE dla $P$ $V$ $\beta_0$ $\hat{\boldsymbol{\beta}}_{100}$ $\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$ (które w moim modelu byłoby po prostu oszacowaniem OLS). Mam więc 1000 próbek z dystrybucji $\hat{\boldsymbol{\beta}}_{100}$ . Mogę powtórzyć ćwiczenie z $N=500,1000,1500,\dots$ . Czy jako „ $N\to\infty$ ” rozkład $\hat{\boldsymbol{\beta}}_{N}$ powinien być asymptotycznie normalny, z podaną średnią i wariancją? Czy fakt, że model jest nieprawidłowy, unieważnia ten wynik?

Powodem jest to, że rzadko (jeśli w ogóle) model jest „prawdziwy” w aplikacjach. Jeśli asymptotyczne właściwości MLE zostaną utracone, gdy model nie jest prawdziwy, może być sensowne zastosowanie różnych zasad szacowania, które, choć mniej wydajne w ustawieniu, w którym model jest poprawny, mogą działać lepiej niż MLE w innych przypadkach.

EDYCJA : w komentarzach zauważono, że pojęcie prawdziwego modelu może być problematyczne. Miałem na myśli następującą definicję: biorąc pod uwagę rodzinę modeli oznaczonych parametrem vector , dla każdego modelu w rodzinie zawsze możesz napisać $f_{\boldsymbol{\theta}}(x)$ $\boldsymbol{\theta}$

$Y=f_{\boldsymbol{\theta}}(X)+\epsilon$

po prostu definiując jako . Jednak ogólnie błąd nie będzie prostopadły do , ma średnią 0 i niekoniecznie musi mieć założony rozkład w derywatyzacji modelu. Jeśli istnieje wartość taka, że ma te dwie właściwości, a także założony rozkład, powiedziałbym, że model jest prawdziwy. Myślę, że jest to bezpośrednio związane ze stwierdzeniem, że , ponieważ termin błędu w rozkładzie $\epsilon$ $Y-f_{\boldsymbol{\theta}}(X)$ $X$ $\boldsymbol{\theta_0}$ $\epsilon$ $f_{\boldsymbol{\theta_0}}(X)=E[Y|X]$

$Y=E[Y|X]+\epsilon$

ma dwie właściwości wymienione powyżej.

maximum-likelihood model asymptotics

— DeltaIV
źródło

Oszacowanie MLE jest często asymptotycznie normalne, nawet jeśli model nie jest prawdziwy, może być na przykład spójny dla wartości parametru „najmniej fałszywego” parametru. Ale w takich przypadkach trudno będzie wykazać skuteczność lub inne właściwości optymalizacyjne.

— kjetil b halvorsen

Przed wydajnością powinniśmy spojrzeć na spójność. W scenariuszu, w którym prawda nie znajduje się w twojej przestrzeni poszukiwań, potrzebujemy innej definicji spójności, tak że: d (P *, P), gdzie d jest dywergencją P * jest najbliższym modelem pod względem d, a P jest prawdą. Na przykład, gdy d jest dywergencją KL (co minimalizuje MLE), wiadomo na przykład, że procedury bayesowskie są niespójne (nie mogą dotrzeć do najbliższego modelu), chyba że model jest wypukły. Dlatego zakładam, że MLE również będzie niespójny. Dlatego wydajność jest źle zdefiniowana. homepage.tudelft.nl/19j49/benelearn/papers/Paper_Grunwald.pdf

— Cagdas Ozgenc

@Cagdas Ozgenc: W wielu przypadkach (takich jak regresja logistyczna) MLE jest nadal spójny dla parametrów „najmniej fałszywych”. Czy masz odniesienie do swojego roszczenia dotyczącego niespójności w przypadku nie wypukłym? Byłby bardzo zainteresowany? (Funkcja prawdopodobieństwa regresji logistycznej jest wypukła)

— kjetil b halvorsen

@kjetilbhalvorsen homepages.cwi.nl/~pdg/ftp/inconsistency.pdf To jest ponad moją głową, ale to rozumiem. Jeśli moje zrozumienie jest fałszywe, popraw mnie. W końcu jestem tylko hobbystą.

— Cagdas Ozgenc

Myślę, że mamy kłopoty, gdy używamy terminów takich jak „model jest prawdziwy” lub „najmniej fałszywy”. W praktyce modele są przybliżone. Jeśli przyjmiemy pewne założenia, możemy użyć matematyki do przedstawienia właściwości statystycznych. Zawsze występuje tutaj konflikt między matematyką prawdopodobieństwa a praktyczną analizą danych.

— Michael R. Chernick

Nie wierzę, że jest jedna odpowiedź na to pytanie.

Kiedy rozważamy możliwą błędną specyfikację dystrybucji przy zastosowaniu oszacowania maksymalnego prawdopodobieństwa, otrzymujemy tak zwany estymator „quasi-maksymalnego prawdopodobieństwa” (QMLE). W niektórych przypadkach QMLE jest zarówno spójny, jak i asymptotycznie normalny.

Z całą pewnością traci skuteczność asymptotyczną. Wynika to z faktu, że asymptotyczna wariancja (jest to wielkość o rozkładzie asymptotycznym, a nie tylko ), we wszystkich przypadkach $\sqrt n (\hat \theta - \theta)$ $\hat \theta$

\begin{matrix} (1) & Avar [\sqrt{n} (\hat{θ} - θ)] = plim ([\hat{H}]^{- 1} [\hat{S} {\hat{S}}^{T}] [\hat{H}]^{- 1}) \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = \text{plim}\Big( [\hat H]^{-1}[\hat S \hat S^T][\hat H]^{-1}\Big) \tag{1}$

gdzie jest macierzą Hesji logarytmu prawdopodobieństwa, a jest gradientem, a kapelusz wskazuje oszacowania próbki. $H$ $S$

Teraz, jeśli mamy prawidłową specyfikację, najpierw otrzymujemy to

\begin{matrix} (2) & Avar [\sqrt{n} (\hat{θ} - θ)] = (E [H_{0}])^{- 1} E [S_{0} S_{0}^{T}] (E [H_{0}])^{- 1} \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = (\mathbb E[H_0])^{-1}\mathbb E[S_0S_0^T](\mathbb E[H_0])^{-1} \tag{2}$

gdzie indeks dolny „ ” oznacza ocenę przy prawdziwych parametrach (i zauważ, że środkowy termin to definicja Fisher Information), a po drugie, że „ równość macierzy informacji ” utrzymuje i stwierdza, że , co oznacza, że ostatecznie będzie asymptotyczna wariancja $0$ $-\mathbb E[H_0] = \mathbb E[S_0S_0^T]$

\begin{matrix} (3) & Avar [\sqrt{n} (\hat{θ} - θ)] = - (E [H_{0}])^{- 1} \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = -(\mathbb E[H_0])^{-1} \tag{3}$

co jest odwrotnością informacji Fishera.

Ale jeśli mamy błędną specyfikację, wyrażenie nie prowadzi do wyrażenia (ponieważ pierwsza i druga pochodna w zostały wyprowadzone na podstawie niewłaściwego prawdopodobieństwa). To z kolei implikuje, że nierówność matrycy informacyjnej nie ma miejsca, że nie kończymy na wyrażeniu i że (Q) MLE nie osiąga pełnej wydajności asymptotycznej. $(1)$ $(2)$ $(1)$ $(3)$

— Alecos Papadopoulos
źródło

Avar

$\text{Avar}$ to asymptotyczna wariancja zmiennej losowej, a oznacza zbieżność prawdopodobieństwa, prawda? Twoja odpowiedź wydaje się bardzo interesująca, ale nie rozumiem, co jest w swoim kontekście. Miałem na myśli przypadek, w którym właściwa wartość po prostu nie istnieje: patrz mój przykład turbiny wiatrowej, gdzie niezależnie od wartości , nie ma wartość, która sprawia, że model jest poprawny, ponieważ nie ma i ponieważ brakuje innych predyktorów skorelowanych zCo by oznacza w tym kontekście?

plim

$\text{plim}$

θ

$\theta$

θ

$\theta$

β = (β_{0}, β_{1}, β_{2})

$\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$

β_{3}

$\beta_3$

V

$V$

θ

$\theta$

— DeltaIV

przepraszam, pierwsze wydanie mojego komentarza było niezrozumiałe: teraz moja uwaga powinna być jasna. Innymi słowy, jeśli nie ma „prawdziwej” , co powinniśmy interpretować jako w wyrażeniu ?

θ

$\theta$

θ

$\theta$

\sqrt{n} (\hat{θ} - θ)

$\sqrt n (\hat \theta - \theta)$

— DeltaIV

@DeltaIV Zero. Czy QMLE to „złapie”? To zależy od tego, czy będzie spójne czy nie - i znowu, nie ma jednej odpowiedzi na to pytanie

— Alecos Papadopoulos

Zrozumiałem. Zatem QMLE (jeśli jest spójny) powinien zbiegać się do : Myślałem, że zbiegnie się do pewnej „najmniej fałszywej” wartości parametru, jak sugeruje @kjetilbhalvorsen. Czy możesz zasugerować jakieś odniesienie do QMLE i zapisanych równań? Dzięki

θ = 0

$\theta=0$

— DeltaIV

@DeltaIV Proponuję wystawę w Hayashi ch. 7 na temat estymatorów ekstremów, jeśli chodzi o spójność MLE, normalność itp. Jeśli chodzi o QMLE, temat jest dość szeroki. Na przykład pod „QMLE” możemy rzeczywiście mieć sytuacje, w których od samego początku potwierdzamy, że parametry, które oceniamy, mogą nie mieć wyraźnego związku z żadnymi „prawdziwymi parametrami” (ale ćwiczenie jest nadal aktualne jako przybliżenie)., i w ten sposób uzyskaj „najmniej fałszywy” wektor zgodnie z sugestią.

— Alecos Papadopoulos