Czy istnieje przykład, w którym MLE daje stronnicze oszacowanie średniej?

17

Czy możesz podać przykład estymatora MLE średniej stronniczości?

Nie szukam przykładu, który ogólnie łamie estymatory MLE, naruszając warunki regularności.

Wszystkie przykłady, które widzę w Internecie, odnoszą się do wariancji i nie mogę znaleźć niczego związanego ze średnią.

EDYTOWAĆ

@MichaelHardy podał przykład, w którym otrzymujemy tendencyjne oszacowanie średniej rozkładu jednolitego przy użyciu MLE w ramach określonego proponowanego modelu.

jednak

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

sugeruje, że MLE jest jednakowo minimalnym obiektywnym estymatorem średniej, wyraźnie w innym proponowanym modelu.

W tym momencie nadal nie jest dla mnie bardzo jasne, co oznacza estymacja MLE, jeśli jest ona bardzo hipotetycznie zależna od modelu, w przeciwieństwie do estymatora średniej próby, który jest neutralny dla modelu. Na koniec jestem zainteresowany oszacowaniem czegoś na temat populacji i tak naprawdę nie obchodzi mnie oszacowanie parametru modelu hipotetycznego.

EDYCJA 2

Jak @ChristophHanck pokazał model z dodatkowymi informacjami wprowadzonymi uprzedzeniami, ale nie udało się zmniejszyć MSE.

Mamy również dodatkowe wyniki:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (slajd 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (slajd 5)

„Jeśli istnieje najbardziej wydajny obiektywny estymator ˆθ z ((tj. ˆΘ jest obiektywny, a jego wariancja jest równa CRLB), metoda szacowania przy maksymalnym prawdopodobieństwie go wytworzy”.

„Ponadto, jeśli istnieje skuteczny estymator, jest to estymator ML”.

Ponieważ MLE z parametrami modelu swobodnego jest obiektywny i wydajny, to z definicji jest to „Estymator maksymalnego prawdopodobieństwa?

EDYCJA 3

@AlecosPapadopoulos ma przykład z rozkładem Half Normal na forum matematycznym.

/math/799954/can-the-maximum-likelihood-estimator-be-unnośne-and-fail-to-achieve-cramer-rao

Nie zakotwicza żadnego z jego parametrów, jak w przypadku jednolitym. Powiedziałbym, że to załatwia sprawę, chociaż nie wykazał stronniczości przeciętnego estymatora.

maximum-likelihood mean bias

— Cagdas Ozgenc
źródło

10

Średnia munduru na zero i theta.

— Christoph Hanck

1

Nie mogę zastosować się do twojego rozróżnienia między „szacowaniem czegoś o populacji” a „parametrem modelu hipotetycznego”. We wszystkich statystykach parametrycznych parametryzujemy populację według niektórych parametrów. Oczywiście możemy zatem napotkać problemy z błędnym sprecyzowaniem, ale nie wydaje się to mieć związku z omawianą kwestią.

— Christoph Hanck,

5

Na przykład, że populację można scharakteryzować za pomocą jej parametrów / momentów, takich jak średnia i wariancja (co byłoby wystarczające na przykład dla normalnej populacji). I: Nie sądzę, że ludzie są mniej lub bardziej pedantyczni wobec ciebie niż wśród innych osób na tym forum.

— Christoph Hanck,

2

Jeśli czujesz się niezadowolony z powodu pozornej sztuczki ręki przełączania między „parametrem” i „średnią”, pozwól mi zdefiniować pewien nieujemny rozkład w kategoriach jego średniej

μ

$\mu$ , o gęstości

\frac{1}{2 μ}

$\frac{1}{2\mu}$ na podstawie

[0, 2 μ]

$[0, 2\mu]$ ...

— Silverfish,

1

Jeśli chodzi o edycję 2, wiele z tych wyników jest uzyskiwanych w warunkach regularności, które nie są spełnione dla jednolitego przykładu omówionego w tym wątku, dla którego przestrzeń próbki zależy od parametru.

— Christoph Hanck

32

Christoph Hanck nie opublikował szczegółów swojego proponowanego przykładu. Rozumiem, że oznacza rozkład równomierny w przedziale $[0,\theta],$ na podstawie próbki Iid $X_1,\ldots,X_n$ o wielkości większej niż $n=1.$

Średnia to $\theta/2$ .

Średnia MLE to $\max\{X_1,\ldots,X_n\}/2.$

Jest to tendencyjne, ponieważ więc $\Pr(\max < \theta) = 1,$ $\operatorname{E}({\max}/2)<\theta/2.$

PS: Być może powinniśmy zauważyć, że najlepszym obiektywnym estymatorem średniej nie jest średnia z próby, ale raczej $\theta/2$ Średnia próbki jest kiepskim estymatoremponieważ dla niektórych próbek średnia próbki jest mniejsza niż

\frac{n + 1}{2 n} \cdot max {X_{1}, \dots, X_{n}} .

$\frac{n+1} {2n} \cdot \max\{X_1,\ldots,X_n\}.$

θ / 2

$\theta/2$

i to oczywiście możliwe dla

powinna być mniejsza od

koniec PS

\frac{1}{2} max {X_{1}, \dots, X_{n}},

$\dfrac 1 2 \max\{X_1,\ldots,X_n\},$

θ / 2

$\theta/2$

max / 2.

${\max}/2.$

Podejrzewam, że dystrybucja Pareto to kolejny taki przypadek. Oto miara prawdopodobieństwa: Oczekiwana wartość to

α {(\frac{κ}{x})}^{α} \frac{d x}{x} for x > κ .

$\alpha\left( \frac \kappa x \right)^\alpha\ \frac{dx} x \text{ for } x >\kappa.$

MLE oczekiwanej wartości wynosi

\frac{α}{α - 1} κ .

$\dfrac \alpha {\alpha -1 } \kappa.$

gdzie

\frac{n}{n - \sum_{i = 1}^{n} ((\log X_{i}) - \log (min))} \cdot min

$\frac n {n - \sum_{i=1}^n \big((\log X_i) - \log(\min)\big)} \cdot \min$

min = min {X_{1}, \dots, X_{n}} .

$\min = \min\{X_1,\ldots,X_n\}.$

Nie opracowałem oczekiwanej wartości MLE dla średniej, więc nie wiem, jaka jest jej stronniczość.

— Michael Hardy
źródło

12

Cagdas, nie ma sensu prosić o przykład, a następnie zaprzeczać, że zaproponowałbyś coś innego! To tak, jakby poprosić o przykładowy owoc, który nie jest czerwony, pokazać jagodę, a następnie powiedzieć, że się nie liczy, ponieważ nie lubisz jagód.

— whuber

7

To nie dotyczy zadanego pytania.

— whuber

8

@CagdasOzgenc: To, czy MLE jest stronnicze, zależy od modelu. Nie ma czegoś takiego jak MLE bez modelu. A jeśli zmienisz model, zmienisz MLE.

— Michael Hardy,

8

@CagdasOzgenc Oto socjokratyczne pytanie: średnia próbki jest bezstronnym estymatorem czego? Potrzebujesz modelu, aby mieć parametr do oszacowania.

— Matthew Drury,

9

Średnia próbki średniej jest bezstronnym estymatorem średniej populacji, ale nie można mówić o estymatorze największego prawdopodobieństwa niczego bez większej struktury niż to, co jest potrzebne, aby mówić o bezstronnym estymatorze czegoś.

— Michael Hardy,

18

Oto przykład, który moim zdaniem może zaskoczyć:

W regresji logistycznej dla dowolnej skończonej wielkości próby z wynikami niedeterministycznymi (tj. $0 < p_{i} < 1$ ), każdy oszacowany współczynnik regresji jest nie tylko tendencyjny, średnia współczynnika regresji jest w rzeczywistości nieokreślona.

Wynika to z faktu, że dla dowolnej skończonej wielkości próbki istnieje dodatnie prawdopodobieństwo (choć bardzo małe, jeśli liczba próbek jest duża w porównaniu z liczbą parametrów regresji) uzyskania idealnego rozdziału wyników. Kiedy tak się stanie, szacowane współczynniki regresji będą wynosić lub . Mając dodatnie prawdopodobieństwo bycia lub $-\infty$ $\infty$ $-\infty$ $\infty$ oznacza, że oczekiwana wartość jest niezdefiniowana.

Aby uzyskać więcej informacji na ten temat, zobacz efekt Haucka-Donnera .

— Cliff AB
źródło

1

To całkiem sprytne. Zastanawiam się, czy MLE współczynników regresji logistycznej jest obiektywnie uzależnione od braku pewności efektu Haucka-Donnera?

— gung - Przywróć Monikę

3

@gung: Krótka odpowiedź: ignorując efekt Haucka-Donnera, nadal występuje tendencja wzrostowa w współczynnikach regresji absolutnej (tj. współczynniki ujemne mają tendencję spadkową, pozytywne mają tendencję wzrostową). Co ciekawe, wydaje się, że w szacowanych prawdopodobieństwach występuje odchylenie w kierunku 0,5. Zacząłem pisać o tym w tym poście , ale nie podałem moich wyników na temat błędów szacunkowych prawdopodobieństw.

— Cliff AB

10

Chociaż @MichaelHardy dokonał punkt, tutaj jest bardziej szczegółowy argumentem, dlaczego MLE maksimum (a więc, że od średniej , według niezmienniczości) nie jest obiektywne, chociaż jest w innym modelu (patrz edycja poniżej). $\theta/2$

Szacujemy górną granicę rozkładu równomiernego . Tutaj jest MLE dla losowej próbki . Pokazujemy, że nie jest bezstronny. Jego format cdf to $U[0,\theta]$ $y_{(n)}$ $y$ $y_{(n)}$ Zatem jego gęstość wynosi

\begin{array}{rcl} F_{y_{(n)}} (x) & = & Pr {Y_{1} ⩽ x, \dots, Y_{n} ⩽ x} \\ = & Pr {Y_{1} ⩽ x}^{n} \\ = & {\begin{cases} 0 & for x < 0 \\ {(\frac{x}{θ})}^{n} & for 0 ⩽ x ⩽ θ \\ 1 & for x > θ \end{cases} \end{array}

$\begin{eqnarray*} F_{y_{(n)}}(x)&=&\Pr\{Y_1\leqslant x,\ldots,Y_n\leqslant x\}\\ &=&\Pr\{Y_1\leqslant x\}^n\\ &=&\begin{cases} 0&\qquad\text{for}\quad x<0\\ \left(\frac{x}{\theta}\right)^n&\qquad\text{for}\quad 0\leqslant x\leqslant\theta\\ 1&\qquad\text{for}\quad x>\theta \end{cases} \end{eqnarray*}$

f_{y_{(n)}} (x) = {\begin{cases} \frac{n}{θ} {(\frac{x}{θ})}^{n - 1} & for 0 ⩽ x ⩽ θ \\ 0 & else \end{cases}

$f_{y_{(n)}}(x)= \begin{cases} \frac{n}{\theta}\left(\frac{x}{\theta}\right)^{n-1}&\qquad\text{for}\quad 0\leqslant x\leqslant\theta\\ 0&\qquad\text{else} \end{cases}$ Hence,

\begin{array}{rcl} E [Y_{(n)}] & = & \int_{0}^{θ} x \frac{n}{θ} {(\frac{x}{θ})}^{n - 1} d x \\ = & \int_{0}^{θ} n {(\frac{x}{θ})}^{n} d x \\ = & \frac{n}{n + 1} θ \end{array}

$\begin{eqnarray*} E[Y_{(n)}]&=&\int_0^\theta x\frac{n}{\theta}\left(\frac{x}{\theta}\right)^{n-1}dx\\ &=&\int_0^\theta n\left(\frac{x}{\theta}\right)^{n}dx\\ &=&\frac{n}{n+1}\theta \end{eqnarray*}$

EDIT: It is indeed the case that (see the discussion in the comments) the MLE is unbiased for the mean in the case in which both the lower bound $a$ and upper bound $b$ are unknown. Then, the minimum $Y_{(1)}$ is the MLE for $a$ , with (details omitted) expected value

E (Y_{(1)}) = \frac{n a + b}{n + 1}

$E(Y_{(1)})=\frac{na+b}{n+1}$ while

E (Y_{(n)}) = \frac{n b + a}{n + 1}

$E(Y_{(n)})=\frac{nb+a}{n+1}$ so that the MLE for

(a + b) / 2

$(a+b)/2$ is

\frac{Y_{(1)} + Y_{(n)}}{2}

$\frac{Y_{(1)}+Y_{(n)}}{2}$ with expected value

E (\frac{Y_{(1)} + Y_{(n)}}{2}) = \frac{n a + b + n b + a}{2 (n + 1)} = \frac{a + b}{2}

$E\left(\frac{Y_{(1)}+Y_{(n)}}{2}\right)=\frac{na+b+nb+a}{2(n+1)}=\frac{a+b}{2}$

EDIT 2: To elaborate on Henry's point, here is a little simulation for the MSE of the estimators of the mean, showing that while the MLE if we do not know the lower bound is zero is unbiased, the MSEs for the two variants are identical, suggesting that the estimator which incorporates knowledge of the lower bound reduces variability.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968

— Christoph Hanck
źródło

Ponieważ Wikipedia proponuje na początek inny model. Tam leży moje zamieszanie.

— Cagdas Ozgenc

Tak, ale kiedy dostosujemy się do omawianego tutaj szczególnego przypadku, mianowicie

a = 0

$a=0$ , wróciliśmy do kwadratu 1. W takim przypadku nie potrzebujemy już minimum próbki do oszacowania, ponieważ wiemy, że dolna granica wynosi zero, więc MLE punktu środkowego (= mediana = średnia) po prostu staje się

(m a x + 0) / 2

$(max+0)/2$ jeszcze raz.

— Christoph Hanck,

2

I have not worked out the details, but the MLE in that model could be unbiased if the minimum overestimates the lower bound by the same amount as the maximum underestimates the maximum, so that the midpoint is being estimated without bias.

— Christoph Hanck

4

@CagdasOzgenc: unbiasedness is not the only or even the most important measure of better. By knowing one end of the support precisely, you may lose the balance between errors in estimating the mean, but you end up with (for example) a better estimate of the range

— Henry

6

Maximum likelihood estimators are not always "best" across all criteria for small sample sizes. So what? They don't pretend to be, either. If you want to use a different estimator for your problem that has better properties according to some criterion for sample sizes that are in the neighborhood of your actual sample size, you're free to do so. I do so, and so do other people. No one is claiming that using MLE is justified in all situations just because it's MLE.

— jbowman

5

Completing here the omission in my answer over at math.se referenced by the OP,

assume that we have an i.i.d. sample of size $n$ of random variables following the Half Normal distribution. The density and moments of this distribution are

f_{H} (x) = \sqrt{2 / π} \cdot \frac{1}{v^{1 / 2}} \cdot \exp {- \frac{x^{2}}{2 v}} E (X) = \sqrt{2 / π} \cdot v^{1 / 2} \equiv μ, Var (X) = (1 - \frac{2}{π}) v

$f_H(x) = \sqrt{2/\pi}\cdot \frac 1{v^{1/2}}\cdot \exp\big\{-\frac {x^2}{2v} \big\} \\ E(X) = \sqrt{2/\pi}\cdot v^{1/2}\equiv \mu,\;\; \operatorname{Var}(X) = \left(1-\frac 2 \pi \right)v$

The log-likelihood of the sample is

L (v ∣ x) = n \ln \sqrt{2 / π} - \frac{n}{2} \ln v - \frac{1}{2 v} \sum_{i = 1}^{n} x_{i}^{2}

$L(v\mid \mathbf x) = n\ln\sqrt{2/\pi}-\frac n2\ln v -\frac 1 {2v} \sum_{i=1}^n x_i^2$

The first derivative with respect to $v$ is

\frac{\partial}{\partial v} L (v ∣ x) = - \frac{n}{2 v} + \frac{1}{2 v^{2}} \sum_{i = 1}^{n} x_{i}^{2}, ⟹ {\hat{v}}_{MLE} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}

$\frac {\partial}{\partial v}L(v\mid\mathbf x) = -\frac n{2v} + \frac 1 {2v^2} \sum_{i=1}^n x_i^2,\implies \hat v_\text{MLE} = \frac 1n \sum_{i=1}^nx_i^2$

so it is a method of moments estimator. It is unbiased since,

E ({\hat{v}}_{MLE}) = E (X^{2}) = Var (X) + [E (X)])^{2} = (1 - \frac{2}{π}) v + \frac{2}{π} v = v

$E(\hat v_\text{MLE}) = E(X^2) = \operatorname{Var}(X) + [E(X)])^2 = \left(1-\frac 2 \pi \right)v + \frac 2 \pi v = v$

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

\begin{aligned} {\hat{μ}}_{MLE} = \sqrt{2 / π} \cdot \sqrt{{\hat{v}}_{MLE}} ⟹ & E ({\hat{μ}}_{MLE}) = \sqrt{2 / π} \cdot E (\sqrt{{\hat{v}}_{MLE}}) \\ < \sqrt{2 / π} \cdot [\sqrt{E ({\hat{v}}_{MLE})}] = \sqrt{2 / π} \cdot \sqrt{v} = μ \end{aligned}

$\begin{align} \hat \mu_\text{MLE} = \sqrt{2/\pi}\cdot \sqrt {\hat v_\text{MLE}} \implies & E\left(\hat \mu_\text{MLE}\right) = \sqrt{2/\pi}\cdot E\left(\sqrt {\hat v_\text{MLE}}\,\right) \\[6pt] & < \sqrt{2/\pi}\cdot \left[\sqrt {E(\hat v_\text{MLE})}\,\right] = \sqrt{2/\pi}\cdot \sqrt v = \mu \end{align}$

— Alecos Papadopoulos
źródło

4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take $(X_i, Y_i) \sim \mathcal{N}\left(\mu_i, \sigma^2 \right)$ . The MLE of $\mu_i$ is $(X_i + Y_i)/2$ and of $\sigma^2$ is $\hat{\sigma}^2 = \sum_{i=1}^n \frac{1}{n} s_i^2$ with $s_i^2 = (X_i - \hat{\mu}_i)^2/2 + (Y_i - \hat{\mu}_i)^2/2 = (X_i - Y_i)^2 / 4$ which has expected value $\sigma^2/4$ and so biased by a factor of 2.

— AdamO
źródło

2

While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that

k / n \to 0

$k / n \rightarrow 0$ , where

k

$k$ is the number of parameters estimated and

n

$n$ is the sample size.

— Cliff AB

1

@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of

Θ

$\Theta$ goes to

\infty

$\infty$ as

n \to \infty

$n \rightarrow \infty$ . I think that's what you're saying, but don't know what

k

$k$ means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate

σ

$\sigma$ in this case.

— AdamO

3

There is an infinite range of examples for this phenomenon since

the maximum likelihood estimator of a bijective transform $\Psi(\theta)$ of a parameter $\theta$ is the bijective transform of the maximum likelihood estimator of $\theta$ , $\Psi(\hat{\theta}_\text{MLE})$ ;
the expectation of the bijective transform of the maximum likelihood estimator of $\theta$ , $\Psi(\hat{\theta}_\text{MLE})$ , $\mathbb{E}[\Psi(\hat{\theta}_\text{MLE})]$ is not the bijective transform of the expectation of the maximum likelihood estimator, $\Psi(\mathbb{E}[\hat{\theta}_\text{MLE}])$ ;
most transforms $\Psi(\theta)$ are expectations of some transform of the data, $\mathfrak{h}(X)$ , at least for exponential families, provided an inverse Laplace transform can be applied to them.

— Xi'an
źródło