Co oznacza standardowy błąd oszacowania maksymalnego prawdopodobieństwa?

Jestem matematykiem, samokształcącym się statystyką i walczącym szczególnie z językiem.

W książce, której używam, występuje następujący problem:

Losowa zmienna jest podana jako -dystrybucja z . (Oczywiście ze względu na to pytanie można wziąć dowolny rozkład w zależności od jednego parametru). Następnie podaje się próbkę pięciu wartości , , , , . $X$ $\text{Pareto}(\alpha,60)$ $\alpha>0$ $14$ $21$ $6$ $32$ $2$

Pierwsza część: „Korzystając z metody największego prawdopodobieństwa, znajdź oszacowanie z na podstawie [próbki].” To nie był problem. Odpowiedź brzmi . $\hat{\alpha}$ $\alpha$ $\hat{\alpha}\approx 4.6931$

Ale potem: „Podaj przybliżony błąd standardowy .” $\hat{\alpha}$

Co to znaczy? Ponieważ jest tylko stałą liczbą rzeczywistą, nie widzę, w jaki sposób mógłby mieć standardowy błąd. Czy mam określić odchylenie standardowe ? $\hat{\alpha}$ $\text{Pareto}(\hat{\alpha},60)$

Jeśli uważasz, że pytanie nie jest jasne, te informacje również by mi pomogły.

maximum-likelihood

— Stefan
źródło

Co oznacza ?

60

$60$

— Alecos Papadopoulos

Czy masz formułę

? Pomoże to oszacować standardowy błąd.

\hat{α}

$\hat \alpha$

— soakley

@Glen_b Ale jeśli byłaby to dolna granica, jak to możliwe, że wszystkie wartości zrealizowanej próbki są mniejsze?

— Alecos Papadopoulos

@Alecos To doskonały punkt. Mój komentarz nie ma sensu; Usunąłem to.

— Glen_b

@Alecos:

Pareto (α, λ)

$\text{Pareto}(\alpha,\lambda)$ jest rozkładem o gęstości

f (x) = \frac{α λ^{α}}{(λ + x)^{α + 1}}

$f(x)=\frac{\alpha\lambda^\alpha}{(\lambda+x)^{\alpha+1}}$

— Stefan

Odpowiedzi:

Inna odpowiedź obejmowała wyprowadzenie błędu standardowego, chcę tylko pomóc w notacji:

Twoje zamieszanie wynika z faktu, że w statystykach używamy dokładnie tego samego symbolu do oznaczenia estymatora (który jest funkcją) oraz konkretnego oszacowania (czyli wartości, którą estymator przyjmuje, gdy otrzymuje jako dane wejściowe konkretną zrealizowaną próbkę).

Tak i dla $\hat \alpha = h(\mathbf X)$ $\hat \alpha(\mathbf X = \mathbf x) = 4.6931$ . Więc jest funkcją zmiennych losowych i tak w samej zmiennej losowej, że na pewno ma wariancji. $\mathbf x = \{14,\,21,\,6,\,32,\,2\}$ $\hat \alpha(X)$

W estymacji ML w wielu przypadkach możemy obliczyć standardowy błąd asymptotyczny , ponieważ rozkład skończonej próby estymatora nie jest znany (nie można go wyprowadzić).

Ściśle nie ma rozkład asymptotycznej, ponieważ jest zbieżny do liczby rzeczywistej (prawdziwy numer w prawie wszystkich przypadkach oszacowania ml). Ale ilość $\hat \alpha$ zbieżny do normalnej zmiennej losowej (przy zastosowaniu twierdzenia Limit centralny). $\sqrt n (\hat \alpha - \alpha)$

Drugi punkt notacji zamieszania : większość, jeśli nie wszystkie teksty, napisze ( „Avar” = wariancji asymptotycznej "), podczas gdy to, co znaczy to $\text {Avar}(\hat \alpha)$ , to znaczy, że znajdują się w asymptotycznej wariancji ilości $\text {Avar}(\sqrt n (\hat \alpha - \alpha))$ , nie stanowi ... W przypadku podstawowego rozkładu Pareto mamy $\sqrt n (\hat \alpha - \alpha)$ $\hat \alpha$

Avar [\sqrt{n} (\hat{α} - α)] = α^{2}

$\text {Avar}[\sqrt n (\hat \alpha - \alpha)] = \alpha^2$

i tak

Avar (\hat{α}) = α^{2} / n

$\text {Avar}(\hat \alpha ) = \alpha^2/n$

(ale co znajdziesz napisany jest ) $\text {Avar}(\hat \alpha ) = \alpha^2$

Teraz, w jakim sensie prognozy ma „asymptotyczne odchylenie”, ponieważ, jak powiedział, że zbiega asymptotycznie do stałej? Cóż, w przybliżeniu i dla dużych, ale skończonych próbek. Czyli gdzieś pomiędzy „małą” próbką, w której estymator jest zmienną losową o (zwykle) nieznanym rozkładem, a „nieskończoną” próbką, w której estymator jest stały, istnieje „duże, ale skończone terytorium próbki”, w którym estymator nie stał się jeszcze stały, a jego rozkład i wariancja wyprowadza się w sposób okrężny, najpierw stosując Centralne Twierdzenie Graniczne, aby uzyskać odpowiednio asymptotyczny rozkład wielkości $\hat \alpha$ (co jest normalne w wyniku CLT), a następnie odwracać się i zapisu $Z = \sqrt n (\hat \alpha - \alpha)$ (a jednocześnie o jeden krok i leczeniaW skończonych), która pokazuje,jako funkcji afinicznej normalnej zmiennej losoweji zwykle tak rozmieszczone się (zawsze w przybliżeniu). $\hat \alpha = \frac 1{\sqrt n} Z + \alpha$ $n$ $\hat \alpha$ $Z$

— Alecos Papadopoulos
źródło

+1 do rozróżniania

\hat{α}

$\hat{\alpha}$

- oczywiście oznaczenie może być spójne.

\sqrt{n} (\hat{α} - α)

$\sqrt{n}(\hat{\alpha} - \alpha)$

— Nate Papież

- maksymalny estymator prawdopodobieństwa - zależy od wybranych losowo, a więc jest również przypadkowy (nie jest stała). Oszacowanie błędu standardowego można uzyskać z informacji Fishera, $\hat{\alpha}$ $\hat{\alpha}$

I (θ) = - E [\frac{\partial^{2} L (θ | Y = y)}{\partial θ^{2}} |_{θ}]

$I(\theta) = -\mathbb{E}\left[ \frac{\partial^2 \mathcal{L}(\theta|Y = y)}{\partial \theta^2}|_\theta \right]$

Gdzie jest parametrem, a jest funkcją logarytmu wiarygodności od losowej próbki . Intuicyjnie informacja Fishera wskazuje na nachylenie krzywizny powierzchni prawdopodobieństwa kłody wokół MLE, a więc ilość „informacji”, które dostarcza około . $\theta$ $\mathcal{L}(\theta|Y = y)$ $\theta$ $y$ $y$ $\theta$

Dla rozkładu z pojedynczą realizacją , prawdopodobieństwo logarytmiczne, w którym jest znane: $\mathrm{Pareto}(\alpha,y_0)$ $Y = y$ $y_0$

Podłączenie do definicji informacji Fishera,

\begin{aligned} L (α | y, y_{0}) & = \log α + α \log y_{0} - (α + 1) \log y \\ L^{'} (α | y, y_{0}) & = \frac{1}{α} + \log y_{0} - \log y \\ L^{″} (α | y, y_{0}) & = - \frac{1}{α^{2}} \end{aligned}

$\begin{aligned} \mathcal{L}(\alpha|y,y_0) &= \log \alpha + \alpha \log y_0 - (\alpha + 1) \log y \\ \mathcal{L}'(\alpha|y,y_0) &= \frac{1}{\alpha} + \log y_0 - \log y \\ \mathcal{L}''(\alpha|y,y_0) &= -\frac{1}{\alpha^2} \end{aligned}$

Przykładowy

największe prawdopodobieństwo estymator

się asymptotycznie rozmieszczone

I (α) = \frac{1}{α^{2}}

$I(\alpha) = \frac{1}{\alpha^2}$

{y_{1}, y_{2}, . . ., y_{n}}

$\{y_1, y_2, ..., y_n\}$

\hat{α}

$\hat{\alpha}$

gdzie

jest rozmiarem próbki. Ponieważ

nie jest znana, można podłączyć

uzyskać szacunkową błąd standardowy:

\begin{aligned} \hat{α} \overset{n \to \infty}{\sim} N (α, \frac{1}{n I (α)}) = N (α, \frac{α^{2}}{n}), \end{aligned}

$\begin{aligned} \hat{\alpha} \overset{n \rightarrow \infty}{\sim} \mathcal{N}(\alpha,\frac{1}{nI(\alpha)}) = \mathcal{N}(\alpha,\frac{\alpha^2}{n}),~ \end{aligned}$

n

$n$

α

$\alpha$

\hat{α}

$\hat{\alpha}$

S E (\hat{α}) \approx \sqrt{{\hat{α}}^{2} / n} \approx \sqrt{{4.6931}^{2} / 5} \approx 2.1

$\mathrm{SE}(\hat{\alpha}) \approx \sqrt{\hat{\alpha}^2/n} \approx \sqrt{4.6931^2/5} \approx 2.1$

— Nate Pope
źródło

\begin{aligned} \hat{α} \overset{n \to \infty}{\sim} N (α, \frac{1}{n I (α)}) \end{aligned}

$\begin{aligned} \hat{\alpha} \overset{n \rightarrow \infty}{\sim} \mathcal{N}(\alpha,\frac{1}{nI(\alpha)}) \end{aligned}$

n \to \infty

$n \to \infty$

n

$n$

\begin{aligned} \hat{α} \dot{\approx} N (α, \frac{1}{n I (α)}) \end{aligned}

$\begin{aligned}\hat{\alpha} \dot{\approx} \mathcal{N}(\alpha,\frac{1}{nI(\alpha)})\end{aligned}$