Jakie są przykładowe zastosowania prawdopodobieństwa empirycznego?

Słyszałem o prawdopodobieństwie empirycznym Owena, ale do niedawna nie zwracałem na to uwagi, dopóki nie natknąłem się na nie w interesującej pracy ( Mengersen i in. 2012 ).

W moich wysiłków, aby zrozumieć, jakie zebrała, że prawdopodobieństwo obserwowanego danych jest reprezentowana jako , gdzie oraz .

L = \prod_{i} p_{i} = \prod_{i} P (X_{i} = x) = \prod_{i} P (X_{i} \leq x) - P (X_{i} < x)

$L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)$

\sum_{i} p_{i} = 1

$\sum_i p_i = 1$

p_{i} > 0

$p_i > 0$

Nie udało mi się jednak dokonać mentalnego skoku łączącego tę reprezentację z tym, jak można ją wykorzystać do wnioskowania na temat obserwacji. Być może jestem zbyt zakorzeniony w myśleniu o parametrach modelu prawdopodobieństwa wrt?

Niezależnie od tego szukałem w Google Scholar jakiegoś papieru, w którym istnieje prawdopodobieństwo empiryczne, które pomogłoby mi zinternalizować tę koncepcję ... bezskutecznie. Oczywiście jest książka Art Owena na temat empirycznego prawdopodobieństwa , ale Google Books pomija wszystkie pyszne kawałki i wciąż jestem powolny w procesie otrzymywania pożyczki międzybibliotecznej.

W międzyczasie, czy ktoś może uprzejmie wskazać mi dokumenty i dokumenty, które jasno ilustrują przesłankę prawdopodobieństwa empirycznego i sposób jej wykorzystania? Przykładowy opis samego EL byłby również mile widziany!

— Sameer
źródło

Szczególnie ekonometrycy zakochali się w EL. Jeśli szukasz aplikacji , ta literatura może być jednym z lepszych miejsc do poszukiwania.

— kardynał

Odpowiedzi:

Nie mogę wymyślić lepszego miejsca niż książka Owena, aby dowiedzieć się o prawdopodobieństwie empirycznym.

$L = L(p_1, \ldots, p_n)$ $x_1, \ldots, x_n$ $(p_1, \ldots, p_n)$ $n$ $1/n$ na każdej z obserwacji (zakładając, że wszystkie są różne). Wymiar przestrzeni parametrów rośnie wraz z liczbą obserwacji.

$\mu$ $p = (p_1, \ldots, p_n)$

μ (p) = \sum_{i = 1}^{n} x_{i} p_{i},

$\mu(p) = \sum_{i=1}^n x_i p_i,$

L_{prof} (μ) = max {L (p) ∣ μ (p) = μ} .

$L_{\text{prof}}(\mu) = \max \{ L(p) \mid \mu(p) = \mu \}.$ Następnie możemy obliczyć przedziały ufności w postaci pomocą . Tutaj jest średnią empiryczną, a . Przedziały powinny być po prostu nazywane przedziałami prawdopodobieństwa (profilu), ponieważ z góry nie ma oświadczenia o zasięgu. Wraz ze zmniejszaniem przedziały (tak, są to przedziały) tworzą zagnieżdżoną, rosnącą rodzinę przedziałów ufności. Powiedzmy, że można zastosować teorię asymptotyczną lub pasek startowy do kalibracji aby osiągnąć 95% pokrycia.

I_{r} = {μ ∣ L_{prof} (μ) \geq r L_{prof} (\bar{x})}

$I_r = \{ \mu \mid L_{\text{prof}}(\mu) \geq r L_{\text{prof}}(\bar{x}) \}$

r \in (0, 1)

$r \in (0,1)$

\bar{x}

$\bar{x}$

L_{prof} (\bar{x}) = n^{- n}

$L_{\text{prof}}(\bar{x}) = n^{-n}$

I_{r}

$I_r$

r

$r$

I_{r}

$I_r$

r

$r$

Książka Owena szczegółowo to omawia i zapewnia rozszerzenie bardziej skomplikowanych problemów statystycznych oraz innych interesujących parametrów.

— NRH
źródło

(+1) Nie mając dostępu do książki, zawsze można zacząć od oryginalnych prac, aby uzyskać podstawy teorii. Podobnie jak książka, artykuły są również dość wyraźnie napisane.

— kardynał

Niektóre linki: ( 1 ) A. Owen (1988), Przedziały ufności empirycznego współczynnika wiarygodności dla pojedynczej funkcji , Biometrika , vol. 75, nr 2, str. 237-249, ( 2 ) A. Owen (1990), Regiony ufności dla współczynnika prawdopodobieństwa empirycznego , Ann. Statystyk. , vol. 18, nr 1, pp. 90–120 ( otwarty dostęp ) i ( 3 ) A. Owen (1991) Empiryczne prawdopodobieństwo modeli liniowych , Ann. Statystyk. , vol. 19, nr 4, s. 1725–1747 ( otwarty dostęp ).

— kardynał

@cardinal Fantastic! Sam powinienem o tym pomyśleć.

— Sameer,

@NHS Dziękujemy za wyjaśnienie! Dla jasności, to WRT w „s? Czy możesz również wyjaśnić, dlaczego ? Czy to może być ?

L_{p r o f} (μ)

$L_{prof}(\mu)$

a r g m a x

$argmax$

p

$p$

L_{p r o f} (\bar{x}) = n^{n}

$L_{prof}(\bar{x})=n^n$

\prod_{i} n^{- 1} = n^{- n}

$\prod_i n^{-1} = n^{-n}$

— Sameer

@Sameer, literówka jest teraz poprawiana. Jednak to nie argmax. Jest to prawdopodobieństwo profilu uzyskane przez maksymalizację prawdopodobieństwa dla wszystkich wektorów parametrów o danej wartości . Przy okazji z odpowiednim dostępem do uniwersytetu uzyskałem wersję elektroniczną z CRC poszczególnych rozdziałów książki Owena.

μ

$\mu$

— NRH

W ekonometrii wiele zastosowanych artykułów zaczyna się od założenia, że gdzie jest wektorem danych, jest znanym układem równań , a jest nieznanym parametrem . Funkcja pochodzi z modelu ekonomicznego. Celem jest oszacowanie .

E [g (X, θ)] = 0

$E[g(X,\theta)] = 0$

X

$X$

g

$g$

q

$q$

θ \in Θ \subseteq R^{p}

$\theta \in \Theta \subseteq \mathbb{R}^p$

q \geq p

$q \geq p$

g

$g$

θ

$\theta$

Tradycyjne podejście, w ekonometrii, do szacowania i wnioskowania na temat polega na zastosowaniu ogólnej metody momentów: gdzie jest dodatnią, określoną macierzą ważenia, a Dostawcy prawdopodobieństwa empirycznego stanowią alternatywę dla GMM. Chodzi o to, aby wymusić warunek momentu jako ograniczenie przy maksymalizacji prawdopodobieństwa nieparametrycznego. Najpierw napraw a . Następnie rozwiąż zastrzeżeniem $\theta$

{\hat{θ}}_{GMM} = {argmin}_{θ \in Θ} {\bar{g}}_{n} (θ)^{'} W {\bar{g}}_{n} (θ)

$\hat{\theta}_\text{GMM} = \text{argmin}_{\theta \in \Theta} \; \bar{g}_n(\theta) 'W \bar{g}_n(\theta)$

W

$W$

{\bar{g}}_{n} (θ) := \frac{1}{n} \sum_{i = 1}^{n} g (X_{i}, θ) .

$\bar{g}_n(\theta) := \frac{1}{n} \sum_{i=1}^n g(X_i,\theta).$

θ

$\theta$

L (θ) = max_{p_{1}, \dots, p_{n}} \prod_{i = 1}^{n} p_{i}

$L(\theta) = \max_{p_1,\ldots,p_n} \; \prod_{i=1}^n p_i$

\sum_{i = 1}^{n} p_{i} = 1, p_{i} \geq 0, \sum_{i = 1}^{n} p_{i} \cdot g (X_{i}, θ) = 0.

$\sum_{i=1}^n p_i=1, \qquad p_i \geq 0, \qquad \sum_{i=1}^n p_i \cdot g(X_i,\theta) = 0.$ To jest `wewnętrzna pętla „. Następnie zmaksymalizuj ponad : Wykazano, że takie podejście ma lepsze właściwości wyższego rzędu niż GMM (patrz Newey i Smith 2004, Econometrica ), co jest jednym z powodów, dla których jest ono lepsze niż GMM. Dodatkowe informacje można znaleźć w notatkach i wykładzie Imbens i Wooldridge tutaj (wykład 15).

θ

$\theta$

{\hat{θ}}_{EL} = {argmax}_{θ \in Θ} \log L (θ) .

$\hat{\theta}_\text{EL} = \text{argmax}_{\theta \in \Theta} \; \log L(\theta).$

Istnieje oczywiście wiele innych powodów, dla których EL zwrócił uwagę w ekonometrii, ale mam nadzieję, że jest to przydatne miejsce początkowe. Modele równości momentów są bardzo powszechne w ekonomii empirycznej.

— Aelmore
źródło

Dziękujemy za napisanie tak klarownej, dobrze uzasadnionej odpowiedzi. Witamy w naszej społeczności!

— whuber

W analizie przeżycia krzywa Kaplana-Meiera jest najbardziej znanym nieparametrycznym estymatorem funkcji przeżycia , gdzie oznacza losową zmienną czasu do zdarzenia. Zasadniczo jest uogólnieniem funkcji rozkładu empirycznego, która umożliwia cenzurę. Można go wyprowadzić heurystycznie, jak podano w większości praktycznych podręczników. Ale można go również formalnie wyprowadzić jako estymator największego prawdopodobieństwa (empiryczny). Oto więcej szczegółów . $S(t) = Pr(T > t)$ $T$ $\hat{S}$

— ocram
źródło