Bootstrapping kontra Bayesian Bootstrapping koncepcyjnie?


21

Mam problem ze zrozumieniem, czym jest proces ładowania bayesowskiego i czym różni się on od normalnego ładowania początkowego. A gdyby ktoś mógł zaoferować intuicyjny / konceptualny przegląd i porównanie obu, byłoby świetnie.

Weźmy przykład.

Powiedzmy, że mamy zestaw danych X, który jest [1,2,5,7,3].

Jeśli próbujemy z zamianą wiele razy, aby utworzyć próbki o wielkości równej wielkości X (więc [7,7,2,5,7], [3,5,2,2,7] itd.), A następnie obliczyć średnie dla każdego z nich, czy rozkład bootstrapu próbki oznacza?

Jaka byłaby to bayesowska dystrybucja bootstrap?

I w jaki sposób bayesowski rozkład ładowania innych parametrów (wariancji itp.) Odbywa się w ten sam sposób?


4
Zobacz sumsar.net/blog/2015/04/… i projecteuclid.org/euclid.aos/1176345338 , może @ rasmus-bååth może ci odpowiedzieć;)
Tim

Odpowiedzi:


27

(Częstotliwość) bootstrap przyjmuje dane jako rozsądne przybliżenie do nieznanego rozkładu populacji. Dlatego rozkład próbkowania statystyki (funkcja danych) można aproksymować poprzez wielokrotne ponowne próbkowanie obserwacji z zamianą i obliczanie statystyki dla każdej próbki.

Niech oznacza oryginalne dane. (W podanym przykładzie ). Niech oznacza próbkę ładowania początkowego. W takiej próbce prawdopodobnie niektóre obserwacje zostaną powtórzone jeden lub więcej razy, a inne obserwacje będą nieobecne. próbkę ładowania początkowego podajeJest to rozkład na wiele replik ładowania początkowego, który służy do przybliżenia rozkładu próbkowania z nieznanej populacji.y=(y1,,yn)y b = ( y b 1 , , y b n ) m b = 1n=5yb=(y1b,,ynb)mb

mb=1nja=1nyjab.
mb

Aby zrozumieć związek między częstym bootstrapem a bayesowskim bootstrapem, warto zobaczyć, jak obliczyć z innej perspektywy.mb

W każdej próbce ładowania początkowego każda obserwacja występuje od 0 do razy. Niech oznacza liczbę przypadków, w których występuje w , i niech . Zatem i . Biorąc pod uwagę , możemy zbudować zbiór nieujemnych wag, które sumują się do jednego: , gdzie . Za pomocą tej notacji możemy ponownie wyrazić średnią próbki bootstrap jako y i n h b i y i y b h b = ( h b 1 , , h b n ) h b i{ 0 , 1 , , n - 1 , n } n i = 1 h b i = n h b w b = h b /ybyjanhjabyjaybhb=(h1b,,hnb)hjab{0,1,,n-1,n}ja=1nhjab=nhbw b i = h b i / n m b = n i = 1 w b iwb=hb/nwjab=hjab/n

mb=ja=1nwjabyja.

Sposób wyboru obserwacji dla próbki bootstrap określa rozkład połączeń dla . W szczególności ma rozkład wielomianowy, a zatemDlatego możemy obliczyć , rysując z jego rozkładu i obliczając iloczyn iloczynu za pomocą . Z tej nowej perspektywy wydaje się, że obserwacje są ustalone, a wagi są różne.h b ( nwbhbm b w b y

(nwb)Wielomian(n,(1/n)ja=1n).
mbwby

W wnioskowaniu bayesowskim obserwacje są rzeczywiście uważane za ustalone, więc ta nowa perspektywa wydaje się być zgodna z podejściem bayesowskim. Rzeczywiście, obliczenie średniej zgodnie z bayesowskim bootstrapem różni się tylko rozkładem ciężarów. (Niemniej jednak, z konceptualnego punktu widzenia, bayesowski bootstrap różni się znacznie od wersji częstej.) Dane są stałe, a wagi są nieznanymi parametrami. Możemy być zainteresowani jakąś funkcją danych, która zależy od nieznanych parametrów: w μ = n i = 1 w iyw

μ=ja=1nwjayja.

Oto szkic miniatury modelu za bayesowskim bootstrapem: Rozkład próbkowania dla obserwacji jest wielomianowy, a pierwszeństwo dla wag jest ograniczającym rozkładem Dirichleta, który kładzie całą swoją wagę na wierzchołkach simpleksu. (Niektórzy autorzy odnoszą się do tego modelu jako modelu prawdopodobieństwa wielomianowego ).

Model ten wytwarza następujący rozkład boczny dla wag: (Rozkład ten jest płaski w stosunku do simpleksu.) Dwa rozkłady wag (częste i bayesowskie) są dość podobne: mają te same środki i podobne kowariancje. Rozkład Dirichleta jest „gładszy” niż rozkład wielomianowy, więc bayesowski bootstrap można nazwać wygładzonym bootstrapem. Możemy interpretować częsty bootstrap jako przybliżenie do bayesowskiego bootstrapu.

wDirichlet(1,,1).

Biorąc pod uwagę rozkład tylny dla wag, możemy aproksymować rozkład tylny funkcjonalnego przez powtarzanie próbkowania z jego rozkładu Dirichleta i obliczanie iloczynu .μwy

Możemy przyjąć strukturę szacowania równań gdzie jest wektorem funkcji szacunkowych zależnym od nieznany parametr (wektor) i to wektor zer. Jeśli ten układ równań ma unikalne rozwiązanie dla podanym i , wówczas możemy obliczyć jego rozkład tylny, wyciągając z jego rozkładu tylnego i oceniając to rozwiązanie. (Ramy szacowania równań stosuje się z prawdopodobieństwem empirycznym i uogólnioną metodą momentów (GMM).)

ja=1nwjasol(yja,θ)=0_,
sol(yja,θ)θ0_θyww

Najprostszym przypadkiem jest ten, z którym już mieliśmy do czynienia: Dla średniej i wariancji we mieć Konfiguracja jest nieco bardziej zaangażowana niż w przypadku ładowania częstego, dlatego Bayesian może przyjąć ten częsty ładunek jako szybkie przybliżenie.

ja=1nwja(yja-μ)=0.
θ=(μ,v)
sol(yja,θ)=(yja-μ(yja-μ)2)-v).

1
Dzięki za bardzo szczegółowy opis. Osobiście byłbym wdzięczny za krótkie stwierdzenie, kiedy wybrać każdy z nich.
ErichBSchulz
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.