Skąd dystrybucja beta?


13

Jak jestem pewien, wszyscy już tu wiedzą, plik PDF dystrybucji Beta XB(a,b) jest podany przez

f(x)=1B(a,b)xa1(1x)b1

Wszędzie szukałem wyjaśnień na temat pochodzenia tej formuły, ale nie mogę jej znaleźć. Każdy artykuł, który znalazłem w dystrybucji Beta, wydaje się podawać tę formułę, ilustrować kilka jej kształtów, a następnie przejść do dyskusji na temat swoich chwil i stamtąd.

Nie lubię używać wzorów matematycznych, których nie potrafię wyprowadzić i wyjaśnić. W przypadku innych dystrybucji (np. Gamma lub dwumianowa) istnieje wyraźne wyprowadzenie, którego mogę się nauczyć i używać. Ale nie mogę znaleźć czegoś takiego w dystrybucji Beta.

Moje pytanie brzmi: jakie są początki tej formuły? Jak można to wywnioskować z pierwszych zasad w jakimkolwiek kontekście, w jakim został pierwotnie opracowany?

[Aby wyjaśnić, nie pytam o to, jak korzystać z rozkładu Beta w statystykach bayesowskich, ani co to znaczy intuicyjnie w praktyce (przeczytałem przykład baseballu). Chcę tylko wiedzieć, jak uzyskać plik PDF. Było poprzednie pytanie, które zadawało coś podobnego, ale zostało oznaczone (chyba niepoprawnie) jako duplikat innego pytania, które nie rozwiązało problemu, więc jak dotąd nie znalazłem tutaj żadnej pomocy.]

EDYCJA 2017-05-06: Dziękuję wszystkim za pytania. Myślę, że dobre wyjaśnienie tego, czego chcę, pochodzi z jednej z odpowiedzi, które otrzymałem, gdy zapytałem o to niektórych z moich instruktorów kursu:

„Wydaje mi się, że ludzie mogliby uzyskać normalną gęstość jako limit sumy n rzeczy podzielonych przez sqrt (n), a gęstość poissona można wywnioskować z idei zdarzeń zachodzących w stałym tempie. Podobnie, aby uzyskać gęstość beta, trzeba mieć pewien pomysł na to, co sprawia, że ​​coś jest wersją beta niezależną od gęstości i logicznie przed nią ”.

Więc pomysł „ab initio” w komentarzach jest prawdopodobnie najbliższy temu, czego szukam. Nie jestem matematykiem, ale czuję się najlepiej, używając matematyki, którą potrafię wyprowadzić. Jeśli pochodzenie jest dla mnie zbyt zaawansowane, niech tak będzie, ale jeśli nie, chciałbym je zrozumieć.


5
Pochodzi z czego? Jeżeli podejście dwumianowego sprzężone, przed nie do przyjęcia kilku alternatyw jest tutaj (np statystyki rzędu jednolitej zmiennej losowej proporcjach zmiennych gamma).
GeoMatt22

3
Uwaga: cała historia dystrybucji Beta znajduje się na niewiarygodnej stronie Wikipedii w tej dystrybucji, która zawiera prawie każdy szczegół!
Xi'an

1
Poprzednie pytanie zostało oznaczone jako duplikat drugą po PO wyjaśnił, co byli po w komentarzu. Whuber zadał tam to samo pytanie, co @ Geomatt22: „ Wyprowadzenie oznacza logiczne połączenie czegoś, co zakłada się z czymś, co ma zostać ustalone. Co chcesz założyć ?”
Scortchi - Przywróć Monikę

2
@Aksakal, ale pytanie jest zbyt ogólne - można je wyprowadzić na wiele sposobów; jeśli masz rację, zamknę to jako zbyt szerokie, dopóki pytanie nie zostanie wystarczająco zawężone, aby być czymś innym niż
chwytem

3
Niektóre krótkie omówienie trochę kontekst historyczny jest tu (przynajmniej jeśli chodzi o jego stosunek do niepełnej funkcji beta). Ma powiązania z rozkładem gamma i wiele, wiele innych rozkładów poza tym i powstaje całkiem rozsądnie na wiele różnych sposobów; jak podkreśla Xi'an, ma on również historyczne pochodzenie w systemie Pearson . Jakiej odpowiedzi szukasz tutaj? Co jest dane / co należy uzyskać?
Glen_b

Odpowiedzi:


6

Jako były fizyk widzę, jak można to wyprowadzić. Tak postępują fizycy:

gdy napotkają całkę skończoną funkcji dodatniej, taką jak funkcja beta : instynktownie definiują gęstość: f ( s | x , y ) = s x - 1 ( 1 - s ) y - 1

B(x,y)=01tx1(1t)y1dt
gdzie0<s<1
f(s|x,y)=sx1(1s)y101tx1(1t)y1dt=sx1(1s)y1B(x,y),
0<s<1

Robią to przez cały czas tak często, że dzieje się to odruchowo, nawet bez zastanowienia. Nazywają tę procedurę „normalizacją” lub podobnymi nazwami. Zauważ, że z definicji trywialnie gęstość ma wszystkie właściwości, które ma mieć, takie jak zawsze dodatnie i sumuje się do jednej.

f(t)

AKTUALIZACJA

@ Whuber pyta, co jest takiego specjalnego w dystrybucji Beta, podczas gdy powyższą logikę można zastosować do nieskończonej liczby odpowiednich całek (jak zauważyłem w mojej odpowiedzi powyżej)?

Część specjalna pochodzi z rozkładu dwumianowego . Napiszę jego plik PDF, używając notacji podobnej do mojej wersji beta, a nie zwykłej notacji dla parametrów i zmiennych:

f(x,y|s)=(y+xx)sx(1s)y

Tutaj - liczba sukcesów i niepowodzeń, a - prawdopodobieństwo sukcesu. Możesz zobaczyć, jak to jest bardzo podobne do licznika w dystrybucji Beta. W rzeczywistości, jeśli szukasz wcześniejszej wersji dla dystrybucji dwumianowej, będzie to dystrybucja Beta. Nie jest to zaskakujące również dlatego, że domena Beta ma wartość od 0 do 1, i to właśnie robisz w twierdzeniu Bayesa: całkuj przez parametr , co jest prawdopodobieństwem sukcesu w tym przypadku, jak pokazano poniżej: tutaj - podane prawdopodobieństwo (gęstość) prawdopodobieństwa sukcesu wcześniejsze ustawienia dystrybucji Beta orazx,yss

f^(x|X)=f(X|s)f(s)01f(X|s)f(s)ds,
f(s)f(X|s)- gęstość tego zestawu danych (tj. obserwowany sukces i niepowodzenia) przy danym prawdopodobieństwie .s

1
@ Xi'an OP nie wydaje się być zainteresowany historią.
Aksakal

1
„Wyjaśnienie pochodzenia tej formuły… w jakimkolwiek kontekście został pierwotnie opracowany” brzmi dla mnie jak historia :-).
whuber

3
Uważam, że można zainteresować się historią i pierwszymi zasadami jednocześnie. :-) Chociaż twoja odpowiedź jest matematycznie poprawna, niestety jest zdecydowanie zbyt ogólna: można stworzyć gęstość dowolnej funkcji nieujemnej za pomocą całki skończonej. Co zatem jest takiego specjalnego w tej szczególnej rodzinie dystrybucji? Jako takie, twoje podejście wydaje się nie spełniać żadnego z punktów widzenia.
whuber

2
@WillBradshaw, tak. Zwykle patrzymy na rozkład dwumianowy jako funkcję liczby awarii (lub sukcesów), biorąc pod uwagę prawdopodobieństwo i liczbę prób jako parametry. W ten sposób jest to dyskretny rozkład . Jeśli jednak spojrzysz na to jako funkcję prawdopodobieństw, biorąc pod uwagę liczbę sukcesów i niepowodzeń za parametry, to po zmianie skali staje się rozkładem beta, ciągłym rozkładem, btw.
Aksakal

2
Artykuł w Wikipedii na temat dystrybucji Beta śledzi to dla Karla Pearsona, dokładnie tak, jak sugeruje @ Xi'an. Stigler w swojej Historii statystyki: pomiar niepewności przed 1900 r. Krótko opisuje pochodzenie Pearsona za pomocą nowoczesnej notacji.
whuber

15

wprowadź opis zdjęcia tutaj

Thomas Bayes (1763) wyprowadził rozkład Beta [bez użycia tej nazwy] jako pierwszy przykład rozkładu bocznego , poprzedzający prace Leonharda Eulera (1766) nad całką beta wskazaną przez Glen_b o kilka lat, ale całka pojawia się również w Euler (1729 lub 1738) [Opera Omnia, I14, 1 {24] jako sposób na uogólnienie funkcji silniowej może dlatego normalizująca stała Beta jest również nazywana funkcją Eulera . DaviesB(a,b)wspomina Wallisa (1616-1703), Newtona (1642-1726) i Stirlinga (1692-1770) zajmujących się szczególnymi przypadkami całki jeszcze wcześniej. Karl Pearson (1895) po raz pierwszy skatalogowane tej rodziny rozkładów jak Pearson typu I .


Chociaż historycznie nie pojawiał się w tej kolejności, intuicyjny wpis do rozkładu Beta odbywa się za pomocą rozkładu Fishera , co odpowiada rozkładowi stosunku gdzie celowo użyłem zwykłych notacji dla estymatorów wariancji, ponieważ w ten sposób rozkład ten pojawił się i był zmotywowany do testowania równości dwóch wariancji. Następnie podczas gdy przeciwnie, jeśli , to Znajdowanie gęstościF(p,q)

ϱ=σ^12/σ^22pσ^12χp2qσ^12χq2
pϱq+pϱB(p/2,q/2)
ωB(a,b)
ω/a(1ω)/bF(2a,2b)
B(a,b)rozkład jest zatem zmianą zmiennej zmiennej: zaczynając od gęstości rozkładu , i biorąc pod uwagę zmianę zmiennej która odwraca się na jakobian jest prowadzi do gęstości transformacji [gdzie wszystkie stałe normalizacji są uzyskiwane przez narzucenie, że gęstość zostanie zintegrowana z jednym.F(p,q)
fp,q(x){px/q}p/21(1+px/q)(p+q)/2
y={px/q}{1+px/q}y(0,1)
x=qyp(1y)
dxdy=qp(1y)+qyp(1y)2=pq(1y)2
g(y)yp/21(1y)q/2+1(1y)2=yp/21(1y)q/2+1

2
+1. Warto zauważyć, że K. Pearson nie tylko „katalogował” rozkłady Beta: wyprowadził je poprzez rozwiązania rodziny równań różniczkowych zainspirowanych relacją, którą zaobserwował między równaniami różniczkowymi dla dwumianu a równaniami różniczkowymi dla rozkładu normalnego. Uogólnienie dwumianowego równania różniczkowego do rozkładu hipergeometrycznego spowodowało uogólnienie równania różniczkowego, którego rozwiązania obejmowały rozkłady beta „Typ I” i „Typ II”. Jest to dokładnie ten rodzaj pochodnej ab initio , o którą wydaje się zabiegać OP.
whuber

2
Myślę, że mogę się wiele nauczyć, studiując tę ​​odpowiedź. W tej chwili jest dla mnie zbyt zaawansowany, ale kiedy będę miał czas, wrócę i zbadam wspomniane przez Ciebie tematy, a następnie spróbuj ponownie je zrozumieć. Wielkie dzięki. :)
Will Bradshaw

1

Po pierwsze, nie jestem dobry w matematycznie precyzyjnych opisach pojęć w mojej głowie, ale postaram się jak najlepiej, używając prostego przykładu:

Wyobraź sobie, że masz łuk, wiele strzał i cel. Powiedzmy dalej, że twój współczynnik trafień (dla trafienia w cel) jest dokładnie funkcją odległości do środka celu i następującej postaci gdzie x jest odległością do środka celu ( ). Dla byłoby to przybliżenie pierwszego rzędu Gaussa. Oznaczałoby to, że najczęściej trafiasz w dziesiątkę. Podobnie, przybliża każdą krzywą w kształcie dzwonu, na przykład wynikającą z dyfuzji cząstek Browna.λ

λ=g(x)=λmax(q|xx0|)1q, q>0, 0λλmax
x0q=1/2

Załóżmy ponadto, że ktoś naprawdę odważny / głupi próbuje cię oszukać i przesuwa cel na każdym strzale. W ten sposób sam jest zmienną losową. Jeśli rozkład ruchów tej osoby można opisać mocą (p-1) (to znaczy ), prosty transformacja zmiennych losowych (pamiętaj ) prowadzi do rozproszonego Beta :x0g(x)P(x0)=Cg(x)p1)P(λ)dλ=P(x0)dx0λ

P(λ)=P(g1(λ))|dg1(λ)dλ|=Cλp1(λmaxλ)q1

gdzie stała normalizacyjna jest funkcją beta. Dla standardowej parametryzacji rozkładu beta ustawiamy .Cλmax=1

Innymi słowy, rozkład beta można postrzegać jako rozkład prawdopodobieństw w środku rozłożonego rozkładu.

Mam nadzieję, że to pochodzenie zbliża się do tego, co miał na myśli twój instruktor. Zauważ, że formy funkcjonalne i są bardzo elastyczne i sięgają od rozkładów podobnych do trójkątów i rozkładów w kształcie litery U (patrz przykład poniżej) do rozkładów o ostrych pikach.g(x)P(x0)

FYI: Odkryłem to jako efekt uboczny w mojej pracy doktorskiej i pisałem o tym w mojej pracy doktorskiej w kontekście niestacjonarnych krzywych strojenia neuronowego prowadzących do rozkładów liczby impulsów o zerowym napompowaniu (bimodalny z trybem zerowym). Zastosowanie opisanej powyżej koncepcji dało rozkład mieszaniny Beta-Poissona dla aktywności neuronowej. Taki rozkład może być dopasowany do danych. Dopasowane parametry pozwalają oszacować zarówno rozkład jak i rozkład drgań poprzez zastosowanie odwrotnej logiki. Mieszanina Beta-Poissona jest bardzo interesującą i elastyczną alternatywą dla powszechnie stosowanego ujemnego rozkładu dwumianowego (który jest mieszaniną Gamma-Poissona) w celu modelowania nadmiernej dyspersji. Poniżej znajduje się przykład „Jitterg(x)p(x0) Beta ”- pomysł w działaniu:

Model jittera prowadzący do modelu wzbogacania Beta-Poisson.

Odp . : Symulowane przemieszczenie próbne 1D na podstawie rozkładu drgań we wkładce ( ). Uśrednione podczas próby pole rażenia (ciągła czarna linia) jest szersze i ma niższy współczynnik szczytowy w porównaniu z leżącą u podstaw krzywą strojenia bez drgań (ciągła niebieska linia, użyte parametry: . B : Wynikowy rozkład przy w N = 100 próbach i analityczny pdf rozkładu Beta C. C : Symulowany rozkład liczby skoków z procesu Poissona z parametrami gdzie oznaczam wskaźniki z prób i wynikowy rozkład Beta-Poissona wyprowadzony jak naszkicowano powyżej.P(jitter)g(x)p1λmax=10,p=.6,q=.5λ x 0 λ iλx0λiD : Analogiczna sytuacja w 2D z losowymi kątami przesunięcia prowadzącymi do identycznych statystyk.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.