Dlaczego w funkcji gęstości rozkładu beta występuje -1?

Dystrybucja beta pojawia się w dwóch parametryzacjach (lub tutaj )

\begin{matrix} (1) & f (x) \propto x^{α} (1 - x)^{β} \end{matrix}

$f(x) \propto x^{\alpha} (1-x)^{\beta} \tag{1}$

lub ten, który wydaje się być używany częściej

\begin{matrix} (2) & f (x) \propto x^{α - 1} (1 - x)^{β - 1} \end{matrix}

$f(x) \propto x^{\alpha-1} (1-x)^{\beta-1} \tag{2}$

Ale dlaczego dokładnie jest „ ” w drugiej formule? $-1$

Pierwsze sformułowanie wydaje się intuicyjnie bardziej bezpośrednio odpowiadać rozkładowi dwumianowemu

\begin{matrix} (3) & g (k) \propto p^{k} (1 - p)^{n - k} \end{matrix}

$g(k) \propto p^k (1-p)^{n-k} \tag{3}$

ale „widziana” z perspektywy „s $p$ . Jest to szczególnie wyraźne w modelu beta-dwumianowym, w którym można rozumieć jako wcześniejszą liczbę sukcesów, a to wcześniejszą liczbę niepowodzeń. $\alpha$ $\beta$

Dlaczego więc druga forma zyskała popularność i jakie jest jej uzasadnienie ? Jakie są konsekwencje zastosowania dowolnej z parametryzacji (np. W połączeniu z rozkładem dwumianowym)?

Byłoby wspaniale, gdyby ktoś mógł dodatkowo wskazać pochodzenie takiego wyboru i wstępne argumenty przemawiające za nim, ale nie jest to dla mnie koniecznością.

— Tim
źródło

W tej odpowiedzi podano głęboki powód : równa się stosunku do miary . To ogranicza twoje pytanie do „ dlaczego ta konkretna miara? Uznanie, że miarą jest sugeruje „właściwy” sposób zrozumienia tych rozkładów jest zastosowanie transformacji logistycznej: wówczas warunki „ ” znikną.

f

$f$

x^{α} (1 - x)^{β}

$x^\alpha(1-x)^\beta$

d μ = d x / ((x (1 - x))

$d\mu=dx/((x(1-x))$

d μ = d (\log (\frac{x}{1 - x}))

$d\mu=d\left(\log\left(\frac{x}{1-x}\right)\right)$

- 1

$-1$

— whuber

Myślę, że faktyczny powód, dla którego się to wydarzyło, jest historyczny - ponieważ pojawia się w ten sposób w funkcji beta, od której pochodzi nazwa dystrybucji. Jeśli chodzi o to , dlaczego ma to w potędze, spodziewam się, że ostatecznie będzie to związane z powodem, o którym wspomina whuber (choć historycznie nie ma to nic wspólnego z miarą, a nawet prawdopodobieństwem).

- 1

$-1$

— Glen_b

@Glen_b To coś więcej niż historyczne: istnieją głębokie powody. Wynika to z intymnego połączenia funkcji Beta i Gamma, redukując pytanie, dlaczego wykładnik w jest a nie . Jest tak, ponieważ jest sumą Gaussa . Odpowiednio, „słuszne” jest postrzeganie jako całki multiplikatywnego homomorfizmu razy addytywnego znaku stosunku do miary Haar w grupie .

Γ (s) = \int_{0}^{\infty} t^{s - 1} e^{- t} d t

$\Gamma(s)=\int_0^\infty t^{s-1}e^{-t}dt$

s - 1

$s-1$

s

$s$

Γ

$\Gamma$

Γ

$\Gamma$

t \to t^{s}

$t\to t^s$

t \to e^{- t}

$t\to e^{-t}$

d t / t

$dt/t$

R^{\times}

$\mathbb{R}^{\times}$

— Whuber

@wh To dobry powód, dla którego funkcja gamma powinna być wybrana właśnie w ten sposób (i już zasugerowałem, że taki powód istniał powyżej i akceptuję jakąś formę rozumowania podobną do tego - ale koniecznie z innym formalizmem - do wyboru Eulera); wraz z gęstością występują odpowiednio ważne powody; ale to nie dowodzi, że tak naprawdę był to powód wyboru (dlaczego forma została wybrana w obecnej formie), tylko że jest to dobry powód, aby to zrobić. Forma funkcji gamma ... ctd

— Glen_b -Reinstate Monica

Sam ctd ... może z łatwością być wystarczającym powodem, aby wybrać tę formę dla gęstości i aby inni poszli w jej ślady. [Często dokonuje się wyborów z prostszych powodów, które możemy później zidentyfikować, a następnie często potrzeba istotnych powodów, aby zrobić cokolwiek innego. Czy wiemy, że to właśnie dlatego początkowo wybrane] - można wyjaśnić jasno, że istnieje powód, dlaczego należy wybrać gęstość być w ten sposób, a nie dlatego, że jest w ten sposób. Wiąże się to z sekwencją ludzi dokonujących wyborów (korzystania z nich w ten sposób i podążania za nimi) oraz ich powodów w wybranym przez siebie momencie.

— Glen_b

Odpowiedzi:

To opowieść o stopniach swobody i parametrach statystycznych oraz o tym, dlaczego miło jest, że oba mają bezpośrednie proste połączenie.

Historycznie terminy „ ” pojawiły się w badaniach Eulera dotyczących funkcji Beta. Używał tej parametryzacji do 1763 roku, podobnie jak Adrien-Marie Legendre: ich użycie ustanowiło kolejną konwencję matematyczną. Ta praca poprzedza wszystkie znane zastosowania statystyczne. $-1$

Współczesna teoria matematyczna dostarcza wielu wskazówek, poprzez bogactwo zastosowań w analizie, teorii liczb i geometrii, że terminy „ ” faktycznie mają pewne znaczenie. Naszkicowałem niektóre z tych powodów w komentarzach do pytania. $-1$

Bardziej interesujące jest to, jaka powinna być „właściwa” parametryzacja statystyczna. To nie jest tak jasne i nie musi być takie samo jak konwencja matematyczna. Istnieje ogromna sieć powszechnie używanych, znanych, powiązanych ze sobą rodzin rozkładów prawdopodobieństwa. Zatem konwencje stosowane do nazwania (to znaczy parametryzacji) jednej rodziny zwykle implikują powiązane konwencje do rodzin związanych z nazwami. Zmień jedną parametryzację, a będziesz chciał je wszystkie zmienić. Możemy zatem spojrzeć na te relacje w poszukiwaniu wskazówek.

Mało kto nie zgadza się, że najważniejsze rodziny dystrybucyjne wywodzą się z rodziny Normalnej. Przypomnijmy, że zmienna losowa jest „rozkładem normalnym”, gdy ma gęstość prawdopodobieństwa proporcjonalną do . Gdy i , mówi się, że ma standardowy rozkład normalny. $X$ $(X-\mu)/\sigma$ $f(x)$ $\exp(-x^2/2)$ $\sigma=1$ $\mu=0$ $X$

Wiele zestawów danych jest badanych przy użyciu stosunkowo prostych statystyk obejmujących racjonalne kombinacje danych i niskie moce (zwykle kwadraty). Gdy dane te są modelowane jako losowe próbki z rozkładu normalnego - tak, że każdy jest postrzegany jako realizacja zmiennej normalnej , wszystkie mają wspólny rozkład i są niezależne - rozkłady tych statystyk są określone przez ten rozkład normalny. Najczęściej pojawiają się w praktyce $x_1, x_2, \ldots, x_n$ $x_i$ $X_i$ $X_i$

$t_\nu$ , rozkład Studenta $t$ z „stopniami swobody”. Jest to rozkład statystyki nazwa gdzie modeluje średnią danych i jest standardowym błędem średniej. Dzielenie przez pokazuje, że musi wynosić lub więcej, skąd jest liczbą całkowitą $\nu = n-1$
$t = \frac{\bar{X}}{se (X)}$ $t = \frac{\bar X}{\operatorname{se}(X)}$ $\bar X = (X_1 + X_2 + \cdots + X_n)/n$ $\operatorname{se}(X) = (1/\sqrt{n})\sqrt{(X_1^2+X_2^2 + \cdots + X_n^2)/(n-1) - \bar X^2}$ $n-1$ $n$ $2$ $\nu$ $1$ albo lepszy. Formuła, choć pozornie trochę skomplikowana, jest pierwiastkiem kwadratowym z racjonalnej funkcji danych stopnia drugiego: jest względnie prosta.
$\chi^2_\nu$ , (chi-kwadrat) rozkładu z "stopni swobody" (DF). Jest to rozkład sumy kwadratów niezależnych standardowych zmiennych normalnych . Rozkład średniej kwadratów tych zmiennych będzie zatem skalowanym przez : będę to określać jako „znormalizowany” . $\chi^2$ $\nu$ $\nu$ $\chi^2$ $1/\nu$ $\chi^2$
$F_{\nu_1, \nu_2}$ , Współczynnik podziału parametrów to stosunek dwóch niezależnych znormalizowane rozkładów i stopni swobody. $F$ $(\nu_1, \nu_2)$ $\chi^2$ $\nu_1$ $\nu_2$

Obliczenia matematyczne pokazują, że wszystkie trzy z tych rozkładów mają gęstości. Co ważne, gęstość jest proporcjonalna do całki w całkowej definicji Eulera funkcji Gamma ( ). Porównajmy je: $\chi^2_\nu$ $\Gamma$

f_{χ_{ν}^{2}} (2 x) \propto x^{ν / 2 - 1} e^{- x}; f_{Γ (ν)} (x) \propto x^{ν - 1} e^{- x} .

$f_{\chi^2_\nu}(2x) \propto x^{\nu/2 - 1}e^{-x};\quad f_{\Gamma(\nu)}(x) \propto x^{\nu-1}e^{-x}.$

To pokazuje, że dwukrotnie zmienna ma rozkład gamma z parametrem . Współczynnik połowy jest dość uciążliwy, ale odjęcie znacznie pogorszy związek. To już dostarcza przekonującej odpowiedzi na pytanie: jeśli chcemy, aby parametr zliczał liczbę kwadratowych zmiennych normalnych, które go wytwarzają (do ), to wykładnik gęstości funkcja musi być o połowę mniejsza niż ta liczba. $\chi^2_\nu$ $\nu/2$ $1$ $\chi^2$ $1/2$

Dlaczego współczynnik mniej kłopotliwy niż różnica ? Powodem jest to, że czynnik pozostanie spójny, gdy dodamy rzeczy. Jeśli suma kwadratów niezależnych normalnych norm jest proporcjonalna do rozkładu gamma z parametrem (razy jakiś czynnik), wówczas suma kwadratów niezależnych normalnych norm jest proporcjonalna do rozkładu gamma z parametrem (razy ten sam współczynnik) , skąd suma kwadratów wszystkich zmiennych jest proporcjonalna do rozkładu gamma z parametrem (wciąż razy ten sam współczynnik). $1/2$ $1$ $n$ $n$ $m$ $m$ $n+m$ $m+n$ Bardzo pomocne jest to, że tak ścisłe dodanie parametrów naśladuje dodanie zliczeń.

Gdybyśmy jednak usunęli te matematycznie wyglądające „ ” ze wzorów matematycznych, te miłe relacje stałyby się bardziej skomplikowane. Na przykład, jeśli zmieniliśmy parametryzację rozkładów gamma tak, aby odnosiła się do rzeczywistej mocy we wzorze, tak że byłby powiązany z rozkładem „Gamma ” (ponieważ moc w jego PDF to ), wówczas suma trzech rozkładów musiałaby być nazwana rozkładem „Gamma ”. Krótko mówiąc, bliski związek addytywny między stopniami swobody a parametrem w rozkładach gamma zostałby utracony przez usunięcie $-1$ $x$ $\chi^2_1$ $(0)$ $x$ $1-1=0$ $\chi^2_1$ $(2)$ $-1$ ze wzoru i wchłaniając go w parametrze.

Podobnie funkcja prawdopodobieństwa rozkładu współczynnika jest ściśle związana z rozkładami Beta. Rzeczywiście, gdy ma rozkład współczynnika , rozkład ma Beta . Jego funkcja gęstości jest proporcjonalna do $F$ $Y$ $F$ $Z=\nu_1 Y/(\nu_1 Y + \nu_2)$ $(\nu_1/2, \nu_2/2)$

f_{Z} (z) \propto z^{ν_{1} / 2 - 1} (1 - z)^{ν_{2} / 2 - 1} .

$f_Z(z) \propto z^{\nu_1/2 - 1}(1-z)^{\nu_2/2-1}.$

Ponadto - przyjmując te idee do pełnego koła - kwadrat rozkładu Studenta z df ma rozkład współczynnika z parametrami . Jeszcze raz widać, że utrzymanie konwencjonalnej parametryzacji utrzymuje wyraźny związek z podstawowymi liczbami, które przyczyniają się do stopni swobody. $t$ $\nu$ $F$ $(1,\nu)$

Z statystycznego punktu widzenia byłoby więc najbardziej naturalne i najprostsze zastosowanie odmiany konwencjonalnych parametryzacji matematycznych rozkładów i Beta: powinniśmy preferować nazywanie rozkładu a „ dystrybucja ”i dystrybucja Beta należy nazwać„ dystrybucją Beta ”. W rzeczywistości już to zrobiliśmy: właśnie dlatego nadal używamy nazw „rozkład chi-kwadrat” i „ współczynnik ” zamiast „gamma” i „beta”. Niezależnie od tego w żadnym wypadku nie chcielibyśmy usunąć „ $\Gamma$ $\Gamma(\alpha)$ $\Gamma(2\alpha)$ $(\alpha, \beta)$ $(2\alpha, 2\beta)$ $F$ $-1$ „terminy, które pojawiają się we wzorach matematycznych dla ich gęstości. Gdybyśmy to zrobili, stracilibyśmy bezpośredni związek między parametrami w gęstościach i liczeniem danych, z którymi są one powiązane: zawsze bylibyśmy wyłączeni o jeden.

— Whuber
źródło

Dzięki za odpowiedź (już I + 1d). Mam tylko małe pytanie uzupełniające: może coś mi brakuje, ale czy nie poświęcamy bezpośredniej relacji z dwumianem za pomocą parametryzacji -1?

— Tim

Nie jestem pewien, do którego „bezpośredniego związku z dwumianem” masz na myśli, Tim. Na przykład, gdy Beta dystrybucja służy jako sprzężoną przed dla próbki dwumianowego, wyraźnie parametry są dokładnie te właściwe do użycia: dodać (nie ) do liczby sukcesów i (nie ) do liczby awarii.

(a, b)

$(a,b)$

a

$a$

a - 1

$a-1$

b

$b$

b - 1

$b-1$

— whuber

Notacja wprowadza Cię w błąd. Istnieje „ukryta ” w formule , ponieważ w , i musi być większa niż (drugi człon, który podałeś w swoim pytaniu mówi to wyraźnie). „S ” te same parametry, y w obu wzorach nie są; mają różne zakresy: w , oraz w , . Te zakresy dla i $-1$ $(1)$ $(1)$ $\alpha$ $\beta$ $-1$ $\alpha$ $\beta$ $(1)$ $\alpha,\beta>-1$ $(2)$ $\alpha,\beta>0$ $\alpha$ $\beta$ są niezbędne, aby zagwarantować, że całka gęstości nie będzie się różnić. Aby to zobaczyć, weź pod uwagę w przypadek (lub mniej) i , a następnie spróbuj zintegrować gęstość (jądro) między a . Odpowiednio, wypróbuj to samo w dla (lub mniej) i . $(1)$ $\alpha=-1$ $\beta=0$ $0$ $1$ $(2)$ $\alpha=0$ $\beta=1$

— Zen
źródło

Kwestia zakresu definicji dla i wydaje się znikać, gdy interpretowana jest całka, jak zrobił to Pochhammer w 1890 r., Jako specyficzna całka konturu. W takim przypadku można go przyrównać do wyrażenia, które określa funkcję analityczną dla wszystkich wartości i wszystkich złożonych. To rzuca światło na wątpliwości w pytaniu: dlaczego dokładnie przyjęto tę specyficzną parametryzację, skoro istnieje wiele innych możliwych parametryzacji, które wydają się być równie dobre?

α

$\alpha$

β

$\beta$

α

$\alpha$

β

$\beta$

— whuber

Dla mnie wątpliwości PO wydają się znacznie bardziej podstawowe. Jest trochę zdezorientowany co do „-1” w (2), ale nie w (1) (oczywiście nieprawda). Wygląda na to, że twój komentarz odpowiada na inne pytanie (nawiasem mówiąc, o wiele bardziej interesujące).

— Zen

Dziękuję za twój wysiłek i odpowiedź, ale wciąż nie odpowiada na moją główną obawę: dlaczego wybrano -1? Zgodnie z logiką, w zasadzie można wybrać dowolną wartość, zmieniając dowolną dolną granicę na coś innego. Nie rozumiem, dlaczego -1 lub 0 może być lepszą lub gorszą dolną granicą dla wartości parametrów, poza tym, że 0 jest „estetycznie” ładniejsze. Z drugiej strony Beta (0, 0) byłby miły „domyślny” dla równomiernego rozkładu przy użyciu pierwszego formularza. Tak, są to bardzo subiektywne komentarze, ale to moja główna uwaga: czy są jakieś niearbitralne powody takiego wyboru?

— Tim

Zen, zgadzam się, że było pytanie, jak interpretować oryginalny post. Tim, dziękuję za wyjaśnienia.

— whuber

Cześć Tim! Nie widzę żadnego definitywnego powodu, chociaż czyni to bardziej bezpośrednim związek z faktem, że dla , jeśli i są niezależne, następnie to , a gęstość jest proporcjonalna do . Ale wtedy możesz zakwestionować parametryzację rozkładu gamma ...

α, β > 0

$\alpha,\beta>0$

U \sim G a m m a (α, 1)

$U\sim\mathrm{Gamma}(\alpha,1)$

V \sim G a m m a (β, 1)

$V\sim\mathrm{Gamma}(\beta,1)$

X = U / (U + V)

$X=U/(U+V)$

B e t a (α, β)

$\mathrm{Beta}(\alpha,\beta)$

X

$X$

x^{α - 1} (1 - x)^{β - 1}

$x^{\alpha-1}(1-x)^{\beta-1}$

— Zen

Dla mnie istnienie -1 w wykładniku wiąże się z rozwojem funkcji gamma. Motywacją funkcji Gamma jest znalezienie gładkiej krzywej do połączenia punktów silni. Ponieważ nie można obliczyćbezpośrednio, jeśli nie jest liczbą całkowitą, pomysłem było znalezienie funkcji dla dowolnego która spełnia relację powtarzalności zdefiniowaną przez silnię, a mianowicie $x!$ $x!$ $x$ $x \geq 0$

$f(1)=1\\ f(x+1)=x \cdot f(x).$

Rozwiązanie polegało na zbieżności całki. Dla funkcji zdefiniowanej jako

$f(x+1) = \displaystyle\int_{0}^{\infty} t^{x}e^{-x} dt,$

integracja przez części zapewnia:

$\begin{align} f(x+1) & = \displaystyle\int_{0}^{\infty} t^{x}e^{-x} dt \\ & = \Big[-t^{x}e^{-x} \Big]^{\infty}_{0} + \displaystyle\int_{0}^{\infty} x\cdot t^{x-1}e^{-x} dt \\ &= \lim_{x \to \infty} (-t^{x}e^{-x}) - 0 \cdot e^{-0} + x\cdot \displaystyle\int_{0}^{\infty} t^{x-1}e^{-x} dt \\ &= 0 - 0 + x\cdot \displaystyle\int_{0}^{\infty} t^{x-1}e^{-x} dt \\ &= x \cdot f(x) . \end{align}$

Tak więc powyższa funkcja spełnia tę właściwość, a -1 w wykładniku wywodzi się z procedury całkowania przez części. Zobacz artykuł w Wikipedii https://en.wikipedia.org/wiki/Gamma_function .

Edycja: przepraszam, jeśli mój post nie jest w pełni jasny; Próbuję tylko wskazać, że moim zdaniem istnienie -1 w rozkładzie beta wynika z uogólnienia silni za pomocą funkcji gamma. Istnieją dwa warunki: oraz . Mamy, dlatego spełnia. Ponadto mamy . Jeśli chodzi o rozkład beta z parametrami , uogólnienie współczynnika dwumianowego to $f(1)=1$ $f(x+1)=x \cdot f(x)$ $\Gamma(x) = (x-1)!$ $\Gamma(x+1) = x \cdot \Gamma(x) = x \cdot (x-1)! = x!$ $\Gamma(1) = (1-1)! = 0! = 1$ $\alpha, \beta$ $\dfrac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \cdot \Gamma(\beta)} = \dfrac{(\alpha + \beta - 1)!}{(\alpha-1)! \cdot (\beta-1)!}$ . Tam mamy -1 w mianowniku dla obu parametrów.

— teatr
źródło

Nie ma to sensu, ponieważ funkcja rekurencji spełniana przez silnię nie jest tym, co podajesz:

(x + 1)! \neq x \cdot x! .

$(x+1)! \ne x \cdot x!.$

— whuber

Funkcją spełniającą relację powtarzalności jest Gamma: . Tak to jest zdefiniowane.

f (x)

$f(x)$

Γ (x + 1) = x \cdot Γ (x)

$\Gamma(x+1) = x \cdot \Gamma(x)$

— aatr

Tak: ale podana motywacja opiera się na funkcji czynnikowej , a nie na gamma.

— whuber

Ważne jest, aby przypomnieć związek między gamma i silnią:.

Γ (x) = (x - 1)!

$\Gamma(x) = (x-1)!$

— aatr

Niestety, jest to logika kołowa: zaczynasz od silni, charakteryzujesz Gamma jako interpolując ją, a następnie dochodzisz do wniosku, że istnieje -1. W rzeczywistości twój post pokazuje -1, jakby wypadł przypadkowo, myląc Gamma z silnią. Niewielu uzna to za pouczające lub przekonujące.

— whuber