Oświadczenie: Nigdy wcześniej nie pracowałem z tą dystrybucją. Ta odpowiedź oparta jest na tym artykule w Wikipedii i mojej interpretacji.
Rozkład Dirichleta jest wielowymiarowym rozkładem prawdopodobieństwa o właściwościach podobnych do rozkładu Beta.
Plik PDF jest zdefiniowany w następujący sposób:
{x1,…,xK}∼1B(α)∏i=1Kxαi−1i
z , i .K≥2xi∈(0,1)∑Ki=1xi=1
Jeśli spojrzymy na ściśle powiązaną dystrybucję Beta:
{x1,x2(=1−x1)}∼1B(α,β)xα−11xβ−12
widzimy, że te dwa rozkłady są takie same, jeśli . Oprzyjmy więc naszą interpretację najpierw na tym, a następnie uogólnij na .K=2K>2
W statystykach bayesowskich rozkład Beta jest stosowany jako koniugat wcześniej dla parametrów dwumianowych (patrz rozkład Beta ). Przeor można zdefiniować jako pewną wcześniejszą wiedzę na temat i (lub zgodnie z rozkładem Dirichleta i ). Jeżeli niektóre dwumianowego proces ma wówczas osiągnięcia i awarii rozkład tylnej jest następujące: i . (Nie rozwiążę tego, ponieważ jest to prawdopodobnie jedna z pierwszych rzeczy, których uczysz się dzięki statystykom bayesowskim).αβα1α2ABα1,pos=α1+Aα2,pos=α2+B
Zatem rozkład Beta reprezentuje następnie rozkład tylny na i , który można interpretować jako prawdopodobieństwo odpowiednio sukcesów i niepowodzeń w rozkładzie dwumianowym. Im więcej masz danych ( i ), tym węższy będzie ten tylny rozkład.x1x2(=1−x1)AB
Teraz wiemy, jak działa rozkład dla , możemy go uogólnić, aby działał dla rozkładu wielomianowego zamiast dwumianowego. Co oznacza, że zamiast dwóch możliwych wyników (sukces lub porażka), pozwolimy na wyniki (zobacz dlaczego uogólnia się na Beta / Binom, jeśli ?). Każdy z tych wyników będzie miał prawdopodobieństwo , które sumuje się z prawdopodobieństwem 1.K=2KK=2Kxi
αi następnie przyjmuje podobną rolę do i w dystrybucji Beta jak wcześniej dla i jest aktualizowany w podobny sposób.α1α2xi
A teraz przejdźmy do twoich pytań:
Jak alphas
wpływa na dystrybucję?
Rozkład jest ograniczony ograniczeniami i . określić, które części -wymiarowej przestrzeni uzyskać największą masę. Możesz to zobaczyć na tym obrazie (nie osadzając go tutaj, ponieważ nie mam tego obrazu). Im więcej danych znajduje się w tylnej części (przy użyciu tej interpretacji), tym wyższa jest wartość , więc tym bardziej jesteś pewny wartości lub prawdopodobieństwa dla każdego z wyników. Oznacza to, że gęstość będzie bardziej skoncentrowana.xi∈(0,1)∑Ki=1xi=1αiK∑Ki=1αixi
Jak się alphas
normalizuje?
Normalizacja rozkładu (upewnienie się, że całka równa się 1) przechodzi przez termin :B(α)
B(α)=∏Ki=1Γ(αi)Γ(∑Ki=1αi)
Ponownie, jeśli spojrzymy na przypadek , zobaczymy, że czynnik normalizujący jest taki sam jak w rozkładzie Beta, w którym zastosowano:K=2
B(α1,α2)=Γ(α1)Γ(α2)Γ(α1+α2)
Rozciąga się to na
B(α)=Γ(α1)Γ(α2)…Γ(αK)Γ(α1+α2+⋯+αK)
Co się stanie, gdy alfy nie będą liczbami całkowitymi?
Interpretacja nie zmienia się dla , ale jak widać na obrazku, który wcześniej , jeśli masa rozkładu gromadzi się na krawędziach zakresu dla . Z drugiej strony musi być liczbą całkowitą, a .α i < 1 x i Kαi>1αi<1xiKK≥2