Do czego przyczyniają się hiperparametry alfa i beta w alokacji Utajonego Dirichleta?

19

LDA ma dwa hiperparametry, strojenie ich zmienia indukowane tematy.

Co hiperparametry alfa i beta przyczyniają się do LDA?

Jak zmienia się temat, jeśli jeden lub drugi hiperparametry zwiększają się lub zmniejszają?

Dlaczego są to hiperparametry, a nie tylko parametry?

topic-model lda parameter

— alvas
źródło

tutaj jest dobra częściowa odpowiedź: stats.stackexchange.com/a/37444/156252

— Zielonawy

16

Rozkład Dirichleta jest rozkładem wielowymiarowym. Możemy określić parametry Dirichleta jako wektor wielkości K w postaci ~ , gdzie jest wektorem wielkości parametrów, a . $\frac{1}{B(a)} \cdot \prod\limits_{i} x_i^{a_{i-1}}$ $a$ $K$ $\sum x_i = 1$

Teraz LDA używa niektórych konstrukcji, takich jak:

dokument może mieć wiele tematów (z powodu tej różnorodności potrzebujemy dystrybucji Dirichleta); i istnieje rozkład Dirichleta, który modeluje tę zależność
słowa mogą również należeć do wielu tematów, jeśli uwzględni się je poza dokumentem; więc tutaj potrzebujemy kolejnego Dirichleta, aby to wymodelować

Dwie poprzednie to dystrybucje, których tak naprawdę nie widać z danych, dlatego nazywa się je ukrytym lub ukrytym.

Teraz, w wnioskowaniu bayesowskim, używasz reguły Bayesa, aby wnioskować o prawdopodobieństwie późniejszym. Dla uproszczenia załóżmy, że masz dane i masz model tych danych, regulowany przez niektóre parametry . Aby wnioskować o wartościach dla tych parametrów, w pełnym wnioskowaniu bayesowskim wnioskujesz o prawdopodobieństwie późniejszym tych parametrów, stosując regułę Bayesa z Pamiętaj, że tutaj przychodzi $x$ $\theta$

p (θ | x) = \frac{p (x | θ) p (θ | α)}{p (x | α)} ⟺ posterior probability = \frac{likelihood \times prior probability}{marginal likelihood}

$p(\theta|x) = \frac{p(x|\theta)p(\theta|\alpha)}{p(x|\alpha)} \iff \text{posterior probability} = \frac{\text{likelihood}\times \text{prior probability}}{\text{marginal likelihood}}$

α

$\alpha$ . To jest twoje początkowe przekonanie o tym rozkładzie i jest parametrem wcześniejszego rozkładu. Zwykle jest to wybierane w taki sposób, że będzie miał koniugat przed (więc rozkład tylnej jest taki sam jak rozkład przed) i często koduje pewną wiedzę, jeśli masz, lub maksymalną entropię, jeśli nic nie wiesz .

Parametry wcześniejsze nazywane są hiperparametrami . Tak więc w LDA obie dystrybucje tematów, nad dokumentami i nad słowami mają również odpowiadające priory, które są zwykle oznaczone alfą i beta, a ponieważ są parametrami wcześniejszych dystrybucji, nazywane są hiperparametrami.

Teraz o wyborze priorytetów. Jeśli wykreślisz niektóre rozkłady Dirichleta, zauważysz, że jeśli poszczególne parametry mają tę samą wartość, pdf jest symetryczny w formacie simpleks zdefiniowanym przez wartości , czyli minimum lub maksimum dla pdf jest w centrum. $\alpha_k$ $x$

Jeśli wszystkie mają wartości niższe niż jednostka, maksimum znajduje się w rogach $\alpha_k$

lub może, jeśli wszystkie wartości są takie same i większe niż 1, maksimum zostanie znalezione w środku jak $\alpha_k$

Łatwo zauważyć, że jeśli wartości dla nie są równe, symetria zostanie przerwana, a maksimum zostanie znalezione w pobliżu większych wartości. $\alpha_k$

Dodatkowo należy pamiętać, że wartości parametrów priors generują płynne pliki pdf rozkładu, ponieważ wartości parametrów są bliskie 1. Więc jeśli masz dużą pewność, że coś jest wyraźnie dystrybuowane w sposób, który znasz, z dużym stopniem pewności, niż należy stosować wartości dalekie od 1 w wartości bezwzględnej, jeśli nie masz takiej wiedzy, to wartości bliskie 1 oznaczałyby ten brak wiedzy. Łatwo jest zrozumieć, dlaczego 1 odgrywa taką rolę w dystrybucji Dirichleta ze wzoru samej dystrybucji.

Innym sposobem na zrozumienie tego jest dostrzeżenie, że wcześniejsze kodowanie wcześniejszej wiedzy. W tym samym czasie możesz pomyśleć, że wcześniej koduje niektóre wcześniej widoczne dane. Algorytm nie widział tych danych, widział je sam, nauczyłeś się czegoś i możesz modelować wcześniej zgodnie z tym, co wiesz (nauczyłeś się). Tak więc we wcześniejszych parametrach (hiperparametrach) kodujesz również, jak duży był ten zestaw danych, który widziałeś apriori, ponieważ suma może być równa wielkości tego mniej więcej fikcyjnego zestawu danych. Im większy jest wcześniejszy zestaw danych, tym większa jest pewność, tym większe wartości można wybrać, tym ostrzejsza powierzchnia w pobliżu wartości maksymalnej, co oznacza również mniejsze wątpliwości. $\alpha_k$ $\alpha_k$

Mam nadzieję, że to pomogło.

— rapaio
źródło

Mamy dom / mam taką samą nadzieję na obsługę tex! : D

— Rubens,

11

Zakładając symetryczne rozkłady Dirichleta (dla uproszczenia), niska wartość alfa kładzie większy nacisk na to, aby każdy dokument składał się tylko z kilku dominujących tematów (podczas gdy wysoka wartość zwróci o wiele więcej względnie dominujących tematów). Podobnie, niska wartość beta kładzie większy nacisk na to, aby każdy temat składał się tylko z kilku dominujących słów.

— Alireza
źródło