Odpowiedź zależy od tego, czy przyjmujesz symetryczny czy asymetryczny rozkład dirichleta (czy, bardziej technicznie, czy miara podstawowa jest jednolita). O ile nie określono inaczej, większość implementacji LDA zakłada, że rozkład jest symetryczny.
W przypadku rozkładu symetrycznego wysoka wartość alfa oznacza, że każdy dokument może zawierać mieszankę większości tematów, a nie żadnego konkretnego tematu. Niska wartość alfa nakłada mniej takich ograniczeń na dokumenty i oznacza, że bardziej prawdopodobne jest, że dokument może zawierać tylko kilka lub nawet tylko jeden temat. Podobnie wysoka wartość beta oznacza, że każdy temat może zawierać mieszankę większości słów, a nie żadnego konkretnego słowa, natomiast niska wartość oznacza, że temat może zawierać tylko kilka słów.
Jeśli natomiast rozkład jest asymetryczny, wysoka wartość alfa oznacza, że określony rozkład tematów (w zależności od miary podstawowej) jest bardziej prawdopodobny dla każdego dokumentu. Podobnie wysokie wartości beta oznaczają, że bardziej prawdopodobne jest, że każdy temat zawiera określoną mieszankę słów zdefiniowaną przez miarę podstawową.
W praktyce wysoka wartość alfa spowoduje, że dokumenty będą bardziej podobne pod względem zawartych w nich tematów. Wysoka wartość beta podobnie spowoduje, że tematy będą bardziej podobne pod względem zawartych w nich słów.
Tak, tak, parametry alfa określają wcześniejsze przekonania na temat rzadkości / jednolitości tematu w dokumentach. Nie jestem jednak do końca pewien, co rozumiesz przez „wzajemną wyłączność tematów pod względem słów”.
Mówiąc bardziej ogólnie, są to parametry stężenia dla rozkładu dirichleta zastosowanego w modelu LDA. Aby uzyskać intuicyjne zrozumienie tego, jak to działa, ta prezentacja zawiera kilka ładnych ilustracji, a także dobre objaśnienie LDA w ogóle.
( α1, α2), . . . , αK.)u = ( u1, u2), . . . , uK.)αα ∗ u = ( α1, α2), . . . , αK.)α(α1,α2,...,αK)(α1,α2,...,αK)