Tak więc w (nienadzorowanym) modelowaniu tekstu Latent Dirichlet Allocation (LDA) to bayesowska wersja probabilistycznej latentnej analizy semantycznej (PLSA). Zasadniczo LDA = PLSA + Dirichlet przed jego parametrami. Rozumiem, że LDA jest teraz algorytmem referencyjnym i jest zaimplementowany w różnych pakietach, podczas gdy PLSA nie powinna już być używana.
Ale w (nadzorowanej) kategoryzacji tekstu moglibyśmy zrobić dokładnie to samo dla wielomianowego klasyfikatora Naive Bayes i umieścić Dirichleta nad parametrami. Ale nie sądzę, żebym kiedykolwiek widział, żeby ktoś to robił, a „wielopunktowa wersja” Naive Bayes wydaje się być wersją zaimplementowaną w większości pakietów. Czy jest jakiś powód tego?