Chciałem zauważyć, ponieważ jest to jeden z najlepszych wyników Google w tym temacie, że Latent Dirichlet Allocation (LDA), Hierarchical Dirichlet Processes (HDP) i hierarchical Latent Dirichlet Allocation (hLDA) to wszystkie odrębne modele.
LDA modeluje dokumenty jako mieszanki dirichletów o ustalonej liczbie tematów - wybranych przez użytkownika jako parametr modelu - które z kolei są mieszaninami dirichletów. Generuje to płaskie, miękkie probabilistyczne grupowanie terminów w tematy i dokumenty w tematy.
HDP modeluje tematy jako mieszanki słów, podobnie jak LDA, ale zamiast dokumentów będących mieszankami określonej liczby tematów, liczba tematów jest generowana przez proces dirichleta, w wyniku czego liczba tematów jest również zmienną losową. „Hierarchiczna” część nazwy odnosi się do kolejnego poziomu dodawanego do modelu generatywnego (proces dirichleta generujący liczbę tematów), a nie samych tematów - wciąż są to płaskie skupienia.
hLDA jest natomiast adaptacją LDA, która modeluje tematy jako mieszanki nowego, odrębnego poziomu tematów, zaczerpniętych z dystrybucji dirichletaa nie procesy. Nadal traktuje liczbę tematów jako hiperparametr, tzn. Niezależnie od danych. Różnica polega na tym, że grupowanie jest teraz hierarchiczne - uczy się grupowania samego pierwszego zestawu tematów, zapewniając bardziej ogólne, abstrakcyjne relacje między tematami (a zatem słowami i dokumentami). Pomyśl o tym jak o klastrze wymiany stosów w matematyce, nauce, programowaniu, historii itp., W przeciwieństwie do klastrowania nauki o danych i krzyżowej weryfikacji w abstrakcyjną statystykę i temat programowania, który dzieli niektóre pojęcia, powiedzmy, inżynierii oprogramowania, ale inżynierii oprogramowania wymiana jest skupiona na bardziej konkretnym poziomie z wymianą informatyczną, a podobieństwo między wszystkimi wymienionymi wymianami pojawia się dopiero w górnej warstwie klastrów.