Ostatnio wzrosła ogromna literatura omawiająca sposoby wydobywania informacji z tekstu pisanego. Dlatego opiszę tylko cztery kamienie milowe / popularne modele i ich zalety / wady, a tym samym podkreślę (niektóre) główne różnice (lub przynajmniej to, co uważam za główne / najważniejsze różnice).
Wspominasz o „najłatwiejszym” podejściu, jakim byłoby grupowanie dokumentów poprzez dopasowanie ich do predefiniowanego zapytania pojęć (jak w PMI). Te metody dopasowania leksykalnego mogą być jednak niedokładne z powodu polisemii (wiele znaczeń) i synonimii (wiele słów o podobnych znaczeniach) pojedynczych terminów.
Jako remedium, ukryte indeksowanie semantyczne ( LSI ) próbuje temu zaradzić poprzez mapowanie terminów i dokumentów w utajoną przestrzeń semantyczną poprzez rozkład pojedynczej wartości. Wyniki LSI są bardziej solidnymi wskaźnikami znaczenia niż poszczególne terminy. Jednak jedną wadą LSI jest brak solidnych podstaw probabilistycznych.
Zostało to częściowo rozwiązane przez wynalazek probabilistycznego LSI ( pLSI ). W modelach pLSI każde słowo w dokumencie jest pobierane z modelu mieszanki określonego za pomocą wielomianowych zmiennych losowych (co umożliwia także współwystępowanie wyższego rzędu, jak wspomniano w @sviatoslav hong). Był to ważny krok naprzód w probabilistycznym modelowaniu tekstu, ale był niekompletny w tym sensie, że nie oferuje żadnej probabilistycznej struktury na poziomie dokumentów.
Latent Dirichlet Allocation ( LDA ) łagodzi to i był pierwszym w pełni probabilistycznym modelem klastrowania tekstu. Blei i in. (2003) pokazują, że pLSI jest maksymalnym oszacowanym a-posteriori modelem LDA według jednolitego Dirichleta przed.
Należy zauważyć, że wspomniane powyżej modele (LSI, pLSI, LDA) mają wspólną cechę, że są oparte na założeniu „worka słów” - tj. Że w dokumencie słowa można wymieniać, tzn. Kolejność słów w dokumencie może być zaniedbanym. To założenie wymienności daje dalsze uzasadnienie dla LDA w porównaniu z innymi podejściami: Zakładając, że nie tylko słowa w dokumentach są wymienne, ale także dokumenty, tzn. Można pominąć kolejność dokumentów w korpusie, twierdzenie De Finettistwierdza, że każdy zestaw wymiennych zmiennych losowych ma reprezentację jako rozkład mieszanki. Zatem jeśli zakłada się wymienność dokumentów i słów w dokumentach, potrzebny jest model mieszany dla obu. Dokładnie to właśnie osiąga LDA, ale PMI lub LSI nie (a nawet pLSI nie tak piękne jak LDA).