Z praktycznego punktu widzenia ...
LDA zaczyna się od wprowadzenia worków słów, które uwzględniają słowa występujące w dokumentach, ale nie zwracają uwagi na bezpośredni kontekst słów. Oznacza to, że słowa mogą pojawiać się w dowolnym miejscu dokumentu i w dowolnej kolejności, co usuwa określony poziom informacji. W przeciwieństwie do tego, word2vec dotyczy kontekstu, w którym słowo jest używane - choć może nie jest to dokładna kolejność.
„Tematy” LDA są konstrukcją matematyczną i nie należy ich mylić z rzeczywistymi tematami ludzkimi. Możesz skończyć z tematami, które nie mają ludzkiej interpretacji - bardziej przypominają artefakty procesu niż tematy rzeczywiste - i możesz skończyć z tematami na różnych poziomach abstrakcji, w tym tematami, które zasadniczo obejmują ten sam ludzki temat. To trochę jak czytanie liści herbaty.
Uznałem, że LDA jest przydatna do eksploracji danych, ale nie jest tak przydatna do dostarczania rozwiązania, ale przebieg może się różnić.
Word2vec w ogóle nie tworzy tematów bezpośrednio. Projektuje słowa w wielowymiarową przestrzeń opartą na podobnym użyciu, więc może mieć własne niespodzianki w kategoriach słów, które uważasz za odrębne - lub wręcz przeciwnie - mogą znajdować się blisko siebie w przestrzeni.
Możesz użyć obu, aby ustalić, czy słowa są „podobne”. Z LDA: czy słowa mają podobną wagę w tych samych tematach. W word2vec: czy są one zamknięte (w pewnym stopniu) w przestrzeni do osadzania.
Możesz użyć obu, aby ustalić, czy dokumenty są podobne. W LDA szukałbyś podobnej mieszanki tematów, a dzięki word2vec zrobiłbyś coś w rodzaju dodania wektorów słów dokumentu. („Dokument” może być zdaniem, akapitem, stroną lub całym dokumentem.) Doc2vec to zmodyfikowana wersja word2vec, która umożliwia bezpośrednie porównanie dokumentów.
Podczas gdy LDA wyrzuca pewne informacje kontekstowe dzięki podejściu opartemu na „worku słów”, ma on tematy (lub „tematy”), których nie ma word2vec. Dlatego łatwo jest użyć doc2vec, aby powiedzieć „Pokaż mi dokumenty podobne do tego”, podczas gdy w przypadku LDA łatwo jest powiedzieć: „Pokaż mi dokumenty, w których temat A jest ważny”. (Znów, wiedząc, że „temat A” wyłania się z matematycznego procesu w twoich dokumentach, a następnie zastanawiasz się, z jakimi ludzkimi tematami w większości odpowiada).