Czy Word2Vec i Doc2Vec są reprezentacją dystrybucyjną, czy reprezentacją rozproszoną?

10

Czytałem, że reprezentacja dystrybucyjna opiera się na hipotezie dystrybucyjnej, że słowa występujące w podobnym kontekście mają zwykle podobne znaczenie.

Word2Vec i Doc2Vec są modelowane zgodnie z tą hipotezą. Ale w oryginalnym artykule nawet one są zatytułowane jako Distributed representation of words and phrasesi Distributed representation of sentences and documents. Tak więc, te algorytmy są oparte na reprezentacji dystrybucyjnej lub reprezentacji rozproszonej.

Co powiesz na inne modele, takie jak LDA i LSA.

— yazhi
źródło

5

W rzeczywistości Word2Vec / Doc2Vec opiera się na tym, distributional hypothesisgdzie kontekstem każdego słowa są słowa znajdujące się w pobliżu. Podobnie LSA bierze cały dokument jako kontekst. Obie techniki rozwiązują word embeddingproblem - osadzają słowa w ciągłej przestrzeni wektorowej, jednocześnie utrzymując słowa powiązane semantycznie blisko siebie.

Z drugiej strony LDA nie jest w stanie rozwiązać tego samego problemu. Zajmują się innym zwanym problemem topic modeling, który polega na znajdowaniu ukrytych tematów w zestawie dokumentów.

— Tu N.
źródło

Otrzymałem odpowiedź od grup google, że jest ona dystrybuowana i dystrybuowana w różnych perspektywach. Dystrybucyjny pod względem zastosowanej hipotezy i rozłożony pod względem cech rozproszonych w przestrzeni wektorowej.

— yazhi

tak, reprezentacja jest rozłożona w tym sensie, że wektor słowa przechwytuje wiele pojęć, każde pojęcie jest wektorem. Na przykład: może uchwycić dwie koncepcje płci i , przechwytuje płeć i . Właśnie dlatego

v_{k i n g}

$v_{king}$ maleroyal

v_{q u e e n}

$v_{queen}$ femaleroyal

v_{k i n g} - v_{q u e e n} \sim v_{m a n} - v_{w o m a n}

$v_{king} - v_{queen} \sim v_{man} - v_{woman}$

— Tu N.

2

Turian, Joseph, Lew Ratinov i Yoshua Bengio. „ Reprezentacje słowne: prosta i ogólna metoda częściowo nadzorowanego uczenia się ”. Materiały 48. dorocznego spotkania stowarzyszenia lingwistyki komputerowej. Association for Computational Linguistics, 2010. zdefiniuj reprezentacje dystrybucyjne i reprezentacje rozproszone w następujący sposób:

Dystrybucyjny reprezentacji słowa jest oparty na macierzy współwystępowanie wielkości , gdzie jest słownictwo wielkości, przy czym każdy rząd jest początkową reprezentacji słowa , i w każdej kolumnie to kontekst. Sahlgren (2006) oraz Turney i Pantel (2010) opisują garść możliwych decyzji projektowych w konstruowaniu , w tym wybór typów kontekstu (lewe okno? Prawe okno? Rozmiar okna?) I rodzaj liczenia częstotliwości (surowy? Binarny? Tf -idf?). ma wymiar , który może być zbyt duży, aby użyć $F$ $W×C$ $W$ $F_w$ $w$ $F_c$ $F$ $F_w$ $W$ $F_w$ jako cechy słowa w w modelu nadzorowanym. Można odwzorować na macierz f o rozmiarze W × d, gdzie , używając jakiejś funkcji g, gdzie f = g (F). reprezentuje słowo jako wektor o wymiarach . Wybór to kolejny projekt decyzji, choć może nie tak ważne, jak początkowo statystyk wykorzystywanych do konstruowania . $F$ $d << C$ $F_w$ $w$ $d$ $g$ $F$

Rozprowadzane reprezentacja jest gęsty, nisko-wymiarowej i wartościach rzeczywistych. Rozproszone reprezentacje słów nazywane są osadzaniem słów. Każdy wymiar osadzania reprezentuje ukrytą cechę tego słowa, miejmy nadzieję, że uchwyci użyteczne właściwości składniowe i semantyczne. Rozproszona reprezentacja jest zwarta, w tym sensie, że może reprezentować wykładniczą liczbę klastrów w liczbie wymiarów.

FYI: Jaka jest różnica między wektorami słów, reprezentacjami słów i osadzaniem wektorów?

— Franck Dernoncourt
źródło

2

To samo zamieszanie pozostaje w odpowiedzi. Ma właściwości z obu reprezentacji. Zobaczmy, co ma ze sobą wspólnego. Distributional: Ma macierz wielkości WxC, a następnie jest zmniejszona do Wxd, gdzie d jest rozmiarem wektora osadzania. Używa rozmiarów okien do określenia kontekstu. Distributed: Gęste, nisko wymiarowe wektory. Zachowuje ukryte cechy (właściwości semantyczne) w tych wymiarach.

— yazhi

2

Odpowiedź Andreja Kutuzowa za pośrednictwem grup google była satysfakcjonująca

Powiedziałbym, że algorytmy word2vec są oparte na obu.

Kiedy ludzie mówią distributional representation, zwykle mają na myśli aspekt językowy: znaczenie jest kontekstem, znają słowo jego firmy i inne znane cytaty.

Ale kiedy ludzie mówią distributed representation, w większości nie ma to nic wspólnego z językoznawstwem. Chodzi bardziej o aspekt informatyki. Jeśli dobrze rozumiem Mikołaja i innych, słowo distributedw ich artykułach oznacza, że każdy element reprezentacji wektorowej nie ma własnego znaczenia. Elementy do interpretacji (na przykład konteksty słów w przypadku word2vec) są ukryte i znajdują się distributedwśród niemożliwych do interpretacji komponentów wektorowych: każdy komponent odpowiada za kilka interpretowalnych funkcji, a każda interpretowalna funkcja jest związana z kilkoma komponentami.

Tak więc word2vec (i doc2vec) wykorzystuje reprezentacje rozproszone technicznie, jako sposób reprezentacji semantyki leksykalnej. Jednocześnie jest koncepcyjnie oparty na hipotezie dystrybucyjnej: działa tylko dlatego, że hipoteza dystrybucyjna jest prawdziwa (znaczenie słów koreluje z ich typowymi kontekstami).

Ale oczywiście często terminy distributedi distributionalsą używane zamiennie, co zwiększa nieporozumienia :)

— yazhi
źródło