Ile danych treningowych potrzebuje word2vec?


10

Chciałbym porównać różnicę między tym samym słowem wymienionym w różnych źródłach. To jest, w jaki sposób autorzy różnią się w użyciu źle zdefiniowanych słów, takich jak „demokracja”.

Krótki plan był

  1. Weź książki, w których wzmianka o „demokracji” to zwykły tekst
  2. W każdej książki, wymienić democracyzdemocracy_%AuthorName%
  3. Trenuj word2vecmodel na tych książkach
  4. Oblicz odległość między democracy_AuthorA, democracy_AuthorBi inne relabeled wzmianki o „demokracji”

Tak więc „demokracja” każdego autora otrzymuje własny wektor, który służy do porównania.

Wygląda jednak na to, że word2vecpotrzeba dużo więcej niż kilku książek (każde słowo z etykietą występuje tylko w podzbiorze książek), aby wyszkolić niezawodne wektory. Oficjalna strona zaleca zestawów danych w tym miliardy słów.

Chciałem tylko zapytać, jak duży powinien być podzbiór książek jednego autora, aby wyciągać takie wnioski z word2vecalternatywnych narzędzi, jeśli są dostępne?


1
Czy książki, których używasz wyłącznie na temat demokracji, jeśli nie, to czy Twoje dane dotyczące odległości nie zostaną zalane przez większe różnice między zawartością książek? Jest to efekt uboczny twojego problemu przebywania w przestrzeni o bardzo dużych wymiarach i bycia dotkniętym ręką przekleństwa wymiarowości. Być może pomogłoby tylko ujęcie małego fragmentu tekstu wokół słowa zainteresowania, ale nadal jest to problem o znacznym wymiarze.
image_doctor,

1
Tak, to jest istota tego. idzie tutaj z prawdopodobnie źle przemyślaną metaforą. Wyobraź sobie rozdziały książek reprezentowane przez kolory. I książka jako całość reprezentowana jako mieszanka wszystkich kolorów rozdziałów. Książka o demokracji w zachodniej Europie prawdopodobnie skończyłaby się ogólnym czerwonawym odcieniem jako sumą jej rozdziałów. Gdyby reprezentować turystykę w kolorze niebieskim, książka o turystyce na Kubie, z jedynym rozdziałem na temat demokracji i jej wpływu na rozwój gospodarczy, miałaby mocny niebieski odcień. Tak więc obie książki wyglądałyby zupełnie inaczej, gdy rozpatrywane byłyby jako całość.
image_doctor,

1
Jest to bardziej przystępny sposób powiedzenia tego, co sformułowałby badacz danych, ponieważ wektory obu książek będą daleko od siebie w przestrzeni obiektów, a zatem będą wyglądać zupełnie inaczej. Naprawdę trudno jest z góry oszacować, ile przykładów będziesz potrzebować bez zabawy z danymi, ale język jest subtelny i warstwowy, więc prawdopodobnie będziesz chciał tyle, ile możesz dostać ... i może więcej. Ostatecznie nie będziesz wiedział, dopóki nie spróbujesz. To nie jest konkretna odpowiedź, ale chyba, że ​​ktoś bezpośrednio doświadczy podobnej rzeczy, prawdopodobnie jest to najlepsza rzecz, jaką otrzymasz.
image_doctor,

1
word2vec używa już tylko „małego regionu tekstu wokół słowa zainteresowania”. Ten windowparametr określa, ile słów w kontekście jest używanych do trenowania modelu dla twojego słowa w
jamesmf

1
@politicalscientist Nie ukończyłem tego projektu.
Anton Tarasenko

Odpowiedzi:


1

Wygląda na to, że doc2vec (lub wektory akapitowe / kontekstowe) mogą być odpowiednie dla tego problemu.

W skrócie, oprócz wektorów słów, dodajesz „wektor kontekstowy” (w twoim przypadku osadzanie autora), który służy do przewidywania słów środkowych lub kontekstowych.

Oznacza to, że skorzystasz ze wszystkich danych na temat „demokracji”, ale także wyodrębnisz osadzenie dla tego autora, co łącznie powinno pozwolić ci na analizę stronniczości każdego autora z ograniczonymi danymi na temat każdego autora.

Możesz użyć implementacji gensim . Dokument zawiera linki do artykułów źródłowych.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.