Worek słów a model przestrzeni wektorowej?

12

Jaka jest / są różnice między tymi modelami reprezentacji tekstu: Worek słów i model przestrzeni wektorowej?

machine-learning text-mining

— samsamara
źródło

Worek słów to zestaw reprezentujący unikalne słowa jako zestawienie. Termin wektor przestrzeni jest rzadkim wektorem logicznym, który również rejestruje pozycję słowa. Myślę.

— user122160,

16

Worek słów i model przestrzeni wektorowej odnoszą się do różnych aspektów charakteryzowania tekstu, na przykład dokumentu. Zostały one dobrze opisane w podręczniku „Przetwarzanie mowy i języka” Jurafsky'ego i Martina, 2009, w części 23.1 na temat wyszukiwania informacji. Bardziej zwięzłe odniesienie to „Wprowadzenie do wyszukiwania informacji” autorstwa Manninga, Raghavan i Schütze, 2008, w części „Wektorowy model przestrzeni do punktacji”.

Bag-of-words odnosi się do tego, jakie informacje można wyciągnąć z dokumentu (mianowicie unigram words). Model przestrzeni wektorowej odnosi się do struktury danych dla każdego dokumentu (mianowicie wektora cech par wagowych terminów i terminów). Oba aspekty się uzupełniają.

Dokładniej:

Worek słów : dla danego dokumentu wyodrębniasz tylko słowa unigram (aka terminy), aby utworzyć nieuporządkowaną listę słów. Bez tagu POS, bez składni, semantyki, bez pozycji, bez ramek, bez trygramów. Tylko same słowa unigram, tworząc kilka słów reprezentujących dokument. Zatem: worek słów .

Model przestrzeni wektorowej : biorąc pod uwagę zestaw słów wyodrębnionych z dokumentu, tworzysz wektor elementu dla dokumentu, w którym każda cecha jest słowem (terminem), a wartość cechy jest wagą terminu. Termin waga może być:

wartość binarna (1 oznacza, że termin występuje w dokumencie, a 0 oznacza, że nie występuje);
wartość częstotliwości terminu (wskazująca, ile razy termin wystąpił w dokumencie); lub
wartość TF-IDF (np. mała liczba zmiennoprzecinkowa, taka jak 1,23).

Cały dokument jest zatem wektorem cech, a każdy wektor cech odpowiada punktowi w przestrzeni wektorowej . Model tej przestrzeni wektorowej jest taki, że dla każdego terminu w słowniku znajduje się oś, a zatem przestrzeń wektorowa ma wymiar V , gdzie V jest rozmiarem słownictwa. Wektor powinien więc również być koncepcyjnie V- wymiarowy z cechą dla każdego terminu słownikowego. Ponieważ jednak słownictwo może być duże (rzędu V = 100 000 wyrażeń), wektor cech dokumentu zazwyczaj zawiera tylko te, które wystąpiły w tym dokumencie i pomija te, które tego nie zrobiły. Taki wektor cech jest uważany za rzadki .

Przykładowa wektorowa reprezentacja dokumentu może więc wyglądać następująco:

DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...

gdzie ten przykładowy wektor ma identyfikator dokumentu (np. 42), etykietę prawdziwości gruntu (np. polityka) oraz listę cech i wartości cech obejmujących pary częstotliwości i terminów. Tutaj widać, że słowo „nieobecny” wystąpiło 2 razy w tym dokumencie.

— stackoverflowuser2010
źródło

1

Czy za pomocą Bag of Words przypisujesz częstotliwość słowa do elementu macierzy terminu dokumentu, a w modelu przestrzeni wektorowej elementy macierzy terminu dokumentu są dość ogólne, o ile operacje (iloczyn punktowy) w przestrzeni wektorowej mają sens (wagi tf-idf, dla przykład)?

— danas.zuokas
źródło

tak, myślę również, że VSM to ulepszona wersja worka słów.

— samsamara