Osadzanie słów to zbiorcza nazwa zestawu technik modelowania języka i uczenia się funkcji w NLP, w których słowa są odwzorowywane na wektory liczb rzeczywistych w niewielkiej przestrzeni wymiarowej w stosunku do rozmiaru słownictwa.
W wielu bibliotekach sieci neuronowych istnieją „warstwy osadzania”, jak w Keras lub Lasagne . Nie jestem pewien, czy rozumiem jego funkcję, pomimo przeczytania dokumentacji. Na przykład w dokumentacji Keras napisano: Zamień dodatnie liczby całkowite (indeksy) na wektory den o stałym rozmiarze, np. [[4], [20]] -> [[0,25, 0,1], [0,6, -0,2]] Czy …
Musisz zrozumieć działanie warstwy „Osadzanie” w bibliotece Keras. Wykonuję następujący kod w Pythonie import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) co daje następujący wynik input_array = [[4 1 3 …
Jak użyć osadzania wyrazów, aby zamapować dokument na wektor cech, odpowiedni do zastosowania w uczeniu nadzorowanym? Słowo osadzanie odwzorowuje każdy wyraz www w wektor v∈Rdv∈Rdv \in \mathbb{R}^d , gdzie ddd jest około niezbyt dużą ilość (na przykład 500). Popularne osadzanie słów to word2vec i Glove . Chcę zastosować nadzorowaną naukę …
Czy po szkoleniu wektorów słów za pomocą word2vec lepiej je znormalizować przed użyciem ich w niektórych aplikacjach? Tzn. Jakie są zalety / wady ich normalizacji?
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …
Byłem pod wrażeniem wyników w artykule ICML 2014 „ Rozproszone reprezentacje zdań i dokumentów ” Le i Mikołaja. Technika, którą opisują, zwana „wektorami akapitowymi”, uczy się nienadzorowanej reprezentacji arbitralnie długich akapitów / dokumentów, w oparciu o rozszerzenie modelu word2vec. W artykule przedstawiono najnowsze wyniki analizy nastrojów przy użyciu tej techniki. …
Starałem się zrozumieć pojęcie negatywnego próbkowania w kontekście word2vec. Nie jestem w stanie przetrawić idei próbkowania [negatywnego]. Na przykład w pracach Mikołowa sformułowano, że negatywne oczekiwania dotyczące próbkowania są sformułowane jako logσ( ⟨ Wagowych , c ⟩ ) + K ⋅ EdoN.∼ P.re[ logσ( - ⟨ wagowych , cN.⟩ ) …
Zastanawiam się, dlaczego pominięcie gram jest lepsze dla rzadkich słów niż CBOW w word2vec. Przeczytałem roszczenie na https://code.google.com/p/word2vec/ .
Jak trenuje się warstwę osadzania w warstwie osadzania Keras? (powiedzmy, używając backendu tensorflow, co oznacza, że jest podobny do word2vec, glove lub fasttext) Załóżmy, że nie stosujemy wstępnego przeszkolenia.
Zastanawiam się, dlaczego hierarchiczny softmax jest lepszy dla rzadkich słów, podczas gdy negatywne próbkowanie jest lepsze dla częstych słów, w modelach CBOW i skip-gram w word2vec. Przeczytałem roszczenie na https://code.google.com/p/word2vec/ .
Mam problemy ze zrozumieniem modelu pominięcia gramów algorytmu Word2Vec. W ciągłym pakiecie słów łatwo jest zobaczyć, jak słowa kontekstowe mogą się „zmieścić” w sieci neuronowej, ponieważ w zasadzie uśrednia się je po pomnożeniu każdej z reprezentacji kodowania jednokrotnego z macierzą wejściową W. Jednak w przypadku pominięcia gram, wektor słowa wejściowego …
Próbuję osadzić około 60 milionów fraz w przestrzeni wektorowej , a następnie obliczyć podobieństwo między nimi. Używam sklearn's CountVectorizerz niestandardową wbudowaną funkcją tokenizera, która produkuje unigramy i bigramy. Okazuje się, że aby uzyskać sensowne reprezentacje, muszę pozwolić na ogromną liczbę kolumn, liniowych w liczbie wierszy. Prowadzi to do niewiarygodnie rzadkich …
Jestem bardzo nowy w osadzaniu słów. Chcę wyobrazić sobie, jak wyglądają dokumenty po nauce. Czytałem, że t-SNE jest podejściem do tego. Mam 100 000 dokumentów o 250 wymiarach jako rozmiarze osadzenia. Dostępnych jest również kilka pakietów. Jednak w przypadku t-SNE nie wiem, ile iteracji, wartość alfa lub wartość zdolności pertraktacyjnych …
Jednym ze sposobów generowania zanurzeń słowo jest następująco ( lustro ): Zdobądź ciała, np. „Lubię latać. Lubię NLP. Lubię głębokie uczenie się”. Zbuduj z niego macierz współbieżności słów: Wykonaj SVD na XXX i zachowaj pierwsze kkk kolumn U. U1:|V|,1:kU1:|V|,1:kU_{1:|V|,1:k} Pomiędzy krokami 2 i 3 czasami stosowane są punktowe wzajemne informacje …
Mam problem ze zrozumieniem tego zdania: Pierwsza proponowana architektura jest podobna do sprzężenia zwrotnego NNLM, w którym nieliniowa warstwa ukryta jest usuwana, a warstwa projekcyjna jest wspólna dla wszystkich słów (nie tylko matrycy projekcyjnej); dlatego wszystkie słowa są rzutowane na tę samą pozycję (ich wektory są uśredniane). Czym jest warstwa …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.