Statystyki i duże zbiory danych word2vec

5

Próbuję zrozumieć, jakie jest podobieństwo między Latent Dirichlet Allocation i word2vec do obliczania podobieństwa słów. Jak rozumiem, LDA odwzorowuje słowa na wektor prawdopodobieństwa ukrytych tematów, podczas gdy word2vec odwzorowuje je na wektor liczb rzeczywistych (związanych z rozkładem pojedynczej wartości punktowej wzajemnej informacji, patrz O. Levy, Y. Goldberg, „Neural Word Embedding” …

39 machine-learning self-study natural-language latent-variable word2vec

3

Zastosuj osadzanie wyrazów do całego dokumentu, aby uzyskać wektor cech

Jak użyć osadzania wyrazów, aby zamapować dokument na wektor cech, odpowiedni do zastosowania w uczeniu nadzorowanym? Słowo osadzanie odwzorowuje każdy wyraz www w wektor v∈Rdv∈Rdv \in \mathbb{R}^d , gdzie ddd jest około niezbyt dużą ilość (na przykład 500). Popularne osadzanie słów to word2vec i Glove . Chcę zastosować nadzorowaną naukę …

38 classification natural-language supervised-learning word2vec word-embeddings

1

Czy powinienem normalizować wektory słów word2vec przed ich użyciem?

Czy po szkoleniu wektorów słów za pomocą word2vec lepiej je znormalizować przed użyciem ich w niektórych aplikacjach? Tzn. Jakie są zalety / wady ich normalizacji?

38 natural-language word2vec word-embeddings

3

R: Losowy las wyrzucający NaN / Inf w błędzie „wywołanie funkcji zagranicznej” pomimo braku NaN w zbiorze danych [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

Jak działa negatywne próbkowanie w word2vec?

Starałem się zrozumieć pojęcie negatywnego próbkowania w kontekście word2vec. Nie jestem w stanie przetrawić idei próbkowania [negatywnego]. Na przykład w pracach Mikołowa sformułowano, że negatywne oczekiwania dotyczące próbkowania są sformułowane jako logσ( ⟨ Wagowych , c ⟩ ) + K ⋅ EdoN.∼ P.re[ logσ( - ⟨ wagowych , cN.⟩ ) …

19 machine-learning word2vec word-embeddings

3

Dlaczego pomijanie gramów jest lepsze w przypadku rzadkich słów niż CBOW?

Zastanawiam się, dlaczego pominięcie gram jest lepsze dla rzadkich słów niż CBOW w word2vec. Przeczytałem roszczenie na https://code.google.com/p/word2vec/ .

19 natural-language word2vec word-embeddings

4

Interpretacja ujemnego podobieństwa cosinus

Moje pytanie może być głupie. Więc z góry przepraszam. Próbowałem użyć modelu GLOVE wstępnie przeszkolonego przez grupę NLP Stanforda ( link ). Zauważyłem jednak, że moje wyniki podobieństwa wykazały pewne liczby ujemne. To natychmiast skłoniło mnie do spojrzenia na plik danych słowo-wektor. Najwyraźniej wartości w wektorach słów mogły być ujemne. …

17 machine-learning word2vec cosine-similarity

2

Jak obliczana jest metoda .similarity w SpaCy?

Nie jestem pewien, czy to jest odpowiednia strona stosu, ale proszę bardzo. Jak działa metoda .similiarity? Wow spaCy jest świetne! Jego model tfidf może być łatwiejszy, ale w2v z tylko jedną linią kodu ?! W swoim 10-liniowym samouczku na temat spaCy andrazhribernik pokazuje nam metodę .similarity, którą można uruchamiać na …

13 natural-language word2vec tf-idf nltk

3

Dlaczego hierarchiczny softmax jest lepszy dla rzadkich słów, podczas gdy negatywne próbkowanie jest lepsze dla częstych słów?

Zastanawiam się, dlaczego hierarchiczny softmax jest lepszy dla rzadkich słów, podczas gdy negatywne próbkowanie jest lepsze dla częstych słów, w modelach CBOW i skip-gram w word2vec. Przeczytałem roszczenie na https://code.google.com/p/word2vec/ .

12 natural-language word2vec word-embeddings softmax

3

W jaki sposób model pomijania gramów Word2Vec generuje wektory wyjściowe?

Mam problemy ze zrozumieniem modelu pominięcia gramów algorytmu Word2Vec. W ciągłym pakiecie słów łatwo jest zobaczyć, jak słowa kontekstowe mogą się „zmieścić” w sieci neuronowej, ponieważ w zasadzie uśrednia się je po pomnożeniu każdej z reprezentacji kodowania jednokrotnego z macierzą wejściową W. Jednak w przypadku pominięcia gram, wektor słowa wejściowego …

11 neural-networks deep-learning natural-language word2vec word-embeddings

1

Algorytmy osadzania słów pod względem wydajności

Próbuję osadzić około 60 milionów fraz w przestrzeni wektorowej , a następnie obliczyć podobieństwo między nimi. Używam sklearn's CountVectorizerz niestandardową wbudowaną funkcją tokenizera, która produkuje unigramy i bigramy. Okazuje się, że aby uzyskać sensowne reprezentacje, muszę pozwolić na ogromną liczbę kolumn, liniowych w liczbie wierszy. Prowadzi to do niewiarygodnie rzadkich …

11 machine-learning natural-language word2vec word-embeddings cosine-similarity

2

Jak określić parametry dla t-SNE w celu zmniejszenia wymiarów?

Jestem bardzo nowy w osadzaniu słów. Chcę wyobrazić sobie, jak wyglądają dokumenty po nauce. Czytałem, że t-SNE jest podejściem do tego. Mam 100 000 dokumentów o 250 wymiarach jako rozmiarze osadzenia. Dostępnych jest również kilka pakietów. Jednak w przypadku t-SNE nie wiem, ile iteracji, wartość alfa lub wartość zdolności pertraktacyjnych …

11 pca dimensionality-reduction word2vec word-embeddings tsne

2

Obsługa nieznanych słów w zadaniach modelowania języka za pomocą LSTM

W przypadku zadania przetwarzania języka naturalnego (NLP) często wykorzystuje się wektory word2vec jako osadzenie słów. Jednak może istnieć wiele nieznanych słów, które nie są przechwytywane przez wektory word2vec po prostu dlatego, że słowa te nie są wystarczająco często widoczne w danych szkoleniowych (wiele implementacji używa minimalnej liczby przed dodaniem słowa …

11 natural-language word2vec lstm word-embeddings

1

Pochodna utraty entropii krzyżowej w word2vec

Próbuję przejść przez pierwszy zestaw problemów z materiałem do kursu online cs224d klasy Stanford i mam pewne problemy z problemem 3A: Używając modelu pomiń gram word2vec z funkcją przewidywania softmax i funkcją utraty entropii krzyżowej, my chcę obliczyć gradienty w stosunku do przewidywanych wektorów słów. Biorąc pod uwagę funkcję softmax: …

10 machine-learning self-study word2vec

1

Gradienty dla słowa skipgram 2

Przechodzę przez problemy w pisemnych problemach z klasą głębokiego uczenia się NLP Stanforda http://cs224d.stanford.edu/assignment1/assignment1_soln Próbuję zrozumieć odpowiedź dla 3a, gdzie szukają pochodnej wektora dla środkowego słowa. Załóżmy, że otrzymałeś przewidywany wektor słowa odpowiadający środkowemu słowu c dla skipgramu, a przewidywania słów dokonuje się za pomocą funkcji softmax występującej w modelach …

9 self-study neural-networks backpropagation word2vec

Pytania otagowane jako word2vec