Statystyki i duże zbiory danych natural-language

2

Jak obliczana jest metoda .similarity w SpaCy?

Nie jestem pewien, czy to jest odpowiednia strona stosu, ale proszę bardzo. Jak działa metoda .similiarity? Wow spaCy jest świetne! Jego model tfidf może być łatwiejszy, ale w2v z tylko jedną linią kodu ?! W swoim 10-liniowym samouczku na temat spaCy andrazhribernik pokazuje nam metodę .similarity, którą można uruchamiać na …

13 natural-language word2vec tf-idf nltk

3

Dlaczego hierarchiczny softmax jest lepszy dla rzadkich słów, podczas gdy negatywne próbkowanie jest lepsze dla częstych słów?

Zastanawiam się, dlaczego hierarchiczny softmax jest lepszy dla rzadkich słów, podczas gdy negatywne próbkowanie jest lepsze dla częstych słów, w modelach CBOW i skip-gram w word2vec. Przeczytałem roszczenie na https://code.google.com/p/word2vec/ .

12 natural-language word2vec word-embeddings softmax

2

Przechwytywanie początkowych wzorców podczas korzystania ze skróconej propagacji wstecznej w czasie (RNN / LSTM)

Powiedz, że używam RNN / LSTM do analizy sentymentu, co jest podejściem typu jeden do jednego (patrz ten blog ). Sieć jest trenowana przez skróconą propagację wsteczną w czasie (BPTT), w której sieć jest rozwijana tylko przez 30 ostatnich kroków, jak zwykle. W moim przypadku każda z moich sekcji tekstowych, …

12 neural-networks deep-learning natural-language backpropagation

2

Dlaczego n-gram jest używany do identyfikacji języka tekstowego zamiast słów?

W dwóch popularnych bibliotekach identyfikacji języka, Compact Language Detector 2 dla C ++ i wykrywaczu języka dla java, oba wykorzystały (oparte na znakach) n-gramach do wyodrębnienia funkcji tekstowych. Dlaczego nie używa się worka słów (pojedyncze słowo / słownik) i jakie są zalety i wady worka słów i n-gramów? Jakie są …

12 machine-learning classification text-mining natural-language

2

Jak zastosować sieci neuronowe do problemów z klasyfikacją wielu marek?

Opis: Niech domeną problemową będzie klasyfikacja dokumentów tam, gdzie istnieje zestaw wektorów cech, z których każdy należy do jednej lub więcej klas. Na przykład dokument doc_1może należeć do kategorii Sportsi English. Pytanie: Używając sieci neuronowej do klasyfikacji, jaka byłaby etykieta dla wektora cech? czy byłby to wektor składający się ze …

12 machine-learning neural-networks natural-language multilabel

3

W jaki sposób model pomijania gramów Word2Vec generuje wektory wyjściowe?

Mam problemy ze zrozumieniem modelu pominięcia gramów algorytmu Word2Vec. W ciągłym pakiecie słów łatwo jest zobaczyć, jak słowa kontekstowe mogą się „zmieścić” w sieci neuronowej, ponieważ w zasadzie uśrednia się je po pomnożeniu każdej z reprezentacji kodowania jednokrotnego z macierzą wejściową W. Jednak w przypadku pominięcia gram, wektor słowa wejściowego …

11 neural-networks deep-learning natural-language word2vec word-embeddings

1

Algorytmy osadzania słów pod względem wydajności

Próbuję osadzić około 60 milionów fraz w przestrzeni wektorowej , a następnie obliczyć podobieństwo między nimi. Używam sklearn's CountVectorizerz niestandardową wbudowaną funkcją tokenizera, która produkuje unigramy i bigramy. Okazuje się, że aby uzyskać sensowne reprezentacje, muszę pozwolić na ogromną liczbę kolumn, liniowych w liczbie wierszy. Prowadzi to do niewiarygodnie rzadkich …

11 machine-learning natural-language word2vec word-embeddings cosine-similarity

1

Wyjaśnienie maksymalizacji oczekiwań

Znalazłem bardzo pomocny samouczek dotyczący algorytmu EM . Przykład i zdjęcie z samouczka jest po prostu genialne. Powiązane pytanie dotyczące obliczania prawdopodobieństwa, jak działa maksymalizacja oczekiwań? Mam inne pytanie dotyczące połączenia teorii opisanej w samouczku z przykładem. Podczas kroku E, EM wybiera funkcję która ogranicza i dla której .soltgtg_tlogP.( x …

11 machine-learning clustering algorithms natural-language

1

Jakie są zalety i wady stosowania punktowej wzajemnej informacji na macierzy współbieżności słów przed SVD?

Jednym ze sposobów generowania zanurzeń słowo jest następująco ( lustro ): Zdobądź ciała, np. „Lubię latać. Lubię NLP. Lubię głębokie uczenie się”. Zbuduj z niego macierz współbieżności słów: Wykonaj SVD na XXX i zachowaj pierwsze kkk kolumn U. U1:|V|,1:kU1:|V|,1:kU_{1:|V|,1:k} Pomiędzy krokami 2 i 3 czasami stosowane są punktowe wzajemne informacje …

11 natural-language svd mutual-information word-embeddings language-models

2

Pytanie o ciągłą torbę słów

Mam problem ze zrozumieniem tego zdania: Pierwsza proponowana architektura jest podobna do sprzężenia zwrotnego NNLM, w którym nieliniowa warstwa ukryta jest usuwana, a warstwa projekcyjna jest wspólna dla wszystkich słów (nie tylko matrycy projekcyjnej); dlatego wszystkie słowa są rzutowane na tę samą pozycję (ich wektory są uśredniane). Czym jest warstwa …

11 machine-learning neural-networks natural-language word-embeddings language-models

2

Obsługa nieznanych słów w zadaniach modelowania języka za pomocą LSTM

W przypadku zadania przetwarzania języka naturalnego (NLP) często wykorzystuje się wektory word2vec jako osadzenie słów. Jednak może istnieć wiele nieznanych słów, które nie są przechwytywane przez wektory word2vec po prostu dlatego, że słowa te nie są wystarczająco często widoczne w danych szkoleniowych (wiele implementacji używa minimalnej liczby przed dodaniem słowa …

11 natural-language word2vec lstm word-embeddings

5

Jak zmierzyć dyspersję w danych dotyczących częstotliwości słów?

Jak mogę określić ilościowo dyspersję w wektorze liczby słów? Szukam statystyki, która będzie wysoka dla dokumentu A, ponieważ zawiera wiele różnych słów, które występują rzadko, i niska dla dokumentu B, ponieważ zawiera jedno słowo (lub kilka słów), które występują często. Mówiąc bardziej ogólnie, jak mierzyć dyspersję lub „rozpiętość” w danych …

10 variance natural-language gini dispersion bag-of-words

1

Zrozumienie zastosowania logarytmów w logarytmie TF-IDF

Czytałem: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Ale nie potrafię zrozumieć, dlaczego formuła została zbudowana w taki sposób. Co robię Rozumiem: iDF powinien na pewnym poziomie zmierzyć, jak często termin S pojawia się w każdym z dokumentów, zmniejszając jego wartość, ponieważ termin pojawia się częściej. Z tej perspektywy iDF(S)=# of Documents# of Documents containing SiDF(S)=# …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

Odnośnie użycia modelu Bigram (N-gram) do budowy wektora cech dla dokumentu tekstowego

Tradycyjne podejście do konstruowania obiektów do eksploracji tekstu jest oparte na zasadzie work-of-words i można je ulepszyć za pomocą tf-idf do konfigurowania wektora cech charakteryzującego dany dokument tekstowy. Obecnie próbuję użyć bi-gramowego modelu językowego lub (N-gram) do budowy wektora cech, ale nie bardzo wiesz, jak to zrobić? Czy możemy postępować …

10 machine-learning data-mining text-mining natural-language language-models

2

Jak pogrupować ciągi według wspólnych tematów?

Próbuję grupować, na przykład, ciągi o programowaniu z innymi ciągami o programowaniu, ciągi o fizyce z innymi ciągami o fizyce itp., Dla szerokiego zakresu tematów. Pomimo rażącego teoretycznego aspektu językowego problemu, zamierzam to zrobić za pomocą programowania / oprogramowania. Podsumowanie: Biorąc pod uwagę dużą liczbę ciągów, jak miałbym pogrupować je …

10 natural-language data-mining

Pytania otagowane jako natural-language