Przetwarzanie języka naturalnego to zestaw technik z zakresu lingwistyki, sztucznej inteligencji, uczenia maszynowego i statystyki, których celem jest przetwarzanie i rozumienie ludzkich języków.
Nie jestem pewien, czy to jest odpowiednia strona stosu, ale proszę bardzo. Jak działa metoda .similiarity? Wow spaCy jest świetne! Jego model tfidf może być łatwiejszy, ale w2v z tylko jedną linią kodu ?! W swoim 10-liniowym samouczku na temat spaCy andrazhribernik pokazuje nam metodę .similarity, którą można uruchamiać na …
Zastanawiam się, dlaczego hierarchiczny softmax jest lepszy dla rzadkich słów, podczas gdy negatywne próbkowanie jest lepsze dla częstych słów, w modelach CBOW i skip-gram w word2vec. Przeczytałem roszczenie na https://code.google.com/p/word2vec/ .
Powiedz, że używam RNN / LSTM do analizy sentymentu, co jest podejściem typu jeden do jednego (patrz ten blog ). Sieć jest trenowana przez skróconą propagację wsteczną w czasie (BPTT), w której sieć jest rozwijana tylko przez 30 ostatnich kroków, jak zwykle. W moim przypadku każda z moich sekcji tekstowych, …
W dwóch popularnych bibliotekach identyfikacji języka, Compact Language Detector 2 dla C ++ i wykrywaczu języka dla java, oba wykorzystały (oparte na znakach) n-gramach do wyodrębnienia funkcji tekstowych. Dlaczego nie używa się worka słów (pojedyncze słowo / słownik) i jakie są zalety i wady worka słów i n-gramów? Jakie są …
Opis: Niech domeną problemową będzie klasyfikacja dokumentów tam, gdzie istnieje zestaw wektorów cech, z których każdy należy do jednej lub więcej klas. Na przykład dokument doc_1może należeć do kategorii Sportsi English. Pytanie: Używając sieci neuronowej do klasyfikacji, jaka byłaby etykieta dla wektora cech? czy byłby to wektor składający się ze …
Mam problemy ze zrozumieniem modelu pominięcia gramów algorytmu Word2Vec. W ciągłym pakiecie słów łatwo jest zobaczyć, jak słowa kontekstowe mogą się „zmieścić” w sieci neuronowej, ponieważ w zasadzie uśrednia się je po pomnożeniu każdej z reprezentacji kodowania jednokrotnego z macierzą wejściową W. Jednak w przypadku pominięcia gram, wektor słowa wejściowego …
Próbuję osadzić około 60 milionów fraz w przestrzeni wektorowej , a następnie obliczyć podobieństwo między nimi. Używam sklearn's CountVectorizerz niestandardową wbudowaną funkcją tokenizera, która produkuje unigramy i bigramy. Okazuje się, że aby uzyskać sensowne reprezentacje, muszę pozwolić na ogromną liczbę kolumn, liniowych w liczbie wierszy. Prowadzi to do niewiarygodnie rzadkich …
Znalazłem bardzo pomocny samouczek dotyczący algorytmu EM . Przykład i zdjęcie z samouczka jest po prostu genialne. Powiązane pytanie dotyczące obliczania prawdopodobieństwa, jak działa maksymalizacja oczekiwań? Mam inne pytanie dotyczące połączenia teorii opisanej w samouczku z przykładem. Podczas kroku E, EM wybiera funkcję która ogranicza i dla której .soltgtg_tlogP.( x …
Jednym ze sposobów generowania zanurzeń słowo jest następująco ( lustro ): Zdobądź ciała, np. „Lubię latać. Lubię NLP. Lubię głębokie uczenie się”. Zbuduj z niego macierz współbieżności słów: Wykonaj SVD na XXX i zachowaj pierwsze kkk kolumn U. U1:|V|,1:kU1:|V|,1:kU_{1:|V|,1:k} Pomiędzy krokami 2 i 3 czasami stosowane są punktowe wzajemne informacje …
Mam problem ze zrozumieniem tego zdania: Pierwsza proponowana architektura jest podobna do sprzężenia zwrotnego NNLM, w którym nieliniowa warstwa ukryta jest usuwana, a warstwa projekcyjna jest wspólna dla wszystkich słów (nie tylko matrycy projekcyjnej); dlatego wszystkie słowa są rzutowane na tę samą pozycję (ich wektory są uśredniane). Czym jest warstwa …
W przypadku zadania przetwarzania języka naturalnego (NLP) często wykorzystuje się wektory word2vec jako osadzenie słów. Jednak może istnieć wiele nieznanych słów, które nie są przechwytywane przez wektory word2vec po prostu dlatego, że słowa te nie są wystarczająco często widoczne w danych szkoleniowych (wiele implementacji używa minimalnej liczby przed dodaniem słowa …
Jak mogę określić ilościowo dyspersję w wektorze liczby słów? Szukam statystyki, która będzie wysoka dla dokumentu A, ponieważ zawiera wiele różnych słów, które występują rzadko, i niska dla dokumentu B, ponieważ zawiera jedno słowo (lub kilka słów), które występują często. Mówiąc bardziej ogólnie, jak mierzyć dyspersję lub „rozpiętość” w danych …
Czytałem: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Ale nie potrafię zrozumieć, dlaczego formuła została zbudowana w taki sposób. Co robię Rozumiem: iDF powinien na pewnym poziomie zmierzyć, jak często termin S pojawia się w każdym z dokumentów, zmniejszając jego wartość, ponieważ termin pojawia się częściej. Z tej perspektywy iDF(S)=# of Documents# of Documents containing SiDF(S)=# …
Tradycyjne podejście do konstruowania obiektów do eksploracji tekstu jest oparte na zasadzie work-of-words i można je ulepszyć za pomocą tf-idf do konfigurowania wektora cech charakteryzującego dany dokument tekstowy. Obecnie próbuję użyć bi-gramowego modelu językowego lub (N-gram) do budowy wektora cech, ale nie bardzo wiesz, jak to zrobić? Czy możemy postępować …
Próbuję grupować, na przykład, ciągi o programowaniu z innymi ciągami o programowaniu, ciągi o fizyce z innymi ciągami o fizyce itp., Dla szerokiego zakresu tematów. Pomimo rażącego teoretycznego aspektu językowego problemu, zamierzam to zrobić za pomocą programowania / oprogramowania. Podsumowanie: Biorąc pod uwagę dużą liczbę ciągów, jak miałbym pogrupować je …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.