Przetwarzanie języka naturalnego to zestaw technik z zakresu lingwistyki, sztucznej inteligencji, uczenia maszynowego i statystyki, których celem jest przetwarzanie i rozumienie ludzkich języków.
Istnieją rekurencyjne sieci neuronowe i rekurencyjne sieci neuronowe. Oba są zwykle oznaczone tym samym akronimem: RNN. Według Wikipedii , Rekurencyjne NN są w rzeczywistości Rekurencyjne NN, ale tak naprawdę nie rozumiem wyjaśnienia. Co więcej, wydaje mi się, że nie znajduję lepszego (z przykładami) dla przetwarzania w języku naturalnym. Faktem jest, …
Chcę nauczyć się sieci neuronowych. Jestem lingwistą komputerowym. Znam statystyczne metody uczenia maszynowego i potrafię kodować w Pythonie. Chciałbym zacząć od jego koncepcji i znam jeden lub dwa popularne modele, które mogą być przydatne z perspektywy językoznawstwa komputerowego. Przeglądałem sieć w celach informacyjnych i znalazłem kilka książek i materiałów. Ripley, …
Próbuję zrozumieć, jakie jest podobieństwo między Latent Dirichlet Allocation i word2vec do obliczania podobieństwa słów. Jak rozumiem, LDA odwzorowuje słowa na wektor prawdopodobieństwa ukrytych tematów, podczas gdy word2vec odwzorowuje je na wektor liczb rzeczywistych (związanych z rozkładem pojedynczej wartości punktowej wzajemnej informacji, patrz O. Levy, Y. Goldberg, „Neural Word Embedding” …
Jak użyć osadzania wyrazów, aby zamapować dokument na wektor cech, odpowiedni do zastosowania w uczeniu nadzorowanym? Słowo osadzanie odwzorowuje każdy wyraz www w wektor v∈Rdv∈Rdv \in \mathbb{R}^d , gdzie ddd jest około niezbyt dużą ilość (na przykład 500). Popularne osadzanie słów to word2vec i Glove . Chcę zastosować nadzorowaną naukę …
Czy po szkoleniu wektorów słów za pomocą word2vec lepiej je znormalizować przed użyciem ich w niektórych aplikacjach? Tzn. Jakie są zalety / wady ich normalizacji?
Rozumiem, że HMM (ukryte modele Markowa) to modele generatywne, a CRF to modele dyskryminujące. Rozumiem również, w jaki sposób zaprojektowano i zastosowano CRF (warunkowe pola losowe). Nie rozumiem, czym różnią się od HMM? Czytałem, że w przypadku HMM możemy modelować nasz następny stan tylko na poprzednim węźle, bieżącym węźle i …
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …
Identyczne ten sposób, że spowoduje to identyczne wyniki dla podobieństwa kolejności pomiędzy wektorem u i zestaw wektorów V . Mam model przestrzeni wektorowej, który ma parametry pomiaru odległości (odległość euklidesowa, podobieństwo cosinusa) i techniki normalizacji (brak, l1, l2) jako parametrów. Z mojego zrozumienia, wyniki z ustawień [cosinus, none] powinny być …
Popularne modele tematów, takie jak LDA, zwykle grupują słowa, które zwykle występują razem w tym samym temacie (klastrze). Jaka jest główna różnica między takimi modelami tematycznymi a innymi prostymi metodami grupowania opartymi na współwystępowaniu, takimi jak PMI? (PMI oznacza Pointwise Mutual Information i służy do identyfikacji słów współistniejących z danym …
Byłem pod wrażeniem wyników w artykule ICML 2014 „ Rozproszone reprezentacje zdań i dokumentów ” Le i Mikołaja. Technika, którą opisują, zwana „wektorami akapitowymi”, uczy się nienadzorowanej reprezentacji arbitralnie długich akapitów / dokumentów, w oparciu o rozszerzenie modelu word2vec. W artykule przedstawiono najnowsze wyniki analizy nastrojów przy użyciu tej techniki. …
Zastanawiam się, dlaczego pominięcie gram jest lepsze dla rzadkich słów niż CBOW w word2vec. Przeczytałem roszczenie na https://code.google.com/p/word2vec/ .
W obecnej formie to pytanie nie pasuje do naszego formatu pytań i odpowiedzi. Oczekujemy, że odpowiedzi poparte będą faktami, referencjami lub wiedzą specjalistyczną, ale to pytanie prawdopodobnie będzie wymagało debaty, argumentów, ankiet lub rozszerzonej dyskusji. Jeśli uważasz, że to pytanie można poprawić i ewentualnie ponownie otworzyć, odwiedź centrum pomocy w …
Z tego, co widziałem, formuła wygładzania Knesera-Neya (drugiego rzędu) jest w jakiś sposób podana jako P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} ze współczynnikiem normalizującym λ(wn−1)λ(wn−1)\lambda(w_{n-1}) podanym jako λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} oraz …
Zainspirowany tym pytaniem zastanawiam się, czy nie wykonano żadnej pracy nad modelami tematycznymi dla dużych kolekcji niezwykle krótkich tekstów. Moją intuicją jest to, że Twitter powinien być naturalną inspiracją dla takich modeli. Jednak z niektórych ograniczonych eksperymentów wygląda na to, że standardowe modele tematyczne (LDA itp.) Działają dość słabo na …
Podczas przetwarzania języka naturalnego można wziąć korpus i ocenić prawdopodobieństwo wystąpienia następnego słowa w sekwencji n. n jest zwykle wybierane jako 2 lub 3 (bigramy i trygramy). Czy istnieje znany punkt, w którym śledzenie danych dla n-tego łańcucha staje się nieproduktywne, biorąc pod uwagę czas potrzebny do sklasyfikowania konkretnego korpusu …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.