Osadzanie słów to zbiorcza nazwa zestawu technik modelowania języka i funkcji uczenia się w NLP, w których słowa są odwzorowywane na wektory liczb rzeczywistych w niewielkiej przestrzeni wymiarowej w stosunku do rozmiaru słownictwa.
Czytam o NCE (forma próbkowania kandydata) z tych dwóch źródeł: Zapis Tensorflow Oryginalny papier Czy ktoś może mi pomóc w następujących kwestiach: Proste wyjaśnienie, w jaki sposób działa NCE (dla mnie powyższe było trudne do przeanalizowania i zrozumienia, więc coś intuicyjnego, które prowadzi do przedstawionej matematyki, byłoby świetne) Po punkcie …
To jest bardziej ogólne pytanie NLP. Jaki jest odpowiedni wkład, aby nauczyć się osadzania słów, a mianowicie Word2Vec? Czy wszystkie zdania należące do artykułu powinny być osobnym dokumentem w korpusie? A może każdy artykuł powinien być dokumentem we wspomnianym korpusie? To tylko przykład użycia Pythona i gensim. Korpus podzielony według …
Biorąc pod uwagę zdanie: „Kiedy otworzę drzwi ?? , zacznie się automatycznie nagrzewać” Chciałbym uzyskać listę możliwych słów w? z prawdopodobieństwem. Podstawową koncepcją stosowaną w modelu word2vec jest „przewidywanie” słowa na podstawie otaczającego kontekstu. Po zbudowaniu modelu, jaka jest właściwa operacja wektorów kontekstowych, aby wykonać moje zadanie przewidywania nowych zdań? …
Jak najlepiej ustalić semantyczne podobieństwo słów? Word2Vec jest w porządku, ale nie idealny: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to …
Zastanawiam się, jak oznaczyć (tagować) zdania / akapity / dokumenty za pomocą doc2vec w gensim - z praktycznego punktu widzenia. Czy musisz mieć każde zdanie / akapit / dokument z własną unikalną etykietą (np. „Wysłane_123”)? Wydaje się to przydatne, jeśli chcesz powiedzieć „jakie słowa lub zdania są najbardziej podobne do …
Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …
Korzystam z biblioteki Gensim w Pythonie do używania i szkolenia modelu word2vector. Ostatnio zastanawiałem się nad zainicjowaniem wag modelu za pomocą wstępnie wyszkolonego modelu word2vec, takiego jak (model wstępnie przeszkolony GoogleNewDataset). Walczyłem z tym od kilku tygodni. Teraz właśnie sprawdziłem, że w gesim jest funkcja, która może mi pomóc zainicjować …
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
Pracowałem nad modelem gensim word2vec i uznałem go za naprawdę interesujący. Interesuje mnie odkrycie, jak nieznane / niewidoczne słowo po sprawdzeniu z modelem będzie w stanie uzyskać podobne terminy z wyuczonego modelu. czy to możliwe? Czy Word2vec można do tego dostosować? Lub korpus szkoleniowy musi zawierać wszystkie słowa, których chcę …
Czytałem, że reprezentacja dystrybucyjna opiera się na hipotezie dystrybucyjnej, że słowa występujące w podobnym kontekście mają zwykle podobne znaczenie. Word2Vec i Doc2Vec są modelowane zgodnie z tą hipotezą. Ale w oryginalnym artykule nawet one są zatytułowane jako Distributed representation of words and phrasesi Distributed representation of sentences and documents. Tak …
Chcę zaprojektować system, który po akapicie tekstu będzie mógł go skategoryzować i zidentyfikować kontekst: Jest szkolony z akapitów tekstowych generowanych przez użytkowników (takich jak komentarze / pytania / odpowiedzi) Każdy element w zestawie treningowym zostanie oznaczony. Więc na przykład („kategoria 1”, „tekst akapit”) Będą setki kategorii Jakie byłoby najlepsze podejście …
Chciałbym porównać różnicę między tym samym słowem wymienionym w różnych źródłach. To jest, w jaki sposób autorzy różnią się w użyciu źle zdefiniowanych słów, takich jak „demokracja”. Krótki plan był Weź książki, w których wzmianka o „demokracji” to zwykły tekst W każdej książki, wymienić democracyzdemocracy_%AuthorName% Trenuj word2vecmodel na tych książkach …
Próbuję przeprowadzić analizę sentymentu. Aby przekonwertować słowa na wektory słów, używam modelu word2vec. Załóżmy, że mam wszystkie zdania na liście o nazwie „zdania” i przekazuję te zdania do word2vec w następujący sposób: model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) Ponieważ jestem nobem wektory słów, mam dwie wątpliwości. 1- …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.