Czy zgłoszono najnowszą wydajność wykorzystania wektorów akapitowych do analizy sentymentów?

Byłem pod wrażeniem wyników w artykule ICML 2014 „ Rozproszone reprezentacje zdań i dokumentów ” Le i Mikołaja. Technika, którą opisują, zwana „wektorami akapitowymi”, uczy się nienadzorowanej reprezentacji arbitralnie długich akapitów / dokumentów, w oparciu o rozszerzenie modelu word2vec. W artykule przedstawiono najnowsze wyniki analizy nastrojów przy użyciu tej techniki.

Miałem nadzieję, że ocenię tę technikę pod kątem innych problemów z klasyfikacją tekstu, jako alternatywy dla tradycyjnej reprezentacji worków słów. Jednak natknąłem się na post drugiego autora w wątku w grupie Google word2vec, który dał mi pauzę:

Latem próbowałem odtworzyć wyniki Quoc; Mógłbym zwiększyć poziom błędów w zestawie danych IMDB do około 9,4% - 10% (w zależności od tego, jak dobra była normalizacja tekstu). Nie mogłem jednak zbliżyć się do tego, co Quoc napisał w artykule (błąd 7,4%, to ogromna różnica) ... Oczywiście zapytaliśmy Quoc również o kod; obiecał opublikować, ale jak dotąd nic się nie wydarzyło. ... Zaczynam myśleć, że wyniki Quoc nie są w rzeczywistości odtwarzalne.

Czy ktoś miał już sukces w odtwarzaniu tych wyników?

— bskaggs
źródło

Czy ta sytuacja już się zmieniła? Wiem, że Gensim zaimplementował wersję doc2vec (wektory akapitów / dokumentów), patrz: radimrehurek.com/gensim/models/doc2vec.html, ale nie podjęto próby odtworzenia wyników w cytowanym tutaj artykule.

— Doctorambient

Tak, były próby odtworzenia wyników papierowych przy użyciu gensim : patrz notatnik docytowy IPython .

— Radim

Przypis na stronie http://arxiv.org/abs/1412.5335 (jednym z autorów jest Tomas Mikolov) mówi

W naszych eksperymentach, aby dopasować wyniki z (Le & Mikolov, 2014), zastosowaliśmy się do sugestii Quoc Le, aby użyć hierarchicznego softmax zamiast negatywnego próbkowania. Daje to jednak wynik dokładności 92,6% tylko wtedy, gdy dane treningowe i testowe nie są tasowane. Dlatego uważamy ten wynik za nieważny.

— Michaił Korobow
źródło

Nie rozumiem, dlaczego „nie przetasowano” ==> nieprawidłowe. Czy nie ma dobrze określonego podziału między zestawem pociągów / testów? Czyli to, co jest pociągiem / testem, zależy od tego, jak przetasujesz (oryginalny) zestaw danych? Kolejność zestawu testowego nie powinna mieć znaczenia (nie ma oceny dynamicznej, prawda?). Kolejność zestawu treningowego również nie powinna mieć większego znaczenia ...

— capybaralet

@ user2429920 Jeśli występują różnice, to oczywiście kolejność ma znaczenie.

— JAB