Byłem pod wrażeniem wyników w artykule ICML 2014 „ Rozproszone reprezentacje zdań i dokumentów ” Le i Mikołaja. Technika, którą opisują, zwana „wektorami akapitowymi”, uczy się nienadzorowanej reprezentacji arbitralnie długich akapitów / dokumentów, w oparciu o rozszerzenie modelu word2vec. W artykule przedstawiono najnowsze wyniki analizy nastrojów przy użyciu tej techniki.
Miałem nadzieję, że ocenię tę technikę pod kątem innych problemów z klasyfikacją tekstu, jako alternatywy dla tradycyjnej reprezentacji worków słów. Jednak natknąłem się na post drugiego autora w wątku w grupie Google word2vec, który dał mi pauzę:
Latem próbowałem odtworzyć wyniki Quoc; Mógłbym zwiększyć poziom błędów w zestawie danych IMDB do około 9,4% - 10% (w zależności od tego, jak dobra była normalizacja tekstu). Nie mogłem jednak zbliżyć się do tego, co Quoc napisał w artykule (błąd 7,4%, to ogromna różnica) ... Oczywiście zapytaliśmy Quoc również o kod; obiecał opublikować, ale jak dotąd nic się nie wydarzyło. ... Zaczynam myśleć, że wyniki Quoc nie są w rzeczywistości odtwarzalne.
Czy ktoś miał już sukces w odtwarzaniu tych wyników?