Na sugestię PO rcpinto przekształciłem komentarz na temat „obejrzenia„ około pół tuzina artykułów, które kontynuują prace Gravesa i in., Które przyniosły wyniki kalibru ”i podam kilka linków. Pamiętaj, że to odpowiada tylko na część pytania dotyczącego NTM, a nie samego Google DeepMind, a ponadto wciąż uczę się lin w uczeniu maszynowym, więc niektóre materiały w tych dokumentach są ponad moją głową; Udało mi się jednak uchwycić dużą część materiału z oryginalnej pracy Gravesa i wsp. {1] i jestem bliski posiadania własnego kodu NTM do przetestowania. W ciągu ostatnich kilku miesięcy przynajmniej przejrzałem następujące dokumenty; nie replikują badania NTM w ścisły sposób naukowy, ale wiele z ich wyników eksperymentalnych ma tendencję do poparcia oryginału przynajmniej stycznie:
• W tym artykule na temat wariantowej wersji adresowania NTM, Gulcehere i in. nie próbuj dokładnie powielać testów Gravesa i in., ale podobnie jak zespół DeepMind, wykazuje znacznie lepsze wyniki dla oryginalnego NTM i kilku wariantów w porównaniu ze zwykłym nawracającym LSTM. Używają 10 000 próbek szkoleniowych z zestawu danych pytań i odpowiedzi na Facebooku, a nie N-gramów Graves i in. działały na ich papierze, więc nie jest to replikacja w ścisłym tego słowa znaczeniu. Udało im się jednak uzyskać wersję oryginalnego NTM i kilka wariantów, a także odnotować taką samą poprawę wydajności. 2)
• W przeciwieństwie do oryginalnego NTM, badanie to przetestowało wersję uczenia wzmacniającego, której nie można było rozróżnić; może dlatego nie byli w stanie rozwiązać kilku gustów programistycznych, takich jak Repeat-Copy, chyba że kontroler nie ograniczał się do posuwania się naprzód. Ich wyniki były jednak wystarczająco dobre, aby poprzeć ideę NTM. Najwyraźniej dostępna jest nowsza wersja ich pracy, którą muszę jeszcze przeczytać, więc być może niektóre problemy z ich wariantami zostały rozwiązane. 3)
• Zamiast testować oryginalny smak NTM w stosunku do zwykłych sieci neuronowych, takich jak LSTM, niniejszy dokument zmierzył go z kilkoma bardziej zaawansowanymi strukturami pamięci NTM. Osiągnęli dobre wyniki w tym samym typie zadań programistycznych, co Graves i in. przetestowane, ale nie sądzę, aby korzystały z tego samego zestawu danych (trudno jest stwierdzić na podstawie sposobu ich badania, na jakich zestawach danych działały). 4
• Na str. 8 z tego badania , NTM wyraźnie przewyższa kilka schematów LSTM, feed-forward i opartych na najbliższym sąsiedztwie w zestawie danych rozpoznawania znaków Omniglot. Alternatywne podejście do zewnętrznej pamięci opracowanej przez autorów wyraźnie ją bije, ale nadal oczywiście działa dobrze. Autorzy wydają się należeć do konkurencyjnego zespołu Google, więc może to stanowić problem przy ocenie powtarzalności. 5
• Na str. 2 autorzy ci donieśli o lepszym uogólnieniu „bardzo dużych sekwencji” w teście zadań kopiowania, używając znacznie mniejszej sieci NTM, którą ewoluowali przy pomocy algorytmu genetycznego NEAT, który dynamicznie rozwija topologie. 6
NTM są dość nowe, więc, jak sądzę, nie było dużo czasu na dokładne odtworzenie oryginalnych badań. Jednak garść artykułów, które przeglądałam latem, wydaje się wspierać ich eksperymentalne wyniki; Nie widziałem jeszcze żadnych, które zgłaszałyby coś oprócz doskonałej wydajności. Oczywiście mam tendencję do dostępności, ponieważ czytam tylko pliki PDF, które z łatwością mogę znaleźć w nieostrożnym wyszukiwaniu w Internecie. Z tej niewielkiej próbki wydaje się, że większość dalszych badań koncentrowała się na rozszerzeniu koncepcji, a nie na replikacji, co tłumaczyłoby brak danych dotyczących replikacji. Mam nadzieję że to pomogło.
1 Graves, Alex; Wayne, Greg i Danihelka, Ivo, 2014, „Neural Turing Machines”, opublikowano 10 grudnia 2014 r.
2 Gulcehre, Caglar; Chandar, Sarath; Choy, Kyunghyun i Bengio, Yoshua, 2016, „Dynamic Neural Turing machine with Soft and Hard Addressing Schemes”, opublikowany 30 czerwca 2016 r.
3 Zaremba, Wojciech i Sutskever, Ilya, 2015, „Reinforcement Learning Neural Turing Machines”, opublikowany 4 maja 2015 r.
4 Zhang; Wei; Yu, Yang i Zhou, Bowen, 2015, „Structured Memory for Neural Turing Machines”, opublikowano 25 października 2015 r.
5 Santoro, Adam; Bartunow, Siergiej; Botvinick, Matthew; Wierstra, Daan i Lillicrap, Timothy, 2016, „One-Shot Learning with Augmented Neural Networks”, opublikowany 19 maja 2016 r.
6 Boll Greve, Rasmus; Jacobsen, Emil Juul i Sebastian Risi, data nieznana, „Evolving Neural Turing Machines”. Brak wydawcy na liście
Wszyscy z wyjątkiem (być może) Boll Greve i in. zostały opublikowane w Cornell Univeristy Library arXiv.org Repository: Ithaca, New York.