Czy modułowe sieci neuronowe są bardziej wydajne niż duże monolityczne sieci przy dowolnych zadaniach?

16

Modułowe / Wiele sieci neuronowych (MNN) obraca się wokół szkolenia mniejszych, niezależnych sieci, które mogą się wzajemnie łączyć lub innej wyższej sieci.

Zasadniczo organizacja hierarchiczna może pozwolić nam zrozumieć bardziej złożone przestrzenie problemowe i osiągnąć wyższą funkcjonalność, ale wydaje się, że trudno znaleźć przykłady konkretnych badań przeprowadzonych w przeszłości w tym zakresie. Znalazłem kilka źródeł:

https://en.wikipedia.org/wiki/Modular_neural_network

https://www.teco.edu/~albrecht/neuro/html/node32.html

https://vtechworks.lib.vt.edu/bitstream/handle/10919/27998/etd.pdf?sequence=1&isAllowed=y

Mam kilka konkretnych pytań:

Czy były jakieś ostatnie badania nad wykorzystaniem MNN?
Czy są jakieś zadania, w których sieci MNN wykazały lepszą wydajność niż duże pojedyncze sieci?
Czy można zastosować MNN do klasyfikacji multimodalnej, tj. Trenować każdą sieć na zasadniczo innym typie danych (tekst kontra obraz) i przekazywać informacje do pośrednika wyższego poziomu, który działa na wszystkich wyjściach?
Czy z punktu widzenia inżynierii oprogramowania nie są one bardziej odporne na uszkodzenia i łatwo można je odizolować w systemie rozproszonym?
Czy były prace nad dynamicznym dostosowaniem topologii podsieci przy użyciu procesu takiego jak Wyszukiwanie architektury neuronowej?
Ogólnie, czy MNN są w jakiś sposób praktyczne?

Przepraszam, jeśli te pytania wydają się naiwne, dopiero co przyszedłem do ML i szerzej CS z biologii / neurologii i jestem zauroczony potencjalną grą.

Naprawdę doceniam, że poświęcasz czas i dajesz wgląd!

— Surowa Sikka
źródło

Myślałem o wdrożeniu takiego modułowego systemu, aby poprawić wydajność i odfiltrować - zdecydowanie - niepotrzebne zależności od danych wejściowych. Myślałem, że to chwila eureki, ale nie wiedziałem, że to już ustalona struktura.

— Tobi

2

Rzeczywiście trwa postępowanie wyjaśniające dotyczące tego tematu. W pierwszej publikacji z ostatniego marca zauważono, że modularność została wykonana, chociaż nie jest to jednoznaczne, od pewnego czasu, ale w jakiś sposób trening nadal jest monolityczny. W tym artykule oceniono niektóre podstawowe pytania na ten temat oraz porównano czas szkolenia i wyniki w modułowych i silnie nawracających sieciach neuronowych. Widzieć:

Castillo-Bolado i in. Modułowość jako sposób zarządzania złożonością w uczeniu się sieci neuronowych

Niektóre inne są bardzo skoncentrowane na modułowości, ale pozostają z treningiem monolitycznym (patrz badania Jacoba Andrei , szczególnie Nauka rozumowania jest bardzo związana z twoim trzecim pytaniem). Gdzieś między końcem 2019 r. A marcem przyszłego roku powinno być więcej wyników (wiem, że wiem).

W związku z Twoimi dwoma ostatnimi pytaniami zaczynamy teraz widzieć, że modułowość jest głównym kluczem do uogólnienia. Pozwól, że polecę ci kilka artykułów (wszystkie znajdziesz w arxiv lub google scholar):

Stochastyczna adaptacyjna architektura neuronowa Wyszukaj wykrywanie słów kluczowych (warianty architektury w celu zrównoważenia wydajności i wykorzystania zasobów).
Dokonywanie generalizacji architektur programowania neuronowego poprzez rekurencję (wykonują zadania submodularne i uważam, że po raz pierwszy uogólnienie jest gwarantowane w dziedzinie sieci neuronowych).
Opanowanie gry Go z głębokimi sieciami neuronowymi i wyszukiwaniem drzew (topologia sieci to tak naprawdę samo drzewo wyszukiwania, możesz zobaczyć więcej tego, jeśli szukasz sieci neuronowych z grafem).

— David
źródło

1

Porównanie porównawcze systemów składających się z osobno wyszkolonych sieci w stosunku do pojedynczych głębszych sieci prawdopodobnie nie ujawniłoby najlepszego wyboru powszechnie stosowanego.¹ W literaturze widzimy wzrost liczby większych systemów, w których połączonych jest kilka sztucznych sieci wraz z innymi rodzajami komponentów. Należy się tego spodziewać. Modularyzacja wraz ze wzrostem złożoności systemów i wzrostem wymagań dotyczących wydajności i możliwości jest tak stara jak industrializacja.

Nasze laboratorium pracuje z robotycznym sterowaniem, oprzyrządowaniem termodynamicznym i analizą danych, sztuczne sieci są elementami w tych większych kontekstach systemowych. nie mamy pojedynczych MLP ani RNN, które same w sobie pełnią jakąkolwiek przydatną funkcję.

W przeciwieństwie do przypuszczeń dotyczących hierarchii sprzed dziesięcioleci, podejście topologiczne, które wydaje się działać dobrze w większości przypadków, jest zgodne z bardziej powszechnymi relacjami modułów systemowych, które są widoczne w elektrowniach, automatycznych fabrykach, aeronautyce, architekturze informacji o przedsiębiorstwie i innych złożonych projektach inżynierskich. Połączenia dotyczą przepływu, a jeśli są dobrze zaprojektowane, funkcje nadzorcze są minimalne. Przepływ występuje między modułami obejmującymi protokoły komunikacyjne, a każdy moduł dobrze spełnia swoją funkcję, obejmując niższy poziom złożoności i szczegółów funkcjonalnych. To nie jedna sieć nadzorująca drugą wydaje się najbardziej skuteczna w praktyce, ale równowaga i symbioza. Identyfikacja wyraźnego projektu master-slave w ludzkim mózgu wydaje się równie śliska.

Wyzwaniem nie jest znalezienie ścieżek informacyjnych, które składają się na topologię informacji o systemie. Przepływ informacji jest często oczywisty po analizie problemu. Trudność polega na znalezieniu najlepszych strategii szkolenia tych niezależnych sieci. Zależności od treningu są powszechne i często krytyczne, podczas gdy u zwierząt szkolenie odbywa się na miejscu lub wcale. Odkrywamy warunki, w których tego rodzaju nauka w naszych systemach jest praktyczna i jak to osiągnąć. Większość naszych badań zgodnych z tymi założeniami ma na celu odkrycie sposobów osiągnięcia wyższej niezawodności i zmniejszenia obciążenia pod względem godzin badań, aby je zdobyć.

Wyższa funkcjonalność nie zawsze przynosi korzyści. Często zapewnia niższą niezawodność i zużywa dodatkowe zasoby programistyczne przy niewielkim zwrocie. Znajdź sposób na połączenie automatyzacji wyższego poziomu, oszczędności zasobów i niezawodności w jeden proces rozwoju, a możesz wygrać nagrodę i wyróżnienie w Internecie.

Systemy równoległe, które mają ten sam cel, to dobry pomysł, ale nie nowy. W jednym systemie lotniczym dziewięć równoległych systemów ma ten sam cel, w grupach po trzy. Każda grupa stosuje inne podejście komputerowe. Jeśli dwa systemy wykorzystujące to samo podejście zapewniają tę samą moc wyjściową, a trzeci różni się, stosowane jest pasujące wyjście, a różnica w trzecim jest zgłaszana jako awaria systemu. Jeśli dwa z różnych podejść dają podobne wyniki, a trzeci różni się zasadniczo, stosuje się połączenie dwóch podobnych wyników, a trzeci podaje się jako przypadek użycia w celu dalszego rozwinięcia odrębnego podejścia.

Zwiększona odporność na uszkodzenia ma koszt, osiem dodatkowych systemów i związane z nimi zasoby obliczeniowe i łączność plus komparatory na ogonie, ale w systemach, które są kwestią życia i śmierci, dodatkowe koszty są płacone, a niezawodność jest zmaksymalizowana.

Dynamiczna adaptacja topologiczna jest związana z nadmiarowymi systemami i odpornością na uszkodzenia, ale pod pewnymi względami jest dość wyraźna. W tym obszarze rozwoju następującą technologią jest przetwarzanie neuromorficzne, częściowo inspirowane neuroplastycznością.

Ostatnią różnicą do rozważenia jest topologia procesu, topologia danych i topologia sprzętowa. Te trzy geometryczne ramki mogą generować razem większą wydajność, jeśli zostaną wyrównane w określony sposób, co spowoduje bardziej bezpośrednie odwzorowania między relacjami między przepływem, reprezentacją i mechaniką. Są to jednak różne topologie. Znaczenie wyrównania może nie być oczywiste bez głębokiego zanurzenia się w te koncepcje i szczegóły, które pojawiają się w przypadku konkretnych celów dotyczących produktu lub usługi.

Przypisy

[1] Głębokie sieci, które są szkolone jako jedna jednostka i działają bez połączenia z innymi sztucznymi sieciami, niekoniecznie są monolityczne. Większość praktycznych głębokich sieci ma niejednorodną sekwencję warstw pod względem funkcji aktywacyjnych i często typów komórek.

— Douglas Daseeco
źródło