Dynamiczne dostosowywanie architektury NN: wymyślanie niepotrzebnego?


9

Zaczynam od podróży doktorskiej, a ostatecznym celem, jaki sobie wyznaczyłem, jest opracowanie ANN, które monitorowałyby środowisko, w którym pracują, i dynamicznie dostosowywały swoją architekturę do problemu. Oczywistą konsekwencją jest czasowość danych: jeśli zbiór danych nie jest ciągły i nie zmienia się z czasem, po co w ogóle się dostosowywać?

Najważniejsze pytanie brzmi: czy w związku z niedawnym wzrostem głębokiego uczenia się jest to nadal istotny temat? Czy FFNN mają szansę znaleźć niszę w problemach związanych ze znoszeniem koncepcji?

Boję się przeciążać wątek zbyt wieloma pytaniami, ale to nie jest całkowicie nie na temat: znam RNN, ale mam ograniczone (ok, żadne lub czysto teoretyczne) doświadczenie z nimi; Uważam, że dynamiczne dostosowanie architektury musi być istotnym tematem w kontekście RNN. Pytanie brzmi: czy już na nie odpowiedziano i czy będę wymyślał koło na nowo?

PS Przesłano do MetaOptimize


Kiedy mówisz „dostosuj ich architekturę”, masz na myśli parametry (wagi, odchylenia) lub aktualizację faktycznej struktury sieci (ukryte węzły, funkcja aktywacji, łączność itp.)? Ponadto w wielu aplikacjach do głębokiego uczenia wynik końcowy JEST siecią neuronową z przekazywaniem danych, tylko jedną z wagami zainicjowanymi przez jakiś nienadzorowany proces.
alt

@alto, odnoszę się do faktycznej struktury NN - liczby ukrytych jednostek i (ewentualnie) warstw - jestem pewien, że można ją wdrożyć na różnych poziomach złożoności. Czuję, że muszę zacząć czytać o głębokim uczeniu się, jeśli w ogóle mam dostać się gdziekolwiek.
anna-earwen

@ anna-earwen ciekawy temat doktora, jak leci, jakieś publikacje?
Dikran Torbacz

1
@Dikran Marsupial, wkrótce udam się na IJCNN 2014, aby porozmawiać o tym, jak i dlaczego PSO nie trenuje wysokowymiarowych NN. Tak więc odpowiedź brzmi „tak” i wiem: wybrałem duży obrót z oryginalnego wektora badawczego i zastanawiam się, czy nadal wrócę do regulowanych architektur. Tylko czas i wyniki empiryczne pokażą!
anna-earwen

Poszukam tego w trakcie postępowania - zrozumienie, dlaczego rzeczy nie działają, jest czymś, czego nauka potrzebuje więcej (i solidnych badań empirycznych).
Dikran Torbacz

Odpowiedzi:


6

Sieci neuronowe kaskadowo-korelacyjne dostosowują swoją strukturę, dodając ukryte węzły podczas procesu szkolenia, więc może to być miejsce, od którego można zacząć. Większość innych prac, które widziałem, które automatycznie dostosowują liczbę warstw, liczbę ukrytych węzłów itp. Sieci neuronowej, wykorzystują algorytmy ewolucyjne.

Niestety, ta praca jest poza moim obszarem, więc nie mogę polecić żadnych konkretnych artykułów ani referencji, które mogłyby pomóc w rozpoczęciu pracy. Mogę powiedzieć, że nie widziałem żadnej pracy, która próbowałaby wspólnie optymalizować strukturę sieci i parametry jednocześnie w społeczności zajmującej się głębokim uczeniem się. W rzeczywistości większość architektur głębokiego uczenia opiera się na chciwym uczeniu się pojedynczej warstwy na raz, dzięki czemu nawet uczenie się przez Internet głębokich sieci neuronowych jest raczej nietkniętym obszarem (praca Martensa i in. Nad Hessian Free Optimization jest godnym uwagi wyjątkiem).


Wielkie dzięki, już dałeś mi wystarczająco dużo informacji, aby zacząć kopać złoto. :)
Anna-Earwen

2

Innym powodem do rozważenia opracowania nowatorskich podejść do konstruktywnych sieci neuronowych (takich jak wspomniany algorytm CC @alto) jest zastosowanie poza statystykami . W szczególności w teoretycznej neuronauce i kognitywistyce często wykorzystuje się konstruktywne sieci neuronowe ze względu na metaforyczne podobieństwo do rozwoju i neurogenezy. Aby zobaczyć przykład częstego wykorzystania kaskadowo-korelacji, spójrz na publikacje Thomasa R. Shultza . Niestety, podejście do korelacji kaskadowej jest biologicznie nierealne i jeśli masz zakręt neuronauki, warto zastanowić się, w jaki sposób nowe NN z regulowaną architekturą mogłyby być wykorzystane jako lepsze modele rozwoju i / lub neurogenezy.


1
Dzięki, Artem! W rzeczywistości jestem bardziej czystym informatykiem niż kimkolwiek innym, dlatego moja wiedza na temat neuro- i intuicyjnej nauki jest bardzo niska. Brzmi ekscytująco, a ponieważ wszystkie drogi są nadal otwarte, mógłbym się w to zagłębić - przynajmniej do pewnego stopnia. W tej chwili szczególnie interesują mnie zastosowania w rzeczywistych problemach inżynieryjnych i analizach danych, które mogą być przydatne do testów porównawczych.
anna-earwen
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.