Czy Jürgen Schmidhuber wprowadził generatywne sieci przeciwników?


32

Czytam na https://en.wikipedia.org/wiki/Generative_adversarial_networks :

[Generatywne sieci przeciwników] zostały wprowadzone przez Iana Goodfellow i in. W 2014 r.

ale Jurgen Schmidhuber twierdzi, że wcześniej wykonał podobną pracę w tym kierunku (np. podczas NIPS 2016 odbyła się debata podczas samouczka generatywnych sieci przeciwników: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Konferencja / Neural-Information-Processing-Systems-Conference-NIPS-2016 / Generative-Adversarial-Networks patrz 1h03min).

Czy pomysł generatywnych sieci przeciwników został po raz pierwszy publicznie przedstawiony przez Jürgena Schmidhubera? Jeśli nie, w jakim stopniu pomysły Jürgena Schmidhubera były podobne?


5
Odpowiednia dyskusja na temat reddit tutaj , szczególnie ten komentarz .
Dougal

Krótkie podsumowanie incydentu z NIPS można przeczytać tutaj: beamandrew.github.io/deeplearning/2016/12/12/nips-2016.html
mówi Przywróć Monikę

1
Sekcja historii na stronie Wikipedii została zaktualizowana i myślę, że teraz zawiera wszystkie odnośniki i ich powiązania. Myślę, że teraz jest to całkiem uczciwe i kompletne.
Albert

@Albert dzięki za aktualizację!
Franck Dernoncourt

Odpowiedzi:


50

Sam opublikowałem podstawową ideę deterministycznej różnorodności generatywnych sieci przeciwników (GAN) w blogu z 2010 r. (Archive.org) . Szukałem, ale nigdzie nie mogłem znaleźć czegoś podobnego i nie miałem czasu, aby spróbować go wdrożyć. Nie byłem i nadal nie jestem badaczem sieci neuronowej i nie mam żadnych powiązań w tej dziedzinie. Skopiuję i wkleję post na blogu tutaj:

24.02.2010

Metoda szkolenia sztucznych sieci neuronowych do generowania brakujących danych w kontekście zmiennej. Ponieważ pomysł jest trudny do sformułowania w jednym zdaniu, skorzystam z przykładu:

W obrazie mogą brakować pikseli (powiedzmy pod smugą). Jak przywrócić brakujące piksele, znając tylko piksele otaczające? Jednym z podejść byłaby sieć neuronowa „generatora”, która biorąc pod uwagę otaczające piksele jako źródło, generuje brakujące piksele.

Ale jak wytrenować taką sieć? Nie można oczekiwać, że sieć dokładnie wytworzy brakujące piksele. Wyobraź sobie na przykład, że brakujące dane to skrawek trawy. Można uczyć sieci z kilkoma zdjęciami trawników, z usuniętymi częściami. Nauczyciel zna brakujące dane i może ocenić sieć według różnicy pierwiastków kwadratowych (RMSD) między wygenerowanym kawałkiem trawy a oryginalnymi danymi. Problem polega na tym, że jeśli generator napotka obraz, który nie jest częścią zestawu treningowego, sieć neuronowa nie byłaby w stanie umieścić wszystkich liści, szczególnie na środku łaty, we właściwych miejscach. Najniższy błąd RMSD zostałby prawdopodobnie osiągnięty przez sieć wypełniającą środkowy obszar łatki jednolitym kolorem, który jest średnią koloru pikseli w typowych obrazach trawy. Gdyby sieć próbowała wygenerować trawę, która wyglądałaby przekonująco dla człowieka i jako taka spełniła swój cel, nałożono by niefortunną karę według miernika RMSD.

Mój pomysł jest taki (patrz rysunek poniżej): Trenuj jednocześnie z generatorem sieć klasyfikatora, która otrzymuje w losowej lub naprzemiennej kolejności wygenerowane i oryginalne dane. Następnie klasyfikator musi odgadnąć, w kontekście otaczającego kontekstu obrazu, czy dane wejściowe są oryginalne (1) czy wygenerowane (0). Sieć generatorów próbuje jednocześnie uzyskać wysoki wynik (1) od klasyfikatora. Mamy nadzieję, że wynikiem tego będzie to, że obie sieci zaczynają się naprawdę prosto, i postępują w kierunku generowania i rozpoznawania coraz bardziej zaawansowanych funkcji, zbliżając się i prawdopodobnie pokonując zdolność człowieka do rozróżnienia między wygenerowanymi danymi a oryginałem. Jeśli dla każdego wyniku branych jest pod uwagę wiele próbek treningowych, wówczas RMSD jest poprawną miarą błędu do użycia,

wprowadź opis zdjęcia tutaj
Konfiguracja szkolenia sztucznej sieci neuronowej

Kiedy na końcu wspominam o RMSD, mam na myśli metrykę błędu dla „oszacowania prawdopodobieństwa”, a nie wartości pikseli.

Pierwotnie zacząłem rozważać wykorzystanie sieci neuronowych w 2000 r. (Comp.dsp post) do generowania brakujących wysokich częstotliwości dla próbkowanego w górę (ponownie próbkowanego do wyższej częstotliwości próbkowania) dźwięku cyfrowego, w sposób, który byłby bardziej przekonujący niż dokładny. W 2001 roku zebrałem bibliotekę audio na szkolenie. Oto części dziennika EFNet #musicdsp Internet Relay Chat (IRC) z 20 stycznia 2006 r., W którym ja (yehar) rozmawiam o tym pomyśle z innym użytkownikiem (_Beta):

[22:18] <yehar> Problem z próbkami polega na tym, że jeśli nie masz już czegoś „tam”, to co możesz zrobić, jeśli próbujesz ...
[22:22] <yehar> Raz zebrałem duży biblioteka dźwięków, dzięki której mógłbym opracować „inteligentny” algo, aby rozwiązać dokładnie ten problem
[22:22] <yehar> użyłbym sieci neuronowych
[22:22] <yehar>, ale nie ukończyłem zadania: - D
[22:23] <_Beta> Problem z sieciami neuronowymi polega na tym, że musisz mieć jakiś sposób pomiaru dobroci wyników
[22:24] <yehar> beta: Mam pomysł, że możesz rozwinąć „słuchacza” na w tym samym czasie, gdy rozwijasz „inteligentnego twórcę dźwięku tam”
[22:26] <yehar> beta: i ten słuchacz nauczy się wykrywać, kiedy słucha utworzonego lub naturalnego górnego spektrum. a twórca rozwija się jednocześnie, próbując obejść to wykrycie

W latach 2006–2010 przyjaciel zaprosił eksperta, aby zapoznał się z moim pomysłem i omówił go ze mną. Myśleli, że to interesujące, ale powiedzieli, że nie jest opłacalne szkolenie dwóch sieci, gdy jedna sieć może wykonać zadanie. Nigdy nie byłem pewien, czy nie dostali podstawowej idei, czy też od razu dostrzegli sposób sformułowania jej jako pojedynczej sieci, być może z wąskim gardłem gdzieś w topologii, aby podzielić ją na dwie części. To było w czasie, gdy nawet nie wiedziałem, że propagowanie reklam jest nadal de facto metodą treningową (dowiedziałem się, że kręcenie filmów w szaleństwie Deep Dream z 2015 roku). Przez lata rozmawiałem o moim pomyśle z kilkoma naukowcami danych i innymi osobami, które moim zdaniem mogą być zainteresowane, ale odpowiedź była łagodna.

W maju 2017 r. Zobaczyłem prezentację samouczka Iana Goodfellowa na YouTube [Mirror] , która całkowicie sprawiła, że ​​mój dzień. Wydało mi się, że to ten sam podstawowy pomysł, z różnicami, które obecnie rozumiem, nakreślonymi poniżej, i ciężka praca została wykonana, aby dać dobre wyniki. Podał też teorię lub oparł wszystko na teorii, dlaczego powinna ona działać, podczas gdy ja nigdy nie przeprowadzałem żadnej formalnej analizy mojego pomysłu. Prezentacja Goodfellow odpowiadała na pytania, które miałem i wiele więcej.

GAN Goodfellow i jego sugerowane rozszerzenia zawierają źródło szumu w generatorze. Nigdy nie myślałem o włączeniu źródła szumu, ale zamiast tego mam kontekst danych szkoleniowych, lepiej dopasowując pomysł do warunkowego GAN (cGAN) bez wprowadzania wektora szumu i modelu uwarunkowanego na części danych. Moje obecne zrozumienie oparte na Mathieu i in. W 2016 r. Źródło hałasu nie jest potrzebne do uzyskania użytecznych wyników, jeśli istnieje wystarczająca zmienność wejściowa. Inną różnicą jest to, że GAN Goodfellow minimalizuje prawdopodobieństwo dziennika. Później wprowadzono GAN metodą najmniejszych kwadratów (LSGAN) ( Mao i in. 2017), który odpowiada mojej sugestii RMSD. Tak więc mój pomysł byłby zgodny z warunkową generatywną siecią przeciw najmniejszych kwadratów (cLSGAN) bez wejścia wektora szumu do generatora i z częścią danych jako wejście warunkowe. A generatywne próbki generatory ze zbliżania dystrybucji danych. Wiem teraz, czy mam wątpliwości, czy głośny wkład w świecie rzeczywistym umożliwiłby to dzięki mojemu pomysłowi, ale to nie znaczy, że wyniki nie byłyby przydatne, gdyby nie.

Różnice wymienione powyżej są głównym powodem, dla którego uważam, że Goodfellow nie wiedział ani nie słyszał o moim pomyśle. Innym jest to, że mój blog nie ma innych treści związanych z uczeniem maszynowym, więc miałby bardzo ograniczony zasięg w kręgach uczenia maszynowego.

Konflikt interesów polega na tym, że recenzent wywiera presję na autora, aby zacytował własną pracę recenzenta.


8
Muszę powiedzieć, że jestem pod wielkim wrażeniem. Wygląda na to, że Twój post na blogu również zasługuje na uznanie za ten pomysł, mimo że Ian i zespół mogli go odkryć niezależnie.
user2808118,

2
Gdybyś opublikował swoją pracę, mógłbyś stać się osobą, która zainspirowała rewolucję przeciwnika. ŁAPANIE TCHU!!
user2808118

5
@ user2808118 To wymagałoby pracy nad tym, aby uzyskać pewne wyniki do opublikowania, a nie tylko o tym myśleć.
Olli Niemitalo

4
Pozdrawiam cię dwa razy: po pierwsze za odkrycie go co najmniej 3 lata przed Goodfellowem, a po drugie za to, że ma wielkie serce, by przyjąć go bardzo pozytywnie.
Failed Scientist

19

Odpowiedź Iana Goodfellow na temat: Czy Jürgen Schmidhuber miał rację, kiedy ubiegał się o kredyt na GAN na NIPS 2016? opublikowano 21.03.2017:

Dokładnie nie domaga się kredytu za GAN. To jest bardziej skomplikowane.

Możesz zobaczyć, co napisał własnymi słowami, gdy był recenzentem przesłania NIPS 2014 na temat GAN: recenzje eksportowe, dyskusje, opinie autorów i meta-recenzje ( lustro )

Jest recenzentem, który poprosił nas o zmianę nazwy GAN na „odwrotny PM”.

Oto artykuł, który jego zdaniem nie został dostatecznie potwierdzony: http: // ftp: //ftp.idsia.ch/pub/juergen/factorial.pdf ( mirror )

Nie podoba mi się, że nie ma dobrego sposobu na rozstrzygnięcie takich spraw. Skontaktowałem się z organizatorami NIPS i zapytałem, czy istnieje sposób, aby Jürgen mógł złożyć skargę na mój temat i poprosić komitet przedstawicieli NIPS, aby ocenił, czy moja publikacja traktuje jego niesprawiedliwie. Powiedzieli, że nie ma takiego procesu.

Osobiście nie sądzę, aby istniał jakikolwiek istotny związek między minimalizacją przewidywalności a GAN. Nigdy nie miałem problemu z potwierdzeniem połączeń między GAN i innymi algorytmami, które są ze sobą powiązane, takie jak estymacja kontrastowa szumów i samonadzorowane wzmocnienie.

Jürgen i ja zamierzamy wkrótce wspólnie napisać artykuł opisujący podobieństwa i różnice między PM a GAN, zakładając, że jesteśmy w stanie uzgodnić, co to jest.


2
Niestety wydaje się, że nie ma papieru między tymi dwoma nadchodzącymi. :-(
ComputerScientist

@ComputerSciencesist wciąż czeka, ktoś inny mógłby się tym zająć inaczej :-)
Franck Dernoncourt
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.