Czy sieci neuronowe są podatne na katastrofalne zapominanie?


37

Wyobraź sobie, że 100 razy pokazujesz sieci neuronowej zdjęcie lwa i oznaczysz je słowem „niebezpieczne”, dzięki czemu dowiadujesz się, że lwy są niebezpieczne.

Teraz wyobraź sobie, że wcześniej pokazałeś mu miliony zdjęć lwów i alternatywnie oznaczyłeś je jako „niebezpieczne” i „nie niebezpieczne”, tak że prawdopodobieństwo, że lew będzie niebezpieczny, wynosi 50%.

Ale te ostatnie 100 razy sprawiły, że sieć neuronowa bardzo pozytywnie oceniła lwa jako „niebezpiecznego”, ignorując w ten sposób ostatni milion lekcji.

Dlatego wydaje się, że istnieje wada w sieciach neuronowych, polegająca na tym, że mogą zbyt szybko zmienić zdanie w oparciu o najnowsze dowody. Zwłaszcza jeśli poprzednie dowody były w środku.

Czy istnieje model sieci neuronowej, który śledzi, ile dowodów widział? (Czy byłoby to równoznaczne z obniżeniem współczynnika uczenia się o gdzie jest liczbą prób?)1/TT


Mówię o nadzorowanym uczeniu się, w którym użytkownik mówi NN, że lew jest niebezpieczny.
zooby

Jednak to zdarza się także ludziom. To naprawdę przerażające, jak łatwo można „oduczyć się”, że coś jest niebezpieczne po zrobieniu tego kilka razy bez konsekwencji, co jest mniej więcej równe scenariuszowi opisanemu przez AI.
Tomáš Zato

2
Oznaczone jako zbyt szerokie. Jest to zbyt zależne od tego, jakie techniki rozpoznawania są używane przez sieć. Oczywiście w niektórych przypadkach sieć „zapomni”, ale w innych nie. Powinno być bardzo jasne, że wszelkie odpowiedzi na to pytanie powinny zaczynać się i kończyć na „Zależy”.
8protons

3
Szczerze mówiąc, jest to jedna z tych ofert typu „wybierz truciznę”. NN, który faworyzuje ostatnie doświadczenia nad historycznymi, jest skłonny do ignorowania przeszłości, ale jest w stanie reagować na ostatnie wydarzenia. Załóżmy na przykład, że wszystkie lwy nagle zmieniają się w człowieka z dnia na dzień, wtedy twoja NN, która faworyzuje ostatnie doświadczenia, będzie znacznie szybsza w wykrywaniu nowego zagrożenia, w przeciwieństwie do wolniejszej NN, która w zasadzie mówi: „lwy nie zawsze były niebezpieczne, ja wyciągnij wniosek, że nic nowego się nie dzieje „dopóki lwy nie będą w 100% niebezpieczne dłużej, niż byś chciał (i wiele ludzkich śmierci później)
Flater,

1
Również AGI miałoby odpowiednią wagę błędów - dwa błędy nie są równie złe w wyniku.
MSalters

Odpowiedzi:


38

Tak, w rzeczywistości sieci neuronowe są bardzo podatne na katastrofalne zapominanie (lub interferencję) . Obecnie problem ten jest często ignorowany, ponieważ sieci neuronowe są głównie szkolone offline (czasem nazywane treningiem wsadowym ), gdzie problem ten nie pojawia się często, a nie online lub narastająco , co ma zasadnicze znaczenie dla rozwoju sztucznej inteligencji ogólnej .

Istnieją osoby, które pracują nad ciągłym uczeniem się przez całe życie w sieciach neuronowych, które próbują dostosować sieci neuronowe do ciągłego uczenia się przez całe życie, czyli zdolność modelu do ciągłego uczenia się na podstawie strumienia danych, tak aby nie zapomniały całkowicie wcześniej zdobytych wiedza podczas uczenia się nowych informacji. Zobacz na przykład artykuł Ciągłe uczenie się przez całe życie z sieciami neuronowymi: recenzja (2019), autorstwa niemieckiego I. Parisi, Ronalda Kemkera, Jose L. Parta, Christophera Kanana, Stefana Wermtera, który podsumowuje problemy i istniejące rozwiązania związane z katastrofą zapominanie o sieciach neuronowych.


1
Dzięki! Przeczytam ten artykuł, który sugerujesz.
zooby

7
Czy niesławna korupcja „Tay” Microsoftu na czacie była przykładem katastrofalnego zapominania?
Nie U

4
@TKK Myślę, że to byłoby dobre nowe pytanie na stronie!
nbro

2
@TKK Masz zamiar o to zapytać ? Jeśli nie, czy ktoś mógłby to zrobić? Naprawdę chcę znać odpowiedź.
wizzwizz4

2
Jestem prawie pewien, że wyrażenie „Niektórzy ludzie pracują nad ciągłym uczeniem się przez całe życie w sieciach neuronowych, które próbują przystosować sieci neuronowe do ciągłego uczenia się przez całe życie” zostało napisane przez sieć neuronową.
Moyli

16

Tak, problem zapominania o starszych przykładach treningowych jest charakterystyczny dla sieci neuronowych. Nie nazwałbym tego jednak „wadą”, ponieważ pomaga im to być bardziej adaptacyjnym i pozwala na ciekawe zastosowania, takie jak uczenie się transferu (jeśli sieć zbyt dobrze zapamiętała stare szkolenie, dokładne dostrojenie go do nowych danych byłoby bez znaczenia).

W praktyce to, co chcesz zrobić, to mieszać przykłady treningu dla niebezpiecznego i nie niebezpiecznego, aby nie widział jednej kategorii na początku i jednej na końcu.

Standardowa procedura treningowa działałaby w następujący sposób:

for e in epochs:
    shuffle dataset
    for x_batch, y_batch in dataset:
        train neural_network on x_batxh, y_batch

Pamiętaj, że losowanie w każdej epoce gwarantuje, że sieć nie zobaczy tych samych przykładów szkolenia w tej samej kolejności w każdej epoce i że klasy będą mieszane

Teraz, aby odpowiedzieć na twoje pytanie, tak, obniżenie współczynnika uczenia się sprawiłoby, że sieć byłaby mniej podatna na zapominanie o poprzednim szkoleniu, ale jak miałoby to działać w trybie innym niż online? Aby sieć się zbiegła, potrzebuje wielu epok szkolenia (tj. Wielokrotnego oglądania każdej próbki w zbiorze danych).


4

To, co opisujesz, może brzmieć jako celowy dostrojenie .

Istnieje fundamentalne założenie, które sprawia, że opadanie gradientu minibatch działa na problemy uczenia się: Zakłada się, że każda partia lub okno czasowe kolejnych partii tworzy przyzwoite przybliżenie prawdziwego globalnegogradient funkcji błędu w odniesieniu do dowolnej parametryzacji modelu. Jeśli sama powierzchnia błędu porusza się w dużym stopniu, udaremniłoby to cel opadania gradientu - ponieważ opadanie gradientu jest lokalnym algorytmem udoskonalania, wszystkie zakłady są wyłączone, gdy nagle zmienisz podstawowy rozkład. W przytoczonym przykładzie katastroficzne zapominanie wydaje się być następstwem „zapomnienia” punktów danych, które wcześniej widzieliśmy, i jest albo objawem zmiany rozkładu, albo niedostateczną reprezentacją danych niektórych ważnych zjawisk , tak, że rzadko spotyka się go ze względu na jego znaczenie.

Powtórka z uczenia się przez wzmocnienie jest istotną koncepcją, która dobrze przenosi się do tej dziedziny. Oto artykuł analizujący tę koncepcję w odniesieniu do katastrofalnego zapominania. Tak długo, jak próbkowanie reprezentuje prawdziwe gradienty wystarczająco dobrze (spójrz na równoważenie próbki treningowej w tym celu), a model ma wystarczającą liczbę parametrów, problem katastroficznego zapominania jest mało prawdopodobny. W losowo przetasowanych zestawach danych z zamiennikiem najbardziej prawdopodobne jest, że punkty danych danej klasy są tak rzadkie, że prawdopodobnie nie zostaną uwzględnione przez długi czas podczas treningu, skutecznie dostosowując model do innego problemu, aż do dopasowania próbki widać ponownie.


1

Aby odpowiedzieć na twoje pytanie, powiedziałbym: może w teorii, ale nie w praktyce.


Problem polega na tym, że rozważasz tylko trening chronologiczny / sekwencyjny.

Tylko raz użyłem takiej sekwencyjnej metody treningowej, która nazywa się treningiem online lub Online Machine Learning . To korzystało z biblioteki Wabpal Wabbit . Jest to funkcja tej biblioteki (a nie kwestia, którą rozważasz) chronologicznie dostosowująca się do danych wejściowych, którymi jest zasilana.

I nalegać : w przypadku tej biblioteki Woppal Wabbit, jest to cecha dostosować chronologicznie. Chodzi o to, że kiedy zaczniesz mówić mu tylko, że lwy są niebezpieczne, to odpowiednio się dostosowuje.


Ale we wszystkich innych przypadkach, od ćwiczeń na kursach, po zawody w kaggle, użyłem losowego podzbioru moich danych wejściowych jako zestawu treningowego. I to jest naprawdę kluczowe :

Jest to ważna część uczenia maszynowego, która nazywa się Cross Validation . Jest to sposób na oszacowanie, jak dobrze wyszkolona sieć neuronowa jest naprawdę.

Aby dobrze oszacować ważność swojej sieci neuronowej, bierzesz losowy podzbiór danych treningowych, krótko mówiąc, bierzesz około 80% swoich danych treningowych, a pozostałe 20% ocenia, jak często wyszkolona sieć neuronowa daje dobre prognozy.

Nie można też po prostu odejść bez weryfikacji krzyżowej, ponieważ istnieje potrzeba wykrycia przeszacowania (co jest kolejnym problemem).

Może ci się to wydawać potencjalnym problemem teoretycznym, ale zwykle twierdzę, że obecne metody walidacji krzyżowej sprawiają, że obawy są nieistotne.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.