Jakiej funkcji straty należy użyć, aby ocenić model RNN o sekwencji 2?

Pracuję nad dokumentem Cho 2014, który wprowadził architekturę kodera-dekodera do modelowania seq2seq.

W pracy wydaje się, że wykorzystują one prawdopodobieństwo wyjścia podanego wejścia (lub jego logarytmiczne prawdopodobieństwo) jako funkcję straty dla wejścia o długości i wyjścia o długości : $x$ $M$ $y$ $N$

$P(y_1, …, y_N | x_1, …, x_M) = P(y_1 | x_1, …, x_m) P(y_2 | y_1, x_1, …, x_m) \dots P(y_N | y_1, …, y_N-1, x_1, …, x_m)$

Myślę jednak, że widzę kilka problemów z używaniem tego jako funkcji utraty:

Wydaje się zakładać, że nauczyciel wymusza na szkoleniu (tj. Zamiast wykorzystywać przypuszczenie dekodera dla pozycji jako danych wejściowych do następnej iteracji, używa znanego tokena.
Nie penalizowałoby długich sekwencji. Ponieważ prawdopodobieństwo wynosi od $1$ do $N$ wyjścia, jeśli dekoder wygenerowałby dłuższą sekwencję, wszystko po pierwszym $N$ nie uwzględniałoby straty.
Jeśli model przewiduje wczesny token końca łańcucha, funkcja straty nadal wymaga $N$ kroków - co oznacza, że generujemy dane wyjściowe w oparciu o nieprzeszkolony „rozmaitość” modeli. To wydaje się niechlujne.

Czy którykolwiek z tych problemów jest ważny? Jeśli tak, to czy nastąpił postęp w bardziej zaawansowanej funkcji strat?

deep-learning loss-functions rnn

— użytkownik3243135
źródło

Wydaje się zakładać, że nauczyciel wymusza na szkoleniu (tj. Zamiast wykorzystywać przypuszczenie dekodera dla pozycji jako danych wejściowych do następnej iteracji, używa znanego tokena.

Pojęcie „zmuszanie nauczyciela” trochę mnie niepokoi, ponieważ w pewnym sensie pomija się pomysł: nie ma nic złego ani dziwnego w podawaniu następnego znanego tokena do modelu RNN - to dosłownie jedyny sposób na obliczenie . Jeśli autoregresyjnie zdefiniujesz rozkład w sekwencjach jako jak to zwykle się dzieje, gdzie każdy warunek warunkowy jest modelowany za pomocą RNN, wówczas „wymuszanie nauczyciela” jest prawdziwe procedura, która poprawnie maksymalizuje prawdopodobieństwo dziennika. (Pomijam pisanie sekwencji warunkowej powyżej, ponieważ nic to nie zmienia). $\log P(y_1, \ldots, y_N)$ $P(y) = \prod_i P(y_i | y_{<i})$ $x$

Biorąc pod uwagę wszechobecność MLE i brak dobrych alternatyw, nie sądzę, aby zakładanie „zmuszania nauczycieli” było budzące zastrzeżenia.

Niemniej jednak istnieją z tym pewne problemy - mianowicie model przypisuje wysokie prawdopodobieństwo wszystkim punktom danych, ale próbki z modelu niekoniecznie są prawdopodobne w prawdziwym rozkładzie danych (co skutkuje próbkami „niskiej jakości”). Możesz być zainteresowany „Profesorem Forcing” (Lamb i wsp.), Który łagodzi to poprzez przeciwstawną procedurę treningową bez rezygnacji z MLE.

Nie penalizowałoby długich sekwencji. Ponieważ prawdopodobieństwo wynosi od 1 do N wyjścia, jeśli dekoder wygenerowałby dłuższą sekwencję, wszystko po pierwszym N nie uwzględniałoby straty.

Jeśli model przewiduje wczesny token końca łańcucha, funkcja straty nadal wymaga N kroków - co oznacza, że generujemy dane wyjściowe w oparciu o nieprzeszkolony „rozmaitość” modeli. To wydaje się niechlujne.

Żaden z tych problemów nie występuje podczas treningu. Zamiast myśleć o autoregresyjnym modelu sekwencji jako procedurze generowania prognozy, pomyśl o tym jako o sposobie obliczenia prawdopodobieństwa danej sekwencji. Model nigdy niczego nie przewiduje - możesz próbkować sekwencję lub token z rozkładu lub możesz zapytać, jaki jest najbardziej prawdopodobny następny token - ale są one zasadniczo różne od prognozy (i nie próbujesz podczas treningu zarówno).

Jeśli tak, to czy nastąpił postęp w bardziej zaawansowanej funkcji strat?

Mogą istnieć cele specjalnie zaprojektowane dla poszczególnych zadań dla różnych zadań modelowania. Powiedziałbym jednak, że MLE wciąż dominuje - został z nim wyszkolony najnowszy model GPT2, który osiągnął najnowszą wydajność w szerokim spektrum modelowania języka naturalnego i zadań związanych z rozumieniem.

— shimao
źródło