Oto, czego się ostatnio nauczyłem.
Oczywiście, mówiąc o RNN generujących tekst, mówimy o modelach językowych RNN. Kiedy pyta o słowo / char oparte RNNs generacji tekstu, prosimy o słowo / char oparte na modelach językowych RNN (LM).
LM oparte na słowie wykazują wyższą dokładność i niższe koszty obliczeniowe niż LM oparte na znakach.
Ten spadek wydajności jest mało prawdopodobny z powodu trudności w przechwytywaniu dłuższej pamięci krótkoterminowej przez model poziomu znaków, ponieważ również sieci rekurencyjne o dłuższej pamięci krótkoterminowej (LSTM) działają lepiej z wprowadzaniem słów.
Wynika to z faktu, że LM oparte na znakach wymagają znacznie większej warstwy ukrytej, aby skutecznie modelować długoterminowe zależności, co oznacza wyższe koszty obliczeniowe.
Dlatego możemy to powiedzieć
jedną z podstawowych różnic między modelami poziomu słowa i poziomu znaków jest liczba parametrów, do których RNN ma dostęp podczas szkolenia i testu. Im mniejsza jest warstwa wejściowa i wyjściowa RNN, tym większa musi być w pełni połączona warstwa ukryta, co powoduje, że szkolenie modelu jest drogie.
Jednak RNN LM oparte na znakach lepiej modelują języki o bogatej morfologii, takie jak Finish, Turkish, Russian itp. Używanie RNN LM opartych na słowach do modelowania takich języków jest trudne, o ile to możliwe, i nie jest zalecane.
Powyższa analiza ma sens szczególnie, gdy spojrzysz na tekst wyjściowy wygenerowany przez RNN oparte na znakach:
Zaskoczeni inwestorzy nie zamierzali zbierać pieniędzy. Nie jestem firmą z czasem, gdy wszystko jest szybko interesujące, nie muszę wysiadać z tych samych programistów.
Podczas gdy prosty LM Maximum Likelihood oparty na znakach z 13-znakowym oknem zapewnia:
A kiedy zrobiła wiele solidnych cegieł. Układał je w stosy i tupał nogami. Lekarz zdiagnozował go nietoperzem. Dziewczyna i jej chłopak zaprosili ją.
Oczywiście wybrałem przykład (tak naprawdę większość przykładów ML LM wyglądało lepiej niż jakikolwiek tekst wygenerowany przez RNN, który przeczytałem do tej pory) i ten malutki ML LM został przeszkolony na prostszym korpusie, ale masz pomysł: bezpośrednie prawdopodobieństwo warunkowe generuje lepsze teksty niż znacznie bardziej złożony RNN oparty na znakach.
Oparte na znakach RNN LM mogą naśladować poprawne gramatycznie sekwencje dla szerokiej gamy języków, wymagają większej ukrytej warstwy i są obliczeniowo droższe, podczas gdy oparte na słowach LM RNN trenują szybciej i generują bardziej spójne teksty, a jednak nawet te wygenerowane teksty są dalekie od rzeczywistego sensu .