W przypadku zadania przetwarzania języka naturalnego (NLP) często wykorzystuje się wektory word2vec jako osadzenie słów. Jednak może istnieć wiele nieznanych słów, które nie są przechwytywane przez wektory word2vec po prostu dlatego, że słowa te nie są wystarczająco często widoczne w danych szkoleniowych (wiele implementacji używa minimalnej liczby przed dodaniem słowa do słownika). Może tak być szczególnie w przypadku tekstu z np. Twittera, gdzie słowa są często błędnie napisane.
Jak należy traktować takie nieznane słowa podczas modelowania zadania NLP, takiego jak przewidywanie nastrojów przy użyciu sieci krótkoterminowej (LSTM)? Widzę dwie opcje:
- Dodawanie tokenu „nieznane słowo” do słownika word2vec.
- Usunięcie tych nieznanych słów w taki sposób, że LSTM nawet nie wie, że słowo było w zdaniu.
Jaki jest preferowany sposób radzenia sobie z tymi słowami?