Zainspirowany tym pytaniem zastanawiam się, czy nie wykonano żadnej pracy nad modelami tematycznymi dla dużych kolekcji niezwykle krótkich tekstów. Moją intuicją jest to, że Twitter powinien być naturalną inspiracją dla takich modeli. Jednak z niektórych ograniczonych eksperymentów wygląda na to, że standardowe modele tematyczne (LDA itp.) Działają dość słabo na tego rodzaju danych.
Czy ktoś tam wie o pracy wykonanej w tym obszarze? Ten artykuł mówi o zastosowaniu LDA do Twittera, ale naprawdę interesuje mnie, czy istnieją inne algorytmy, które działają lepiej w kontekście krótkiego dokumentu.