Pracuję nad aplikacją, która wymaga utworzenia bardzo dużej bazy danych n-gramów, która istnieje w dużym korpusie tekstowym.
Potrzebuję trzech wydajnych typów operacji: wyszukiwanie i wstawianie indeksowane przez sam n-gram oraz sprawdzanie wszystkich n-gramów zawierających sub-n-gram.
Wydaje mi się, że baza danych powinna być gigantycznym drzewem dokumentów, a bazy danych dokumentów, np. Mongo, powinny być w stanie dobrze wykonać zadanie, ale nigdy nie korzystałem z nich na dużą skalę.
Znając format pytania stosu wymiany, chciałbym wyjaśnić, że nie pytam o sugestie dotyczące konkretnych technologii, ale raczej rodzaj bazy danych, której powinienem szukać, aby zaimplementować coś takiego na dużą skalę.