Tradycyjne podejście do konstruowania obiektów do eksploracji tekstu jest oparte na zasadzie work-of-words i można je ulepszyć za pomocą tf-idf do konfigurowania wektora cech charakteryzującego dany dokument tekstowy. Obecnie próbuję użyć bi-gramowego modelu językowego lub (N-gram) do budowy wektora cech, ale nie bardzo wiesz, jak to zrobić? Czy możemy postępować zgodnie z podejściem work-of-words, tj. Obliczać liczbę częstotliwości w kategoriach bi-gram zamiast słów i ulepszać ją za pomocą schematu ważenia tf-idf?