Powszechnym podejściem do klasyfikacji tekstu jest wyszkolenie klasyfikatora z „worka słów”. Użytkownik bierze tekst do sklasyfikowania i zlicza częstotliwości słów w każdym obiekcie, po czym następuje pewnego rodzaju przycinanie, aby zachować wynikową macierz o możliwym do zarządzania rozmiarze.
Często widzę, jak użytkownicy konstruują wektor cech za pomocą TFIDF. Innymi słowy, częstotliwości tekstu wspomniane powyżej są obniżone przez częstotliwość słów w korpusie. Rozumiem, dlaczego TFIDF byłby użyteczny do wybierania „najbardziej wyróżniających” słów danego dokumentu do, powiedzmy, wyświetlenia dla ludzkiego analityka. Ale w przypadku kategoryzacji tekstu przy użyciu standardowych nadzorowanych technik ML, po co zawracać sobie głowę zmniejszaniem wagi przez częstotliwość dokumentów w korpusie? Czy sam uczeń nie będzie decydował o znaczeniu przypisywanym każdemu słowu / kombinacji słów? Byłbym wdzięczny za twoje przemyślenia na temat wartości, jaką dodaje IDF, jeśli w ogóle.