Jakich swobodnie dostępnych zestawów danych mogę użyć do szkolenia klasyfikatora tekstu?
Staramy się zwiększyć zaangażowanie użytkowników, polecając mu najbardziej powiązane treści, więc pomyśleliśmy, że jeśli sklasyfikujemy nasze treści w oparciu o predefiniowany zestaw słów, możemy polecić mu angażujące treści, uzyskując jego opinie na temat losowej liczby postów już sklasyfikowanych przed.
Możemy użyć tych informacji, aby polecić mu puls oznaczony tymi klasami. Ale stwierdziliśmy, że jeśli użyjemy predefiniowanego zestawu słów niezwiązanych z naszą treścią, wektor funkcji będzie pełen zer, również kategorie mogą nie mieć związku z naszą treścią. z tych powodów wypróbowaliśmy inne rozwiązanie, które grupuje nasze treści, nie klasyfikując ich.
Dzięki :)