Planuję użyć klasyfikatora SVM (Scikit Line Support Vector Machine) do klasyfikacji tekstu na korpusie składającym się z 1 miliona oznakowanych dokumentów. Planuję zrobić, gdy użytkownik wpisze jakieś słowo kluczowe, klasyfikator najpierw sklasyfikuje je w kategorii, a następnie w dokumentach tej kategorii nastąpi kolejne zapytanie o wyszukiwanie informacji. Mam parę pytań:
- Jak potwierdzić, że klasyfikacja nie zajmie dużo czasu? Nie chcę, aby użytkownicy musieli spędzać czas, czekając na zakończenie klasyfikacji, aby uzyskać lepsze wyniki.
- Czy do tego celu nadaje się biblioteka scikit Pythona dla witryn / aplikacji internetowych?
- Czy ktoś wie, jak Amazon lub Flipkart przeprowadzają klasyfikację zapytań użytkowników, czy też używają zupełnie innej logiki?