Mam do czynienia z problemem klasyfikacji tekstu. Przeszukiwacz sieciowy indeksuje strony określonej domeny i dla każdej strony chcę dowiedzieć się, czy należy ona do jednej konkretnej klasy, czy nie. Oznacza to, że jeśli nazwiebym tę klasę jako Pozytywna , każda zaindeksowana strona internetowa należy albo do klasy Pozytywnej, albo do klasy Nie-dodatniej .
Mam już duży zestaw stron szkoleniowych dla klasy Positive . Ale jak stworzyć zestaw szkoleniowy dla klasy Nie-Pozytywny, który jest tak reprezentatywny, jak to możliwe? Mam na myśli, że mógłbym zasadniczo użyć każdego z nich do tej klasy. Czy mogę po prostu zebrać dowolne strony, które zdecydowanie nie należą do klasy Positive ? Jestem pewien, że wydajność algorytmu klasyfikacji tekstu (wolę korzystać z algorytmu Naive Bayes) w dużym stopniu zależy od tego, które strony wybiorę dla klasy Nie-Pozytywne .
Co mam więc zrobić? Czy ktoś może mi doradzić? Dziękuję Ci bardzo!