Dla uproszczenia załóżmy, że pracuję nad klasycznym przykładem wiadomości e-mail ze spamem / bez spamu.
Mam zestaw 20000 e-maili. Wiem, że 2000 to spam, ale nie mam żadnego przykładu wiadomości nie będących spamem. Chciałbym przewidzieć, czy pozostałe 18000 to spam, czy nie. Idealnie, wynik, którego szukam, to prawdopodobieństwo (lub wartość p), że wiadomość e-mail jest spamem.
Jakiego algorytmu (algorytmów) mogę użyć, aby dokonać rozsądnej prognozy w tej sytuacji?
W tej chwili myślę o metodzie opartej na odległości, która powiedziałaby mi, jak podobny jest mój e-mail do znanego spamu. Jakie mam opcje?
Mówiąc bardziej ogólnie, czy mogę zastosować nadzorowaną metodę uczenia się, czy też koniecznie muszę mieć negatywne przypadki w moim zestawie szkoleniowym, aby to zrobić? Czy ograniczam się do metod uczenia się bez nadzoru? Co z metodami częściowo nadzorowanymi?