Mam 2 zestawy danych, jeden z pozytywnymi instancjami tego, co chciałbym wykryć, a drugi z nieznakowanymi instancjami. Jakich metod mogę użyć?
Przykładowo, załóżmy, że chcemy zrozumieć wykrywanie spamu na podstawie kilku ustrukturyzowanych właściwości wiadomości e-mail. Mamy jeden zestaw danych zawierający 10000 wiadomości e-mail ze spamem i jeden zestaw danych zawierający 100 000 wiadomości e-mail, dla których nie wiemy, czy są spamem, czy nie.
Jak poradzić sobie z tym problemem (bez ręcznego etykietowania żadnych nieoznaczonych danych)?
Co możemy zrobić, jeśli mamy dodatkowe informacje na temat odsetka spamu w nieoznaczonych danych (tj. Co jeśli szacujemy, że 20–40% z 100000 nieoznaczonych e-maili to spam)?