Próbuję klasyfikować wiadomości do różnych kategorii za pomocą SVM. Przygotowałem listę pożądanych słów / symboli z zestawu szkoleniowego.
Dla każdego wektora, który reprezentuje komunikat, ustawiam odpowiedni wiersz, 1
jeśli słowo jest obecne:
„ciało” to: [mary, mała, jagnięca, gwiazda, migotanie]
pierwsza wiadomość: „Mary miała małą owieczkę” -> [1 1 1 0 0]
druga wiadomość: „twinkle little star” -> [0 1 0 1 1]
Myślę, że jest to dość powszechna konfiguracja w SVM, ale moje pytanie brzmi: z tysiącami słów w zestawie, a co, jeśli tylko 1-2 słowa na wiadomość faktycznie się pojawią? Czy liniowa zależność mojego zbioru wektorów szkoleniowych wpłynie niekorzystnie na zdolność konwergencji algorytmu?
flexmix
- choć już od kilku lat mam w kalendarzu „Learn R”!