Mam problem z klasyfikacją zarówno danych kategorycznych, jak i liczbowych. Problem, z którym się zmagam, polega na tym, że moje dane kategoryczne nie są naprawione, co oznacza, że nowy kandydat, którego etykietę chcę przewidzieć, może mieć nową kategorię, która nie była wcześniej obserwowana.
Na przykład, jeśli moje dane kategoryczne sex
byłyby female
, jedynymi możliwymi etykietami byłyby male
i other
bez względu na wszystko. Jednak moja zmienna kategorialna jest city
taka, że może się zdarzyć, że osoba, którą próbuję przewidzieć, ma nowe miasto, którego mój klasyfikator nigdy nie widział.
Zastanawiam się, czy istnieje sposób na dokonanie klasyfikacji na tych warunkach, czy też powinienem ponownie przeprowadzić szkolenie, biorąc pod uwagę te nowe dane kategoryczne.
city
na liczbę opartą na jakiejś funkcji? Wcity' = f(latitude, longitude)
ten sposób możesz stworzyć nową wartość dla dowolnego miasta