Wiele algorytmów uczenia maszynowego, na przykład sieci neuronowe, oczekuje obsługi liczb. Tak więc, jeśli masz dane kategoryczne, musisz je przekonwertować. Przez kategoryczne rozumiem na przykład:
Marki samochodów: Audi, BMW, Chevrolet ... ID użytkownika: 1, 25, 26, 28 ...
Mimo że identyfikatory użytkowników są liczbami, są tylko etykietami i nie oznaczają niczego w kategoriach ciągłości, takich jak wiek lub suma pieniędzy.
Tak więc podstawowe podejście wydaje się wykorzystywać wektory binarne do kodowania kategorii:
Audi: 1, 0, 0 ... BMW: 0, 1, 0 ... Chevrolet: 0, 0, 1 ...
Jest OK, gdy jest kilka kategorii, ale poza tym wygląda to trochę nieefektywnie. Na przykład, gdy masz 10 000 identyfikatorów użytkowników do zakodowania, to 10 000 funkcji.
Pytanie brzmi, czy jest lepszy sposób? Może z udziałem prawdopodobieństw?