Chciałbym wiedzieć, jaki jest najlepszy sposób klasyfikacji zestawu danych złożonego z mieszanych typów atrybutów, na przykład tekstowych i liczbowych. Wiem, że mogę konwertować tekst na logiczne, ale słownictwo jest zróżnicowane, a dane stają się zbyt rzadkie. Próbowałem również klasyfikować typy atrybutów osobno i łączyć wyniki za pomocą technik meta-uczenia, ale nie działało to dobrze.
Principal Component Analysis
lubNon-Negative Matrix Factorization
zmniejszy liczbę zmiennych, wzbogaci rzadkie dane i przekształci wszystkie zmienne w ilościowe. Ponadto, oceniając jakość modelu redukcji wymiarowości, autor pytania może oszacować przydatność zmiennych tekstowych.