Chciałbym wiedzieć, jaki jest najlepszy sposób klasyfikacji zestawu danych złożonego z mieszanych typów atrybutów, na przykład tekstowych i liczbowych. Wiem, że mogę konwertować tekst na logiczne, ale słownictwo jest zróżnicowane, a dane stają się zbyt rzadkie. Próbowałem również klasyfikować typy atrybutów osobno i łączyć wyniki za pomocą technik meta-uczenia, ale nie działało to dobrze.
Principal Component AnalysislubNon-Negative Matrix Factorizationzmniejszy liczbę zmiennych, wzbogaci rzadkie dane i przekształci wszystkie zmienne w ilościowe. Ponadto, oceniając jakość modelu redukcji wymiarowości, autor pytania może oszacować przydatność zmiennych tekstowych.