Mam zestaw danych X, który ma 10 wymiarów, z których 4 to wartości dyskretne. W rzeczywistości te 4 zmienne dyskretne są porządkowe, tzn. Wyższa wartość implikuje wyższy / lepszy semantyczny.
2 z tych zmiennych dyskretnych są jakościowe w tym sensie, że dla każdej z tych zmiennych odległość np. Od 11 do 12 nie jest taka sama jak odległość od 5 do 6. Podczas gdy wyższa wartość zmiennej implikuje wyższą w rzeczywistości, skala jest niekoniecznie liniowy (w rzeczywistości nie jest tak naprawdę zdefiniowany).
Moje pytanie brzmi:
- Czy dobrym pomysłem jest zastosowanie wspólnego algorytmu grupowania (np. K-średnich, a następnie mieszanki Gaussa (GMM)) do tego zestawu danych, który zawiera zarówno zmienne dyskretne, jak i ciągłe?
Jeśli nie:
- Czy powinienem usunąć zmienne dyskretne i skupić się tylko na zmiennych ciągłych?
- Czy powinienem lepiej dyskretyzować ciągłe i używać algorytmu klastrowania dla dyskretnych danych?