Większość klasycznych algorytmów grupowania i zmniejszania wymiarów (grupowanie hierarchiczne, analiza głównych składników, średnie k, samoorganizujące się mapy ...) są zaprojektowane specjalnie dla danych liczbowych, a ich dane wejściowe są postrzegane jako punkty w przestrzeni euklidesowej.
Jest to oczywiście problem, ponieważ wiele rzeczywistych pytań obejmuje mieszane dane: na przykład, jeśli studiujemy autobusy, wysokość i długość oraz rozmiar silnika będą liczbami, ale możemy być również zainteresowani kolorem (zmienna kategoryczna: niebieski / czerwony / zielony ...) i klasy pojemności (zmienna zamówiona: mała / średnia / duża pojemność). W szczególności możemy chcieć badać te różne typy zmiennych jednocześnie.
Istnieje wiele metod rozszerzenia klasycznych algorytmów grupowania na mieszane dane, na przykład użycie odmienności Gowera do podłączenia do hierarchicznego grupowania lub skalowania wielowymiarowego, lub innych metod, które przyjmują macierz odległości jako dane wejściowe. Lub na przykład ta metoda, rozszerzenie SOM na mieszane dane.
Moje pytanie brzmi: dlaczego nie możemy po prostu użyć odległości euklidesowej na zmiennych mieszanych? lub dlaczego jest to złe? Dlaczego nie możemy po prostu zakodować zmiennych kategorialnych, znormalizować wszystkie zmienne, aby miały podobną wagę w odległości między obserwacjami i uruchomić zwykłe algos na tych matrycach?
To naprawdę łatwe i nigdy nie zrobione, więc przypuszczam, że to bardzo źle, ale czy ktoś może mi powiedzieć, dlaczego? I / lub dać mi jakieś referencje? Dzięki