Chcę zmniejszyć wymiarowość układów wyższego rzędu i uchwycić większość kowariancji na polu najlepiej dwuwymiarowym lub jednowymiarowym. Rozumiem, że można to zrobić za pomocą analizy głównych składników, i używałem PCA w wielu scenariuszach. Jednak nigdy nie użyłem go z typami danych boolowskich i zastanawiałem się, czy warto robić PCA z tym zestawem. Udawajmy na przykład, że mam dane jakościowe lub opisowe, i przypisuję „1”, jeśli dane te są prawidłowe dla tego wymiaru, i „0”, jeśli nie jest (dane binarne). Udawaj na przykład, że próbujesz porównać Siedmiu Krasnoludków w Królewnie Śnieżce. Mamy:
Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy and Happy, i chcesz je ułożyć w oparciu o cechy, i zrobił to w następujący sposób:
Na przykład Bashful nie toleruje laktozy i nie znajduje się na liście wyróżnień A. Jest to czysto hipotetyczna matryca, a moja prawdziwa matryca będzie miała o wiele więcej kolumn opisowych. Moje pytanie brzmi: czy nadal właściwe byłoby wykonanie PCA na tej matrycy jako sposobu na znalezienie podobieństwa między jednostkami?
a means of finding the similarity between individuals
. Ale to zadanie dotyczy analizy skupień, a nie PCA.