Uruchomiłem PCA na 17 zmiennych ilościowych, aby uzyskać mniejszy zestaw zmiennych, czyli głównych składników, do użycia w nadzorowanym uczeniu maszynowym do klasyfikowania instancji do dwóch klas. Po PCA PC1 stanowi 31% wariancji danych, PC2 17%, PC3 10%, PC4 8%, PC5 7%, a PC6 6%.
Jednak gdy patrzę na średnie różnice między komputerami między dwiema klasami, nieoczekiwanie, PC1 nie jest dobrym rozróżnieniem między tymi dwiema klasami. Pozostałe komputery są dobrymi dyskryminatorami. Ponadto PC1 staje się nieistotny, gdy jest stosowany w drzewie decyzyjnym, co oznacza, że po przycięciu drzewa nie jest nawet obecny w drzewie. Drzewo składa się z PC2-PC6.
Czy jest jakieś wytłumaczenie tego zjawiska? Czy może być coś nie tak z pochodnymi zmiennymi?