Załóżmy, że mamy mierzalnych zmiennych, , wykonujemy liczbę pomiarów, a następnie chcemy przeprowadzić rozkład wyników w liczbie pojedynczej na wynikach, aby znaleźć osie największej wariancji dla punktów w przestrzeni wymiarowej. ( Uwaga: załóżmy, że środki zostały już odjęte, więc dla wszystkich .)
Załóżmy teraz, że jedna (lub więcej) zmiennych ma znacznie inną charakterystyczną wielkość niż pozostałe. Np. może mieć wartości w zakresie podczas gdy reszta może wynosić około . To bardzo przekrzywi oś największej wariancji w kierunku osi .
Różnica wielkości może być po prostu spowodowana niefortunnym wyborem jednostki miary (jeśli mówimy o danych fizycznych, np. Kilometrach vs metrach), ale w rzeczywistości różne zmienne mogą mieć zupełnie inne wymiary (np. Waga vs objętość), więc może nie być żadnego oczywistego sposobu wyboru dla nich „porównywalnych” jednostek.
Pytanie: Chciałbym wiedzieć, czy istnieją jakieś standardowe / powszechne sposoby normalizacji danych w celu uniknięcia tego problemu. Bardziej interesują mnie standardowe techniki, które wytwarzają porównywalne wielkości dla w tym celu, niż wymyślanie czegoś nowego.
EDYCJA: Jedną z możliwości jest znormalizowanie każdej zmiennej o jej standardowe odchylenie lub coś podobnego. Pojawia się jednak następujący problem: interpretujmy dane jako chmurę punktów w przestrzeni wymiarowej. Tę chmurę punktów można obracać, a ten typ normalizacji da różne wyniki końcowe (po SVD) w zależności od obrotu. (Np. W najbardziej ekstremalnym przypadku wyobraź sobie, że dokładnie obracasz dane, aby wyrównać główne osie z głównymi osiami.)
Spodziewam się, że nie będzie tego niezmiennego sposobu rotacji, ale byłbym wdzięczny, gdyby ktoś mógł skierować mnie do dyskusji na ten temat w literaturze, szczególnie w odniesieniu do zastrzeżeń w interpretacji wyników.