Warunki te pojawiają się w niektórych książkach dotyczących statystyk na wielu odmianach. Załóżmy, że masz n
osoby według p
macierzy danych ilościowych funkcji. Następnie możesz narysować poszczególne osoby jako punkty w przestrzeni, w której osie są cechami. Będzie to klasyczny wykres rozrzutu, inaczej zmienna przestrzeń kosmiczna . Mówimy, że chmura jednostek obejmuje przestrzeń zdefiniowaną przez cechy osi.
Równie dobrze można sobie wyobrazić wykres rozrzutu, w którym punkty są zmiennymi, a osie są jednostkami. Absolutnie jak poprzednie, tylko zawrotne. Będzie to wykres przestrzeni przedmiotowej (lub wykres przestrzeni obserwacyjnej) ze zmiennymi obejmującymi go, jednostki definiujące go.
Zauważ, że jeśli (jak często) n>p
, to w drugim przypadku tylko niektóre p
wymiary poza tymi n
są nieistotne; oznacza to, że możesz i możesz rysować p
zmienne punkty na p
wykresie wymiarowym1. Ponadto, zgodnie z tradycją, zmienne punkty są zwykle związane z początkiem i dlatego pojawiają się jako wektory (strzałki). Używamy reprezentacji przestrzeni tematycznej głównie w celu pokazania związków między zmiennymi, dlatego upuszczamy osie-tematy i przedstawiamy punkty jako strzałki, dla wygody.
Jeśli cechy (kolumny macierzy danych) zostały wyśrodkowane przed narysowaniem wykresu przestrzeni przedmiotowej, wówczas cosinusy kątów między wektorami zmiennymi są równe ich korelacjom Pearsona, podczas gdy długości wektora są równe normom zmiennych (suma pierwiastków kwadratów ) lub odchylenia standardowe (jeśli podzielone przez df ).
Przestrzeń zmienna i przestrzeń tematyczna są dwiema stronami tej samej monety, są tą samą przestrzenią analityczną euklidesową, przedstawiając się tylko lustrzanie. Dzielą te same właściwości, takie jak niezerowe wartości własne i wektory własne. Możliwe jest zatem wykreślenie zarówno podmiotów, jak i zmiennych obok siebie jako punktów w przestrzeni głównych osi (lub innej ortogonalnej podstawy) tej przestrzeni analitycznej - ten wspólny wykres nazywa się biplotem . Nie wiem dokładnie, co oznacza termin „przestrzeń danych” - jeśli oznacza to coś konkretnego, to przypuszczam, że jest to wspólna przestrzeń analityczna, której przestrzeń podmiotowa i zmienna są dwoma hipostazami.
Niektóre lokalne linki:
- Zdjęcia przedstawiające reprezentację głównych elementów (PCA) w przestrzeni przedmiotowej , regresję liniową i analizę czynnikową , ponownie regresję . Porównaj to z tradycyjną reprezentacją regresji i PCA w zmiennej przestrzeni (wykres rozproszenia) .
- Teoretyczne wyjaśnienie biplota . Jedno samodzielne badanie wyjaśniające strukturę biplota w PCA .
- Zobacz także post próbujący dowiedzieć się, czy można geometrycznie rozwiązać zadanie PCA na wykresie przestrzeni przedmiotowej (wydaje się, że komputery definiują elipsę; ale jak znaleźć tę unikalną elipsę?).
1Wyobraź sobie, że masz n=5
jednostki i p=2
zmienne i jakimś cudem udało ci się narysować 2 punkty w 5-wymiarowej przestrzeni. Następnie możesz obrócić podprzestrzeń zdefiniowaną przez dowolną 2 osie w taki sposób, aby osadzić 2 punkty (które odtąd obejmują tę płaszczyznę); po tym bezpiecznie upuszczasz pozostałe 3 osie (wymiary), ponieważ stały się niepotrzebne. Pozycja dwóch zmiennych punktów względem siebie została zachowana.