Cóż, myślę, że naprawdę trudno jest przedstawić wizualne wyjaśnienie kanonicznej analizy korelacji (CCA) względem analizy głównych składników (PCA) lub regresji liniowej . Dwa ostatnie są często wyjaśniane i porównywane za pomocą wykresów punktowych 2D lub 3D, ale wątpię, czy jest to możliwe w przypadku CCA. Poniżej narysowałem zdjęcia, które mogą wyjaśnić istotę i różnice w trzech procedurach, ale nawet z tymi zdjęciami - które są reprezentacjami wektorowymi w „przestrzeni tematycznej” - występują problemy z odpowiednim uchwyceniem CCA. (Algebra / algorytm analizy korelacji kanonicznej znajduje się tutaj .)
Rysowanie jednostek jako punktów w przestrzeni, w której osie są zmienne, zwykły wykres rozproszenia, jest przestrzenią zmienną . Jeśli narysujesz odwrotnie - zmienne jako punkty i jednostki jako osie - będzie to przestrzeń tematyczna . Rysowanie wielu osi jest w rzeczywistości niepotrzebne, ponieważ przestrzeń ma liczbę nie nadmiarowych wymiarów równą liczbie zmiennych innych niż współliniowe. Punkty zmienne są powiązane z początkiem i tworzą wektory, strzałki, obejmujące przestrzeń tematyczną; więc oto jesteśmy ( patrz także ). W przestrzeni przedmiotowej, jeśli zmienne zostały wyśrodkowane, cosinus kąta między ich wektorami jest korelacją Pearsona między nimi, a kwadraty długości wektorów są ich wariancjami. Na poniższych zdjęciach wyświetlane zmienne są wyśrodkowane (nie ma potrzeby stałej).
Główne składniki
X1X2P1P2P1P2P1abbb12/(|P1|∗|X2|)a
Wielokrotna regresja
YX1X2YY′YXeYY′Y′bbb2/|X2|
Korelacja kanoniczna
W PCA zestaw zmiennych sam się przewiduje: modelują główne komponenty, które z kolei modelują zmienne, nie pozostawiasz przestrzeni predyktorów i (jeśli używasz wszystkich komponentów) przewidywanie jest wolne od błędów. W regresji wielokrotnej zestaw zmiennych przewiduje jedną zmienną obcą, a zatem występuje błąd przewidywania. W CCA sytuacja jest podobna do regresji, ale (1) zewnętrzne zmienne są liczne, tworząc własny zestaw; (2) oba zestawy przewidują się jednocześnie (stąd korelacja zamiast regresji); (3) to, co przewidują w sobie nawzajem, to raczej ekstrakt, zmienna utajona, niż obserwowane przewidywanie regresji ( patrz także ).
Y1Y2XYVxVyY′Y′YVxVyVyVxϕXYX1 X2Y1 Y2Vx(2)VxVy(2)Vy
Różnicę między regresją CCA i PCA + zobacz także Wykonywanie CCA vs. budowanie zmiennej zależnej za pomocą PCA, a następnie wykonywanie regresji .