FA, PCA i ICA są „powiązane”, ponieważ wszystkie trzy szukają wektorów podstawowych, na podstawie których dane są rzutowane, tak aby zmaksymalizować kryteria wstawiania tutaj. Pomyśl o wektorach bazowych jako o enkapsulacji kombinacji liniowych.
Z2NNw=[0.1−4]y
y=wTZ
y1N
Więc jakie są te kryteria?
Kryteria drugiego rzędu:
W PCA znajduje się wektory bazowe, które „najlepiej wyjaśniają” wariancję danych. Pierwszym (tj. Najwyżej sklasyfikowanym) wektorem podstawowym będzie ten, który najlepiej pasuje do wszystkich wariancji danych. Drugi ma również to kryterium, ale musi być ortogonalny do pierwszego, i tak dalej i tak dalej. (Okazuje się, że te wektory podstawowe dla PCA to nic innego jak wektory własne macierzy kowariancji danych).
W FA istnieje różnica między nim a PCA, ponieważ FA jest generatywna, podczas gdy PCA nie. Widziałem FA jako „PCA z hałasem”, gdzie „hałas” nazywa się „specyficznymi czynnikami”. Niemniej jednak ogólny wniosek jest taki, że PCA i FA opierają się na statystykach drugiego rzędu (kowariancji) i niczym powyżej.
Kryteria wyższego rzędu:
W ICA ponownie znajdujesz wektory bazowe, ale tym razem potrzebujesz wektorów bazowych, które dają wynik, tak że ten wynikowy wektor jest jednym z niezależnych składników oryginalnych danych. Można to zrobić poprzez maksymalizację wartości bezwzględnej znormalizowanej kurtozy - statystyki czwartego rzędu. Oznacza to, że wyświetlasz swoje dane na pewnym wektorze bazowym i mierzysz kurtozę wyniku. Zmieniasz nieco wektor bazowy (zwykle poprzez wynurzenie gradientowe), a następnie ponownie mierzysz kurtozę itp. W końcu dojdziesz do wektora bazowego, który daje wynik, który ma najwyższą możliwą kurtozę, a to jest twoja niezależna składnik.
Górny schemat powyżej może pomóc ci go zwizualizować. Widać wyraźnie, jak wektory ICA odpowiadają osiom danych (niezależnie od siebie), podczas gdy wektory PCA próbują znaleźć kierunki, w których wariancja jest zmaksymalizowana. (Trochę jak wypadkowa).
Jeśli na górnym schemacie wektory PCA wyglądają tak, jakby prawie odpowiadały wektorom ICA, to po prostu przypadek. Oto kolejna instancja dotycząca różnych danych i macierzy mieszania, gdzie są one bardzo różne. ;-)