Wybór modelu PCA za pomocą AIC (lub BIC)

12

Chcę użyć Akaike Information Criterion (AIC), aby wybrać odpowiednią liczbę czynników do wyodrębnienia w PCA. Jedynym problemem jest to, że nie jestem pewien, jak określić liczbę parametrów.

Rozważmy macierz , gdzie reprezentuje liczbę zmiennych, a liczbę obserwacji, na przykład . Ponieważ macierz kowariancji jest symetryczna, wówczas oszacowanie maksymalnego prawdopodobieństwa może ustawić liczbę parametrów w AIC równą . $T\times N$ $X$ $N$ $T$ $X\sim \mathcal N\left(0,\Sigma\right)$ $\Sigma$ $\frac{N\left(N+1\right)}{2}$

Alternatywnie, w PCA, można wyodrębnić pierwsze wektorów własnych i wartości własnych , połączenia ich i , a następnie obliczyć gdzie to średnia wariancja rezydualna. Według moich obliczeń, jeśli masz czynniki , to parametrów w , parametrów w i parametr w . $f$ $\Sigma$ $\beta_{f}$ $\Lambda_{f}$

Σ = β_{f} Λ_{f} β_{f}^{'} + I σ_{r}^{2}

$\Sigma=\beta_{f}\Lambda_{f}\beta_{f}'+I\sigma_{r}^{2}$

σ_{r}^{2}

$\sigma_{r}^{2}$

f

$f$

f

$f$

Λ_{f}

$\Lambda_{f}$

N f

$Nf$

β_{f}

$\beta_{f}$

1

$1$

σ_{r}^{2}

$\sigma_{r}^{2}$

Czy to podejście jest prawidłowe? Wydaje się, że doprowadzi to do większej liczby parametrów niż podejścia maksymalnego prawdopodobieństwa jako liczba czynników wzrasta do . $N$

pca model-selection

— Jan
źródło

1

N f

$N f$ przewyższa parametry: występuje nadmiarowość z uwagi na fakt, że wektory własne są wzajemnie ortogonalne.

— whuber

10

Pierwszy wektor własny ma parametrów wolnych. Warunek ortogonalności ogranicza drugi wektor własny do hiperprzestrzeni ortogonalnej do pierwszego, wymagając jedynie parametrów . Każdy kolejny wektor własny potrzebuje o jeden parametr mniej niż poprzedni. Na granicy wektorów własnych (ponieważ jest teraz zerowy), podając = parametry w całości, zgodnie z pierwszym parametrem liczyć.

N

$N$

N - 1

$N-1$

N

$N$

σ_{r}^{2}

$\sigma_r^2$

N + (N - 1) + \dots + 1

$N+(N-1)+\cdots+1$

N (N + 1) / 2

$N(N+1)/2$

— whuber

1

@ A.Donda Sytuacja jest niejasna: załóżmy, że wskazałeś także mnogość każdej wartości własnej i że mnożności te są sumując do Pozwalając, aby PCA znalazło transformację ortogonalną, mielibyśmy parametry, aby to ustalić. Ale stabilizatorami każdej przestrzeni własnej są grupy ortogonalne w wymiarachKażdy w ten sposób eliminuje parametrów, pozostawiając parametrów dla obrotów. Do wartości własnych dostarczania pozostałych parametrów.

n_{1}, n_{2}, \dots, n_{s},

$n_1, n_2, \ldots, n_s,$

N .

$N.$

N (N - 1) / 2

$N(N-1)/2$

n_{i} .

$n_i.$

n_{i} (n_{i} - 1) / 2

$n_i(n_i-1)/2$

N (N - 1) / 2 - \sum_{i = 1}^{s} n_{i} (n_{i} - 1) / 2

$N(N-1)/2 - \sum_{i=1}^s n_i(n_i-1)/2$

s

$s$

— Whuber

1

(Powinienem dodać, że zastosowanie tego liczenia do pytania jest wątpliwe: PCA wykorzystuje wszystkie parametry , nawet jeśli mogłoby się zdarzyć, że znajdziemy wartości własne o większej krotności. I w prawie każdym prawdziwym zbiorze danych, i tak nigdy nie uzyska wielokrotności większej niż ).

N (N - 1) / 2

$N(N-1)/2$

1

$1$

— whuber

1

@ whuber, dzięki! Moje pytanie jest motywowane sytuacją, w której oceniam macierz kowariancji przy ograniczeniu wartości własnych.

— A. Donda

5

Prace Minki ( Automatyczny wybór wymiarów dla PCA , 2000) oraz Tipping & Bishop ( Probabilistic Principal Component Analysis ) dotyczące probabilistycznego spojrzenia na PCA mogą dostarczyć ci ramy, którymi jesteś zainteresowany. Praca Minki zapewnia przybliżenie log- likelihood gdzie jest utajoną wymiarowością zestawu danych przy użyciu aproksymacji Laplace'a; jak stwierdzono wyraźnie: „ Uproszczenie metody Laplace'a jest przybliżeniem BIC ”. $\mathrm{log}\: p(D|k)$ $k$ $D$

Wyraźnie przyjmuje to bayesowski punkt widzenia twojego problemu, który nie jest oparty na kryteriach teorii informacji (dywergencja KL) stosowanych przez AIC.

Co do pierwotnego pytania dotyczącego „określenia liczby parametrów”, myślę również, że komentarz @ Whubera zawiera właściwą intuicję.

— usεr11852
źródło

Bawiłem się AIC kontra AICc na losowych matrycach o różnych rozmiarach. Wydawało się, że AICc działa lepiej. Te referencje wyglądają dobrze, ale nie miałem jeszcze okazji do strawienia.

— Jan

6

Wybieranie „odpowiedniej” liczby komponentów w PCA można wykonać elegancko za pomocą analizy równoległej Horn (PA). Dokumenty pokazują, że kryterium to konsekwentnie przewyższa zasady praktyczne, takie jak kryterium łokcia lub reguła Kaisera. Pakiet R „paran” ma implementację PA, która wymaga tylko kilku kliknięć myszką.

Oczywiście, ile składników zachowujesz, zależy od celów redukcji danych. Jeśli chcesz zachować tylko wariancję, która jest „znacząca”, PA zapewni optymalną redukcję. Jeśli chcesz zminimalizować utratę informacji w oryginalnych danych, powinieneś jednak zachować wystarczającą liczbę składników, aby pokryć 95% wyjaśnionej wariancji. Pozwoli to oczywiście zachować znacznie więcej komponentów niż PA, chociaż w przypadku zestawów danych o dużych wymiarach zmniejszenie wymiarów będzie nadal znaczne.

Ostatnia uwaga na temat PCA jako problemu „wyboru modelu”. Nie do końca zgadzam się z odpowiedzią Piotra. Istnieje wiele prac, które przeformułowały PCA jako problem typu regresji, takie jak rzadki PCA, rzadki probabilistyczny PCA lub ScotLASS. W tych „opartych na modelu” rozwiązaniach PCA obciążenia są parametrami, które można ustawić na 0 za pomocą odpowiednich warunków karnych. Przypuszczalnie w tym kontekście byłoby również możliwe obliczenie statystyk typu AIC lub BIC dla rozważanego modelu.

Podejście to teoretycznie może obejmować model, w którym na przykład dwa komputery PC są nieograniczone (wszystkie ładunki niezerowe), w porównaniu z modelem, w którym PC1 jest nieograniczony, a PC2 ma wszystkie ładunki ustawione na 0. Byłoby to równoważne z wnioskiem, czy PC2 jest redundantny ogólnie rzecz biorąc.

Referencje (PA) :

Dinno, A. (2012). paran: Test Horn's Principal Components / Factors. Wersja pakietu R 1.5.1. http://CRAN.R-project.org/package=paran
Horn JL 1965. Uzasadnienie i test na liczbę czynników w analizie czynnikowej. Psychometrika . 30: 179–185
Hubbard, R. i Allen SJ (1987). Empiryczne porównanie alternatywnych metod ekstrakcji głównych składników. Journal of Business Research, 15 , 173–190.
Zwick, WR i Velicer, WF 1986. Porównanie pięciu zasad określania liczby komponentów do zachowania. Biuletyn Psychologiczny. 99 : 432–442

— Ben M.
źródło

Witamy na stronie @BenM. Z twojej odpowiedzi, myślę, że miło będzie mieć cię przy sobie (chociaż nie wiem wystarczająco dużo o PCA poza podstawami do oceny twoich roszczeń). Jedno pytanie, zauważasz, że stanowiska te są dobrze ugruntowane, czy mógłbyś wymienić kilka reprezentatywnych publikacji, w których zainteresowany czytelnik mógłby znaleźć więcej szczegółów?

— gung - Przywróć Monikę

-1

AIC jest przeznaczony do wyboru modelu. To nie jest tak naprawdę problem z wyborem modelu i być może lepiej byłoby zastosować inne podejście. Alternatywą może być określenie określonego całkowitego wyjaśnionego procentu wariancji (np. 75%) i zatrzymanie się, gdy procent osiągnie 75%, jeśli w ogóle to nastąpi.

— Michael R. Chernick
źródło

1

Wybieram między różnymi modelami na podstawie liczby czynników (model z 1 czynnikiem w porównaniu z modelem z 2, itp.). Problem z procentem wariancji polega głównie na tym, że ignoruje on koszt oszacowania dodatkowych wektorów własnych, szczególnie gdy liczba obserwacji jest mniejsza niż liczba zmiennych. AIC dobrze pasuje do probabilistycznego podejścia PCA.

— John,

3

Michael, czy mógłbyś dokładnie wyjaśnić, dlaczego nie jest to problem z wyborem modelu? Wygląda na to, że John wyraźnie sformułował to jako jedno.

— whuber

@whuber Jaki jest model statystyczny? Wydaje mi się, że decydowanie o liczbie głównych składników użytych do reprezentacji x% wariancji w zmiennej Y nie oznacza wyboru modelu. Nie uważałbym też głównych komponentów za parametry modelu.

— Michael R. Chernick

2

Rozważmy wektory 2D narysowane z . Możemy sparametryzować pod względem dwóch wariancji i korelacji . W tym modelu zagnieżdżony byłby model . Teraz możemy również sparametryzować go pod kątem kąta pierwszego głównego komponentu i wartości własnych tych komponentów. Zagnieżdżony byłby w nim model . Obie perspektywy sprawdzają idealną korelację (kolinearność); po prostu używają różnych parametryzacji. Jeśli dopuścisz pierwszy jako model, musisz zezwolić na drugi.

X_{i}

$X_i$

N (0, Σ)

$N(0,\Sigma)$

Σ

$\Sigma$

σ_{i}^{2}

$\sigma_i^2$

ρ

$\rho$

| ρ | = 1

$|\rho|=1$

θ

$\theta$

λ_{1} \geq λ_{2}

$\lambda_1\ge\lambda_2$

λ_{2} = 0

$\lambda_2=0$

— whuber

-3

AIC nie jest tu właściwe. Nie wybierasz spośród modeli o zmiennej liczbie parametrów - główny składnik nie jest parametrem.

Istnieje wiele metod decydowania o liczbie czynników lub składników na podstawie analizy czynnikowej lub analizy głównych składników - test Scree, wartość własna> 1 itd. Ale prawdziwy test jest istotny: Jaka liczba czynników ma sens ? Spójrz na czynniki, rozważ wagi, dowiedz się, który najlepiej pasuje do twoich danych.

Podobnie jak inne rzeczy w statystykach, nie jest to coś, co można łatwo zautomatyzować.

— Peter Flom - Przywróć Monikę
źródło

4

Jeśli „główny składnik nie jest parametrem”, tym bardziej żaden współczynnik może być parametrem (ponieważ jest całkowicie determinowany przez rozkład głównego składnika). To zagadkowe stwierdzenie.

Σ

$\Sigma$

Σ

$\Sigma$

— whuber

1

@ whuber Parametr macierzy kowariancji może, ale nie parametr modelu. Jestem po stronie Petera.

— Michael R. Chernick

3

Peter, dokładnie jakie rozróżniasz między „parametrem modelu” a „parametrem”? Nie zdaję sobie sprawy z takich rzeczy i dlatego chętnie się o tym dowiem. Jeśli Twoim celem jest znalezienie oszczędnego opisu kowariancji wielowymiarowych, czy nie stanowią one parametrów „modelowych”?

— whuber

3

Peter, dużo pracy nad tym wykonano pod nazwą „modeli niskiej rangi”. Zastosowania obejmują analizę spektralną szeregów czasowych, ich uogólnienia przestrzenne i splajny. W przypadku szeregów czasowych, na przykład, sekwencja Można je podsumować elementy szeregu Fouriera, stosując zasadniczo te same maszyny i pojęć, jak PCA: jedna zachowuje wartości własne (tj sinus i cosinus fale) odpowiadającej największe wartości własne (tj. amplitudy lub siły fal).

n

$n$

m ≪ n

$m\ll n$

— whuber

1

Dzięki za informację. Szeregi czasowe to jeden obszar statystyki, o którym niewiele wiem.

— Peter Flom - Przywróć Monikę