Komponenty o niskiej wariancji w PCA, czy to naprawdę tylko szum? Czy jest jakiś sposób, aby to sprawdzić?

18

Próbuję zdecydować, czy składnik PCA powinien zostać zachowany, czy nie. Istnieje wiele kryteriów opartych na wielkości wartości własnej, opisanych i porównanych np. Tutaj lub tutaj .

Jednak w mojej aplikacji wiem, że mała (est) wartość własna będzie mała w porównaniu do dużej (st) wartość własna, a wszystkie kryteria oparte na wielkości odrzuciłyby tę małą (est). Nie tego chcę. Interesuje mnie to: czy istnieje jakakolwiek znana metoda, która bierze pod uwagę faktyczny odpowiadający element małej wartości własnej, w tym sensie: czy to naprawdę „tylko” hałas, jak sugerowano we wszystkich podręcznikach, czy też jest „coś” potencjalnego zainteresowanie pozostało? Jeśli to naprawdę hałas, usuń go, w przeciwnym razie zachowaj go, niezależnie od wielkości wartości własnej.

Czy istnieje jakiś ustalony test losowości lub dystrybucji składników PCA, którego nie jestem w stanie znaleźć? A może ktoś zna powód, dla którego byłby to głupi pomysł?

Aktualizacja

Histogramy (zielony) i normalne aproksymacje (niebieski) komponentów w dwóch przypadkach użycia: raz prawdopodobnie naprawdę hałas, raz prawdopodobnie nie „tylko” hałas (tak, wartości są małe, ale prawdopodobnie nie losowe). Największa wartość pojedyncza wynosi ~ 160 w obu przypadkach, najmniejsza, tj. Ta liczba pojedyncza, wynosi 0,0xx - zdecydowanie za mała dla którejkolwiek z metod odcięcia.

To, czego szukam, to sposób na sformalizowanie tego ...

prawdopodobnie naprawdę „tylko” hałas prawdopodobnie nie ma hałasu, ale może zawierać ciekawe bity

pca

— Daniel
źródło

2

Wiele testów, do których się odwołujesz, ma dokładnie tę właściwość, o którą prosisz: próbują odróżnić „szum” od „sygnału”.

— whuber

2

Ostatnio byłem zainteresowany podobnym pytaniem, ale w konkretnej sytuacji, gdy masz wiele pomiarów dla każdego punktu danych. Zobacz Wybieranie liczby komponentów PCA, gdy dostępnych jest wiele próbek dla każdego punktu danych . Może dotyczy to również twojej sprawy?

— ameba mówi Przywróć Monikę

Wykorzystanie testów dystrybucyjnych na komputerach PC, aby zdecydować o ich losowości, jest bardzo interesującym pomysłem (którego nigdy nie widziałem); coś podobnego zostało zrobione w ICA, który konkretnie szuka maksymalnie nie Gaussowskich komponentów. Wykonywanie PCA, a następnie odrzucanie komponentów, które są „zbyt Gaussowskie”, ma smak ICA i może faktycznie działać!

— ameba mówi Przywróć Monikę

20

Jednym ze sposobów testowania losowości małego głównego komponentu (PC) jest traktowanie go jak sygnału zamiast szumu: tj. Spróbuj przewidzieć z nim inną interesującą zmienną. Jest to zasadniczo regresja podstawowych składników (PCR) .

$R^2$ $MSE$

Model inżynierii chemicznej wykorzystujący komputery PC 1, 3, 4, 6, 7 i 8 z 9 ogółem ^{( Smith i Campbell, 1980 )}
Model monsunowy z wykorzystaniem komputerów PC 8, 2 i 10 (w kolejności ważności) na 10 ^{( Kung i Sharif, 1980 )}
Model ekonomiczny wykorzystujący komputery PC 4 i 5 z 6 ^{(Hill, Fomby i Johnson, 1977)}

Komputery PC w powyższych przykładach są ponumerowane zgodnie z wielkościami rankingowymi ich wartości własnych. Jolliffe (1982) opisuje model chmury, w którym ostatni komponent ma największy udział. Podsumowuje:

Powyższe przykłady pokazały, że nie jest konieczne wyszukiwanie niejasnych lub dziwnych danych, aby kilka ostatnich głównych składników miało znaczenie w regresji głównych składników. Wydaje się raczej, że takie przykłady mogą być dość powszechne w praktyce. Hill i in. (1977) dają dogłębną i przydatną dyskusję na temat strategii wyboru głównych komponentów, które powinny były na zawsze zakryć ideę selekcji opartą wyłącznie na wielkości wariancji. Niestety wydaje się, że tak się nie stało, a pomysł ten może być teraz bardziej rozpowszechniony niż 20 lat temu.

$SS$

$(p-1)$ $\text{Y}$

$\text{X}$

Zawdzięczam tę odpowiedź @Scortchi, który poprawił moje nieporozumienia na temat wyboru PC w PCR , dodając kilka bardzo pomocnych komentarzy, w tym: „ Jolliffe (2010) ocenia inne sposoby wyboru komputerów”. To odniesienie może być dobrym miejscem do poszukiwania dalszych pomysłów.

Bibliografia

^{- Gunst, RF i Mason, RL (1977). Błędne oszacowanie w regresji: ocena wykorzystująca średni błąd kwadratu. Journal of American Statistics Association, 72 (359), 616–628.

- Hadi, AS i Ling, RF (1998). Kilka uwag ostrzegawczych dotyczących stosowania regresji głównych składników. The American Statistician, 52 (1), 15–19. Źródło: http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .

- Hawkins, DM (1973). Badanie alternatywnych regresji za pomocą analizy głównego elementu. Statystyka stosowana, 22 (3), 275–286.

- Hill, RC, Fomby, TB i Johnson, SR (1977). Normy wyboru komponentów dla regresji głównych składników.Komunikacja w statystyce - teoria i metody, 6 (4), 309–334.

- Hotelling, H. (1957). Relacje nowszych wielowymiarowych metod statystycznych do analizy czynnikowej. British Journal of Statistics Psychology, 10 (2), 69–79.

- Jackson, E. (1991). Podręcznik użytkownika głównych składników . Nowy Jork: Wiley.

- Jolliffe, IT (1982). Uwaga na temat stosowania głównych składników w regresji. Applied Statistics, 31 (3), 300–303. Źródło: http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .

- Jolliffe, IT (2010).Analiza głównych składników (wydanie 2). Skoczek.

- Kung, EC i Sharif, TA (1980). Prognozowanie regresji początku monsunu letniego w Indiach z poprzednimi warunkami górnymi. Journal of Applied Meteorology, 19 (4), 370–380. Źródło: http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .

- Lott, WF (1973). Optymalny zestaw ograniczeń podstawowych składników regresji metodą najmniejszych kwadratów. Komunikacja w statystyce - teoria i metody, 2 (5), 449–464.

- Mason, RL i Gunst, RF (1985). Wybieranie głównych składników w regresji. Statystyka i listy prawdopodobieństwa, 3 (6), 299–301.

- Massy, WF (1965). Regresja głównych składników w eksploracyjnych badaniach statystycznych. Journal of American Statistics Association, 60 (309), 234–256. Źródło: http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .

- Smith, G., i Campbell, F. (1980). Krytyka niektórych metod regresji grzbietu. Journal of American Statistics Association, 75 (369), 74–81. Źródło: https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .}

— Nick Stauner
źródło

4

... i nie ma żadnej gwarancji, że efekt potrzebny do rozwiązania problemu jest większy niż inne efekty, które są po prostu szumem. problem na wyciągnięcie ręki. Widziałem dane, w których 95% wariancji to hałas spowodowany niektórymi efektami fizycznymi ...

— cbeleites obsługuje Monikę

3

Bardzo ładna recenzja, ale (przepraszam za powtórzenie) tempo Hadi & Ling, wybór komputerów do zatrzymania w regresji w oparciu o ich silny związek z odpowiedzią, jest równie niebezpieczny, jak wybranie oryginalnych predyktorów na podstawie ich silnego związku z odpowiedzią. Walidacja krzyżowa jest niezbędna i preferowana jest kurczliwość. Osobiście wolałbym rozsądne wykorzystanie PCA w połączeniu z wiedzą merytoryczną do kierowania redukcją danych w predyktorach, ślepe na odpowiedź, np. Użycie pierwszego PC z grup predyktorów mierzących to samo lub określonych przez zmienne grupowanie.

— Scortchi - Przywróć Monikę

2

+1 (dawno temu) do tej odpowiedzi, ale po przejrzeniu tego wątku teraz muszę powiedzieć, że ta odpowiedź prawie wcale nie odpowiada na pierwotne pytanie: OP pytał o to, czy można użyć testów dystrybucji komponentów do oceny ich losowość. Zobacz także mój ostatni komentarz do PO.

— ameba mówi Przywróć Monikę

2

Dodając do odpowiedzi @Nick Stauner, gdy masz do czynienia z klastrowaniem podprzestrzeni, PCA jest często złym rozwiązaniem.

Podczas korzystania z PCA martwi się przede wszystkim wektorami własnymi o najwyższych wartościach własnych, które reprezentują kierunki, w których dane są najbardziej „rozciągnięte”. Jeśli twoje dane składają się z małych podprzestrzeni, PCA uroczyście je zignoruje, ponieważ nie mają większego wpływu na ogólną wariancję danych.

Tak więc małe wektory własne nie zawsze są czystym hałasem.

— felipeduque
źródło