Jak korzystać z analizy głównych składników, aby wybrać zmienne do regresji?

12

Obecnie używam analizy głównych komponentów, aby wybrać zmienne do zastosowania w modelowaniu. W tej chwili wykonuję pomiary A, B i C w swoich eksperymentach - tak naprawdę chcę wiedzieć: czy mogę wykonać mniej pomiarów i przestać rejestrować C i lub B, aby zaoszczędzić czas i wysiłek?

Uważam, że wszystkie 3 zmienne mocno obciążają mój pierwszy główny składnik, który stanowi 60% wariancji w moich danych. Wyniki składowe mówią mi, że jeśli dodam te zmienne razem w pewnym stosunku (aA + bB + cC). Mogę uzyskać wynik na PC1 dla każdego przypadku w moim zbiorze danych i mogę użyć tego wyniku jako zmiennej w modelowaniu, ale to nie pozwala mi przestać mierzyć B i C.

Jeśli zsumuję obciążenia A, B i C na PC1, stwierdzę, że zmienna A odpowiada za 65% wariancji w PC1, a zmienna B odpowiada za 50% wariancji w PC1, a zmienna C również za 50%, tj. wariancji na PC1 uwzględnionej przez każdą zmienną A, B i C są dzielone z inną zmienną, ale A wychodzi na wierzch, odpowiadając za nieco więcej.

Błędem jest myśleć, że mógłbym po prostu wybrać zmienną A lub ewentualnie (aA + bB, jeśli to konieczne) do zastosowania w modelowaniu, ponieważ ta zmienna opisuje dużą część wariancji w PC1, a to z kolei opisuje dużą część wariancji w dane?

Jakie podejście wybrałeś w przeszłości?

Jedna zmienna, która ładuje się najmocniej na PC1, nawet jeśli istnieją inne ciężkie ładowarki?
Wynik komponentu na PC1 przy użyciu wszystkich zmiennych, nawet jeśli wszystkie są bardzo obciążające?

regression pca model-selection

— N26
źródło

14

Nie określiłeś, jakie „modelowanie” planujesz, ale brzmi to tak, jakbyś pytał o to, jak wybrać zmienne niezależne spośród , i w celu (powiedzmy) regresowania czwartej zmiennej zależnej na nich. $A$ $B$ $C$ $W$

Aby przekonać się, że to podejście może się nie powieść, rozważ trzy niezależne zmienne o rozkładzie normalnym , i o wariancji jednostkowej. Dla prawdziwego modelu bazowego wybierz małą stałą , naprawdę małą stałą i pozwól (zmienna zależna) (plus trochę błędu niezależnego od , , i ). $X$ $Y$ $Z$ $\beta \ll 1$ $\epsilon \ll \beta$ $W = Z$ $X$ $Y$ $Z$

Załóżmy, że można mieć zmienne niezależne to , i . Następnie i są silnie skorelowane (w zależności od wariancji błędu), ponieważ każdy z nich jest w pobliżu wielokrotności . Jednak jest skorelowane z którymkolwiek z lub . Ponieważ jest mały, pierwszy główny składnik jest równoległy do z wartością własną . i obciążają mocno ten element i $A = X + \epsilon Y$ $B = X - \epsilon Y$ $C = \beta Z$ $W$ $C$ $Z$ $W$ $A$ $B$ $\beta$ $\{A, B, C\}$ $X$ $2 \gg \beta$ $A$ $B$ $C$ ładuje się wcale, ponieważ jest niezależny od (i ). Niemniej jednak, jeśli wyeliminujesz ze zmiennych niezależnych, pozostawiając tylko i , wyrzucisz wszystkie informacje o zmiennej zależnej, ponieważ , i są niezależne! $X$ $Y$ $C$ $A$ $B$ $W$ $A$ $B$

Ten przykład pokazuje, że w przypadku regresji chcesz zwrócić uwagę na to, jak zmienne niezależne są skorelowane ze zmienną zależną; nie można uciec po prostu analizując relacje między zmiennymi niezależnymi.

— Whuber
źródło

1

czy powinno to być nie ?

A = X + ϵ Y

$A = X + \epsilon Y$

Z + ϵ Y

$Z + \epsilon Y$

— shabbychef

@ shabby Tak, dziękuję. (Musiałem zmienić wszystkie nazwy zmiennych w szkicu, aby pasowały do nazw OP i pomieszałem ten.)

— whuber

4

Jeśli masz tylko 3 IV, dlaczego chcesz je zmniejszyć?

To znaczy, czy twoja próbka jest bardzo mała (tak, że 3 IV grozi przeregulowaniem)? W takim przypadku rozważ częściowe najmniejsze kwadraty

A może pomiary są bardzo drogie (więc w przyszłości chciałbyś zmierzyć tylko jeden IV)? W takim przypadku rozważę przeanalizowanie różnych regresji dla każdej IV oddzielnie i razem.

A może ktoś w twojej przeszłości zbyt mocno podkreślał wartość parsimony? W takim przypadku, dlaczego nie uwzględnić wszystkich 3 IV?

— Peter Flom - Przywróć Monikę
źródło