Wybór liczby rzadkich głównych składników, które należy uwzględnić w regresji

Czy ktoś ma doświadczenie w podejściu do wyboru liczby rzadkich głównych składników, które należy uwzględnić w modelu regresji?

pca sparse regression-strategies

— Frank Harrell
źródło

Nie mam z tym konkretnie doświadczenia, ale zakładam, że walidacja krzyżowa byłaby jednym dobrym podejściem (jak zawsze).

— ameba

Chociaż nie mam bezpośredniego wglądu w twoje pytanie, natknąłem się na niektóre artykuły badawcze , które mogą Cię zainteresować. Oczywiście, jeśli dobrze rozumiem, że mówisz o rzadkim PCA , regresji głównych składników i pokrewnych tematach. W takim przypadku oto dokumenty:

— Aleksandr Blekh
źródło

Nie wiedziałem o wszystkich tych odniesieniach. Są bardzo dobre - dzięki.

— Frank Harrell,

@FrankHarrell: Nie ma za co! Cieszę się, że mogłem pomóc.

— Aleksandr Blekh

Wyniki krzyżowej weryfikacji zostały również wykorzystane do określenia optymalnej liczby wymiarów dla przestrzeni LSI. Zbyt mało wymiarów nie wykorzystało mocy predykcyjnej danych; podczas gdy zbyt wiele wymiarów spowodowało nadmierne dopasowanie. Ryc. 4 pokazuje rozkład średnich błędów dla modeli o różnej liczbie wymiarów LSI. Modele z czterowymiarowymi przestrzeniami LSI wytwarzały zarówno najmniejszą średnią liczbę błędów, jak i najmniejszą medianę liczby błędów, więc ostateczny model został zbudowany przy użyciu czterowymiarowej przestrzeni LSI.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

Mogę opublikować kopię, jeśli nie jesteś członkiem ieee.

To jest z artykułu, który napisałem w licencjacie. Miałem problem, w którym musiałem zdecydować, ile wymiarów (ukryte indeksowanie semantyczne jest podobne do PCA) do zastosowania w moim modelu regresji logistycznej. To, co zrobiłem, to wybranie miary (tj. Poziomu błędu przy użyciu prawdopodobieństwa oflagowania wynoszącego .5) i przyjrzałem się rozkładowi tego poziomu błędu dla różnych modeli wytrenowanych na różnej liczbie wymiarów. Następnie wybrałem model o najniższym poziomie błędu. Możesz użyć innych wskaźników, takich jak obszar pod krzywą ROC.

Możesz również użyć czegoś takiego jak regresja krokowa, aby wybrać liczbę wymiarów dla siebie. Jaki rodzaj regresji wykonujesz konkretnie?

Co rozumiesz przez rzadkie btw?

— Andrew Cassidy
źródło

Rzadki PC to na przykład PCA z otwarciem L1 (lasso). W zwykłym PCA zwykle możemy wprowadzać terminy w kolejności wyjaśnionej odmiany. Przy rzadkich PCA rzeczy są nieco bardziej nieobliczalne, więc wybór może być trudniejszy.

— Frank Harrell,

Pytanie było konkretnie o nielicznych głównych składników, a to odpowiedź (dobrze jak to jest) nie odnosi się w ogóle , więc -1.

— ameba

Regresja krokowa, która wybiera komponenty na podstawie skojarzeń z

Y

$Y$ spowoduje przeregulowanie, chyba że zostaną wprowadzone specjalne funkcje karne.

— Frank Harrell,

@FrankHarrell, które mogą się zdarzyć, ale są mniej podatne na to, jeśli użyjesz AIC zamiast R-kwadrat

— Andrew Cassidy

@amoeba Jestem zdezorientowany ... nie, nie odniosłem się do „rzadkiej” części głównych komentarzy, ale podałeś dokładnie taką samą sugestię, aby użyć krzyżowej weryfikacji w komentarzu?

— Andrew Cassidy,