Czy ktoś ma doświadczenie w podejściu do wyboru liczby rzadkich głównych składników, które należy uwzględnić w modelu regresji?
Czy ktoś ma doświadczenie w podejściu do wyboru liczby rzadkich głównych składników, które należy uwzględnić w modelu regresji?
Odpowiedzi:
Chociaż nie mam bezpośredniego wglądu w twoje pytanie, natknąłem się na niektóre artykuły badawcze , które mogą Cię zainteresować. Oczywiście, jeśli dobrze rozumiem, że mówisz o rzadkim PCA , regresji głównych składników i pokrewnych tematach. W takim przypadku oto dokumenty:
Wyniki krzyżowej weryfikacji zostały również wykorzystane do określenia optymalnej liczby wymiarów dla przestrzeni LSI. Zbyt mało wymiarów nie wykorzystało mocy predykcyjnej danych; podczas gdy zbyt wiele wymiarów spowodowało nadmierne dopasowanie. Ryc. 4 pokazuje rozkład średnich błędów dla modeli o różnej liczbie wymiarów LSI. Modele z czterowymiarowymi przestrzeniami LSI wytwarzały zarówno najmniejszą średnią liczbę błędów, jak i najmniejszą medianę liczby błędów, więc ostateczny model został zbudowany przy użyciu czterowymiarowej przestrzeni LSI.
Mogę opublikować kopię, jeśli nie jesteś członkiem ieee.
To jest z artykułu, który napisałem w licencjacie. Miałem problem, w którym musiałem zdecydować, ile wymiarów (ukryte indeksowanie semantyczne jest podobne do PCA) do zastosowania w moim modelu regresji logistycznej. To, co zrobiłem, to wybranie miary (tj. Poziomu błędu przy użyciu prawdopodobieństwa oflagowania wynoszącego .5) i przyjrzałem się rozkładowi tego poziomu błędu dla różnych modeli wytrenowanych na różnej liczbie wymiarów. Następnie wybrałem model o najniższym poziomie błędu. Możesz użyć innych wskaźników, takich jak obszar pod krzywą ROC.
Możesz również użyć czegoś takiego jak regresja krokowa, aby wybrać liczbę wymiarów dla siebie. Jaki rodzaj regresji wykonujesz konkretnie?
Co rozumiesz przez rzadkie btw?