Jaka jest zaleta zmniejszenia wymiarów predyktorów na potrzeby regresji?

Jakie są zastosowania lub zalety technik regresji redukcji wymiarów (DRR) lub technik nadzorowanej redukcji wymiarów (SDR) w porównaniu z tradycyjnymi technikami regresji (bez żadnej redukcji wymiarowości)? Ta klasa technik znajduje nisko wymiarową reprezentację zestawu cech dla problemu regresji. Przykłady takich technik obejmują krojenie regresji odwrotnej, główny kierunek Hesji, oszacowanie średniej krojonej wariancji, krojenie krojonej regresji odwrotnej, regresja głównych składników itp.

Jeśli chodzi o cross-validated RMSE, jeśli algorytm działał lepiej w zadaniu regresji bez żadnej redukcji wymiarowości, to jakie jest rzeczywiste zastosowanie redukcji wymiarowości do regresji? Nie rozumiem tych technik.
Czy te techniki są w ogóle wykorzystywane do zmniejszenia złożoności przestrzennej i czasowej regresji? Jeśli jest to podstawowa zaleta, pomocne byłyby niektóre zasoby dotyczące zmniejszania złożoności dla wysokowymiarowych zestawów danych podczas korzystania z tych technik. Dyskutuję o tym z faktem, że samo uruchomienie techniki DRR lub SDR wymaga trochę czasu i przestrzeni. Czy ta regresja SDR / DRR + w słabo przyciętym zestawie danych jest szybsza niż tylko regresja w słabym zestawie danych?
Czy to ustawienie zostało zbadane wyłącznie w sposób abstrakcyjny i nie ma dobrego zastosowania praktycznego?

Na boku: czasami są założenia, że wspólny rozkład cech i odpowiedź leży na różnorodności. Sensowne jest poznanie rozmaitości z obserwowanej próbki w tym kontekście w celu rozwiązania problemu regresji. $X$ $Y$

— karawan
źródło

Mówisz o różnorodnym uczeniu się, więc następujący post

— kjetil b halvorsen

Odpowiedzi:

Zgodnie z hipotezą różnorodności zakłada się, że dane leżą na wielowymiarowym kolektorze, implikacją jest to, że resztką jest hałas, więc jeśli wykonasz redukcję wymiarów poprawnie, powinieneś poprawić wydajność poprzez modelowanie sygnału, a nie szumu. To nie tylko kwestia przestrzeni i złożoności.

— Emre
źródło

ale nie widzę, aby techniki takie jak SIR działały lepiej po zmniejszeniu wymiarów na solidnych podstawach. Popraw mnie, jeśli się mylę lub znasz technikę SDR / DDR, która może lepiej znaleźć ten sygnał - w ustawieniach regresji daj mi znać, jaką to technikę (nazwę).

— karawan

Oczywiście zależy to od algorytmu regresji i wewnętrznej wymiarów danych. Nie mogę mówić w szczególności o SIR, ale oto artykuł, który porównuje różne algorytmy regresji w zestawie danych MNIST, który jest mało wymiarowy. Być może mógłbyś udostępnić trochę kłopotliwych danych, aby ludzie mogli się tym zająć.

— Emre,

Co to jest „różnorodna hipoteza”?

— ameba

Hipoteza, że dane wielowymiarowe zwykle leżą w pobliżu wielowymiarowego kolektora .

— Emre,

Zastanawiam się, czy te rzeczy są podobne do sieci neuronowych i nieliniowego skalowania wielowymiarowego, ponieważ „brzmią jak” powinny być świetne wszędzie, ale w praktyce radzi sobie dobrze w bardziej ograniczonym zestawie przypadków

— shadowtalker

Celem zmniejszenia wymiarów w regresji jest regularyzacja.

Większość wymienionych przez ciebie technik nie jest zbyt dobrze znana; Nie słyszałem o żadnym z nich oprócz regresji głównych składników (PCR). Odpowiem więc na temat PCR, ale oczekuję, że to samo dotyczy również innych technik.

Dwa kluczowe słowa to nadmierne dopasowanie i regularyzacja . W celu długiego leczenia i dyskusji odsyłam do elementów uczenia statystycznego , ale bardzo krótko, co się stanie, jeśli masz dużo predyktorów ( ), a za mało próbek ( ) jest to, że regresja standardowa zastąpi dane i będziesz skonstruować model, który wydaje się mieć dobrą wydajność na zestawie treningowym, ale w rzeczywistości ma bardzo słabą wydajność na dowolnym zestawie testowym. $p$ $n$

W skrajnym przykładzie, gdy liczba predyktorów przekracza liczbę próbek (ludzie określają to jako problem ), faktycznie można idealnie dopasować dowolną zmienną odpowiedzi , osiągając pozornie wydajności. To wyraźnie nonsens. $p>n$ $y$ $100\%$

Aby poradzić sobie z nadmiernym dopasowaniem, należy zastosować regularyzację , a istnieje wiele różnych strategii regularyzacji. W niektórych podejściach próbuje się drastycznie zmniejszyć liczbę predyktorów, redukując problem do sytuacji , a następnie zastosować standardową regresję. To właśnie robi regresja głównych składników. Zobacz Elementy , sekcje 3.4--3.6. PCR jest zwykle nieoptymalna i w większości przypadków niektóre inne metody regularyzacji będą działać lepiej, ale łatwo je zrozumieć i zinterpretować. $p\ll n$

Zauważ, że PCR też nie jest arbitralne (np. Losowe utrzymywanie wymiarów prawdopodobnie będzie działało znacznie gorzej). Powodem tego jest to, że PCR jest ściśle związany z regresją kalenicy, która jest standardowym regulatorem skurczu, o którym wiadomo, że działa dobrze w wielu różnych przypadkach. Zobacz moją odpowiedź tutaj dla porównania: Związek między regresją kalenicy a regresją PCA . $p$

Aby zobaczyć wzrost wydajności w porównaniu ze standardową regresją, potrzebujesz zestawu danych z dużą ilością predyktorów i niezbyt wielu próbek, i zdecydowanie musisz użyć weryfikacji krzyżowej lub niezależnego zestawu testów. Jeśli nie zauważyłeś wzrostu wydajności, być może Twój zestaw danych nie miał wystarczających wymiarów.

Powiązane wątki z dobrymi odpowiedziami:

— ameba
źródło

Biorąc pod uwagę jego publikacje , można bezpiecznie założyć, że o tym wie.

— Emre,

Dzięki, @Emre, nie miałem pojęcia, kim był OP. Być może źle zrozumiałem pytanie, ale po ponownym przeczytaniu go nie widzę, jak inaczej go interpretować. Jeśli ktoś pyta, jaka jest praktyczna zaleta PCR, odpowiedzią jest regularyzacja; PCR jest ściśle powiązany z regresją grzbietu, która jest jedną z najbardziej standardowych metod regularyzacji.

— ameba

Ale nawet w Elements mam wrażenie, że LASSO i tak przez większość czasu pokonuje PCR, a główną zaletą PCR jest to, że

p > n

$p > n$

— shadowtalker

@ssdecontrol: Zgadzam się. Myślę, że zgoda jest taka, że PCR jest prawie niekonkurencyjne i prawie zawsze istnieją lepsze podejścia. Tak też napisałem w mojej odpowiedzi (prawda?), Ale pytanie dotyczyło konkretnie redukcji wymiarów predyktorów i tego, jaki może być ich cel. Moja odpowiedź jest taka, że celem jest legalizacja.

— ameba

Zrozumiany. Ale myślę, że możemy się zgodzić, że pytanie jest ładowany specjalnie do kwestionowania jego przydatność zważywszy, że w rzeczywistości nie jest najlepszym sposobem na uregulowanie pomimo swej intuicyjnej odwoławczego

— shadowtalker