Na czym polega „regresja o zmniejszonej randze”?


22

Czytałem Elementy uczenia statystycznego i nie mogłem zrozumieć, o co chodzi w rozdziale 3.7 „Skurcz i wybór wielu wyników”. Mówi o RRR (regresja o zmniejszonej rangi) i mogę jedynie zrozumieć, że założenie dotyczy uogólnionego wielowymiarowego modelu liniowego, w którym współczynniki są nieznane (i należy je oszacować), ale wiadomo, że nie ma pełnej rangi. To jedyna rzecz, którą rozumiem.

Reszta matematyki jest poza mną. Nie pomaga nawet to, że autorzy mówią „można pokazać” i pozostawiają rzeczy jako ćwiczenie.

Czy ktoś może pomóc wyjaśnić, co się tutaj dzieje, intuicyjnie? Czy ten rozdział rzekomo omawia nowe metody? albo co?


1
Wydaje się, że daje metody regresji, które wykorzystują modele wielu wyników w kontekście skurczu i selekcji zmiennych. Nie ma jednego wyniku Y, ale więcej niż jednego wyniku Y. Załóżmy, że masz wyniki 5 lat, a następnie w tej sekcji omówiono metody łączenia oszacowania metod zamiast budowania 5 oddzielnych modeli.
spdrnl

1
Moje kilka centów: założenie macierzy niskiej rangi upraszcza sprawę. Na szczęście to założenie obowiązuje dla wielu źródeł danych w świecie rzeczywistym.
Vladislavs Dovgalecs

1
Wygląda na to, że założenie to dotyczy ograniczenia rozwiązania. W tym artykule opisano, dlaczego statprob.com/encyclopedia/…
Vladislavs Dovgalecs

Odpowiedzi:


42

1. Co to jest regresja o zmniejszonej wartości (RRR)?

Rozważmy wielowymiarową wielokrotną regresję liniową, tj. Regresję z zmiennymi niezależnymi i q zmiennymi zależnymi. Niech X i Y będą zestawami danych predykcyjnych ( n × p ) i odpowiedzi ( n × q ). Następnie zwykłą zwykłą regresję metodą najmniejszych kwadratów (OLS) można sformułować jako minimalizującą następującą funkcję kosztów:pqXYn×pn×q

L=YXB2,

gdzie jest macierzą wag regresji p × q . Jego rozwiązanie jest przez B O L S = ( XX ) - 1 XY , i jest on łatwo zauważyć, że jest to równoważne z q oddzielne OLS regresji, po jednym dla każdej zmiennej zależnej.Bp×q

B^OLS=(XX)1XY,
q

Zmniejszonej pozycja regresji wprowadza ograniczenie na stopień , a mianowicie L powinny być zminimalizowane rangi ( B ) R , gdzie R jest maksymalna dopuszczalna rangę B .BLrank(B)rrB

2. Jak uzyskać rozwiązanie RRR?

Okazuje się, że RRR może być obsadzony jako problem wektora własnego. Rzeczywiście, wykorzystując fakt, że OLS jest zasadniczo prostopadły występ na powierzchni kolumny , można przepisać L tak L = Y - X B O L S2 + X B O L S - X B 2 . Pierwszy termin nie zależy od B , a drugi składnik może być minimalizowana przez SVD / PCA z dopasowanymi wartościami Y = X BXL

L=YXB^OLS2+XB^OLSXB2.
B .Y^=XB^OLS

W szczególności, jeżeli są przede r główne osie Y , a następnie B R R R = B O L S U r U R .UrrY^

B^RRR=B^OLSUrUr.

3. Do czego służy RRR?

Mogą istnieć dwa powody, aby używać RRR.

Br

Po drugie, można go użyć jako metody redukcji wymiarów / eksploracji danych. Jeśli mamy wiele zmiennych predykcyjnych i kilka zmiennych zależnych, wówczas RRR konstruuje „czynniki ukryte” w przestrzeni predyktorów, które najlepiej wykonują wyjaśnienie wariancji DV. Następnie można spróbować zinterpretować te ukryte czynniki, wykreślić je itp. O ile mi wiadomo, robi się to rutynowo w ekologii, gdzie RRR jest znane jako analiza redundancji i jest przykładem tego, co nazywają metodami święceń ( patrz odpowiedź @ GavinSimpson tutaj ).

4. Związek z innymi metodami redukcji wymiarów

RRR jest ściśle powiązany z innymi metodami redukcji wymiarów, takimi jak CCA i PLS. Omówiłem to trochę w mojej odpowiedzi na pytanie: Jaki jest związek między częściowymi najmniejszymi kwadratami, regresją o zmniejszonej rangi i regresją składowych głównych?

XYn×pn×qwRpXvRqY

PCA:Var(Xw)RRR:Var(Xw)Corr2(Xw,Yv)Var(Yv)PLS:Var(Xw)Corr2(Xw,Yv)Var(Yv)=Cov2(Xw,Yv)CCA:Var(Xw)Corr2(Xw,Yv)

Zobacz tam więcej szczegółów.

Zobacz Torre, 2009, A Least-Squares Framework for Component Analysis, aby uzyskać szczegółowe informacje na temat tego, jak większość powszechnych liniowych metod wielowymiarowych (np. PCA, CCA, LDA, - ale nie PLS!) Można postrzegać jako RRR.

5. Dlaczego ta sekcja w Hastie i in. takie mylące?

L=YXB2,
L=(YXB)(YY)1/22,
YYwybiela się, a różnica znika. Co więc Hastie i in. wezwanie RRR to tak naprawdę CCA w przebraniu (i rzeczywiście zobacz ich 3.69).

Nic z tego nie zostało właściwie wyjaśnione w tym rozdziale, stąd zamieszanie.


Zobacz moją odpowiedź na przyjazny samouczek lub wprowadzenie do regresji o zmniejszonej wartości do dalszego czytania.


To jest bardzo ładnie napisane szczegółowe wyjaśnienie. Dziękuję, doceniam to.
cgo

rB

1
YBBLBL

1
rrdf^(r)=pq(pr)(qr)+"a small correction term"pqrYY^RRRR(r)Fro2(nqdf^(r))2


3

Regresja o zmniejszonej randze to model, w którym nie ma jednego wyniku Y, ale wielu wyników Y. Oczywiście dla każdej odpowiedzi można po prostu dopasować osobną regresję liniową wielowymiarową, ale wydaje się to nieefektywne, gdy funkcjonalny związek między predyktorami i każdą odpowiedzią jest wyraźnie podobny. Zobacz to ćwiczenie kaggle w sytuacji, w której, jak sądzę, oczywiście.

https://www.kaggle.com/c/bike-sharing-demand/data

Istnieje kilka powiązanych technik podejścia do tego problemu, które budują „czynniki” lub „składniki” ze zmiennych X, które są następnie używane do przewidywania Ys. Ta strona dokumentacji SAS pomogła mi wyjaśnić różnice. Wydaje się, że zmniejszona regresja rangi polega na wyodrębnianiu składników, które maksymalnie uwzględniają zmienność między odpowiedziami, w przeciwieństwie do częściowych najmniejszych kwadratów, które wyodrębniają składniki, które maksymalnie uwzględniają różnice między odpowiedziami i predyktorami.

https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm


+1. To jest poprawne. Omówiłem tę stronę dokumentacji SAS, aw szczególności ich liczbę, w mojej odpowiedzi na stats.stackexchange.com/questions/206587.
ameba mówi Przywróć Monikę
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.