Wielowymiarowa regresja liniowa z lasso wr

Próbuję utworzyć model zredukowany, aby przewidzieć wiele zmiennych zależnych (DV) (~ 450), które są wysoce skorelowane.

Moje zmienne niezależne (IV) są również liczne (~ 2000) i wysoce skorelowane.

Jeśli użyję lasso do wybrania zredukowanego modelu dla każdego wyjścia osobno, nie ma gwarancji, że uzyskam ten sam podzbiór zmiennych niezależnych, ponieważ pętlę nad każdą zmienną zależną.

Czy istnieje regresja liniowa wielowymiarowa, która używa lasso w R?

To nie jest grupowe lasso. grupa lasso grupy IV. Chcę wielowymiarowej regresji liniowej (co oznacza, że DV jest macierzą, a nie wektorem skalarów), która również implementuje lasso. (Uwaga: jak wskazuje NRH, nie jest to prawdą. Lasso grupowe to ogólny termin obejmujący strategie grupujące IV, ale także strategie grupujące inne parametry, takie jak DV)

Znalazłem ten artykuł, który wchodzi w coś o nazwie rzadkie nakładające się zestawy Lasso

Oto kod, który wykonuje regresję liniową na wielu odmianach

> dim(target)
[1] 6060  441
> dim(dictionary)
[1] 6060 2030
> fit = lm(target~dictionary)

Oto kod, który robi lasso na jednym DV

> fit = glmnet(dictionary, target[,1])

I to właśnie chciałbym zrobić:

> fit = glmnet(dictionary, target)
Error in weighted.mean.default(y, weights) : 
  'x' and 'w' must have the same length

Wybieranie funkcji pasujących do WSZYSTKICH celów jednocześnie

r lasso multivariate-regression

— kmace
źródło

Nie jest jasne, o co pytasz, z wyjątkiem ostatniego punktu. Paczka jest nazywana glmneti ma dokładną winietę.

— generic_user

Co rozumiesz przez „za każdym razem”? Czy używasz tego w podzestawach swoich danych? Krzyżowa walidacja? Różne próbki?

— shadowtalker,

Za każdym razem mam na myśli, że obecnie uruchamiam glmnet na jednej zmiennej zależnej na raz i przeglądam je wszystkie

— kmace

Innymi słowy, moje y jest zawsze wektorem, a nie macierzą

— kmace

@Firebug absolutnie. Nie wiedziałem, że termin był bardziej ogólny. Przepraszam za to

— kmace

W przypadku odpowiedzi wielowymiarowych (liczba zmiennych zależnych większych niż 1) potrzebujesz family = "mgaussian"w wywołaniu glmnet.

Pakiet lsgl jest alternatywnym, co zapewnia bardziej elastyczne karny.

Z odpowiedzią wymiarową , pakiet glmnet implementuje karę gdzie jest wektorem współczynników dla tego predyktora. Na stronie pomocy możesz przeczytać: $k$

\sum_{j = 1}^{p} ‖ β_{j} ‖_{2}

$\sum_{j = 1}^p \| \boldsymbol{\beta}_j \|_2$

β_{j} = (β_{j 1}, \dots, β_{j k})^{T}

$\boldsymbol{\beta}_j = (\beta_{j1}, \ldots, \beta_{jk})^T$

j

$j$ glmnet

Pierwszy [ family = "mgaussian"] pozwala dopasować model gaussowski z wieloma odpowiedziami, stosując karę „grupowo-lasso” na współczynniki dla każdej zmiennej. Łączenie odpowiedzi w ten sposób nazywa się uczeniem „wielozadaniowym” w niektórych domenach.

Kara ta jest przykładem grupowej kary lasso, która grupuje parametry dla różnych odpowiedzi powiązanych z tym samym predyktorem. Powoduje to wybór tych samych predyktorów dla wszystkich odpowiedzi dla danej wartości parametru strojenia.

Pakiet lsgl implementuje rzadkie grupowe kary lasso w postaci gdzie i są pewnymi wagami wybranymi w celu zrównoważenia wkładów z różnych warunków. Domyślnie jest to i . Parametr jest parametrem dostrajającym. Przy (i ) kara jest równoważna z karą zastosowaną przez z . Z (i

α \sum_{j = 1}^{p} \sum_{l = 1}^{k} ξ_{j l} | β_{j l} | + (1 - α) \sum_{j = 1}^{p} γ_{j} ‖ β_{j} ‖_{2}

$\alpha \sum_{j=1}^p \sum_{l = 1}^k \xi_{jl} |\beta_{jl}| + (1-\alpha) \sum_{j = 1}^p \gamma_{j} \| \boldsymbol{\beta}_j \|_2$

ξ_{j l}

$\xi_{jl}$

γ_{j}

$\gamma_{j}$

ξ_{j l} = 1

$\xi_{jl} = 1$

γ_{j} = \sqrt{k}

$\gamma_{j} = \sqrt{k}$

α \in [0, 1]

$\alpha \in [0,1]$

α = 0

$\alpha = 0$

γ_{j} = 1

$\gamma_j = 1$ glmnetfamily = "mgaussian"

α = 1

$\alpha = 1$

ξ_{j l} = 1

$\xi_{jl} = 1$ ) kara daje zwykłe lasso. Implementacja lsgl pozwala również na dodatkowe grupowanie predyktorów.

Notatka o grupie Lasso. Termin grupa lasso jest często kojarzony z grupą predyktorów. Jednak z bardziej ogólnego punktu widzenia grupa lasso to po prostu grupowanie parametrów w karach. Grupowanie używane przez glmnetwith family = "mgaussian"to grupowanie parametrów w odpowiedziach. Efektem takiego grupowania jest połączenie oszacowania parametrów w odpowiedziach, co okazuje się dobrym pomysłem, jeśli wszystkie odpowiedzi można przewidzieć na podstawie tego samego zestawu predyktorów. Ogólna idea łączenia wielu problemów uczenia się, które mają podobną strukturę, jest znana jako uczenie się wielu zadań .

— NRH
źródło