Chciałbym znaleźć predyktory dla ciągłej zmiennej zależnej z zestawu 30 zmiennych niezależnych. Korzystam z regresji Lasso zaimplementowanej w pakiecie glmnet w R. Oto kod zastępczy :
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Moje pytania dotyczą interpretacji wyników:
Czy słusznie jest powiedzieć, że w wyniku końcowym wszystkie predyktory, które wykazują współczynnik różny od zera, są powiązane ze zmienną zależną?
Czy byłby to wystarczający raport w kontekście publikacji w czasopiśmie? Czy też oczekuje się, że dostarczy statystyki testowe dla znaczenia współczynników? (Kontekstem jest genetyka ludzka)
Czy uzasadnione jest obliczenie wartości p lub innej statystyki testowej w celu stwierdzenia istotności? Jak to by było możliwe? Czy procedura jest zaimplementowana w R?
Czy prosty wykres regresji (punkty danych wykreślone z dopasowaniem liniowym) dla każdego predyktora byłby odpowiednim sposobem na wizualizację tych danych?
Może ktoś może podać kilka prostych przykładów opublikowanych artykułów pokazujących wykorzystanie Lasso w kontekście prawdziwych danych i jak to zgłosić w czasopiśmie?
cv
do kroku przewidywania?