Moja sytuacja:
- mała wielkość próby: 116
- binarna zmienna wyniku
- długa lista zmiennych objaśniających: 44
- zmienne objaśniające nie pochodziły z mojej głowy; ich wybór opierał się na literaturze.
- większość przypadków w próbie i większość zmiennych ma brakujące wartości.
Podejdź do wybranego wyboru funkcji: LASSO
Pakiet glmnet R nie pozwala mi uruchomić procedury glmnet, prawdopodobnie z powodu istnienia brakujących wartości w moim zestawie danych. Wydaje się, że istnieją różne metody postępowania z brakującymi danymi, więc chciałbym wiedzieć:
- Czy LASSO nakłada jakiekolwiek ograniczenia w zakresie metody imputacji, której mogę użyć?
- Jaki byłby najlepszy zakład dla metody imputacji? Idealnie potrzebuję metody, którą mógłbym uruchomić na SPSS (najlepiej) lub R.
AKTUALIZACJA 1: Z niektórych poniższych odpowiedzi stało się jasne, że zajmowałem się bardziej podstawowymi zagadnieniami przed rozważeniem metod imputacji. Chciałbym tutaj dodać nowe pytania na ten temat. W odpowiedzi sugerującej kodowanie jako wartość stałą i utworzenie nowej zmiennej w celu radzenia sobie z wartościami „nie dotyczy” i użyciem lasso grupowego:
- Czy powiedziałbyś, że jeśli użyję grupy LASSO, będę w stanie zastosować podejście sugerowane do predyktorów ciągłych, a także predyktorów kategorycznych? Jeśli tak, zakładam, że byłoby to równoznaczne z utworzeniem nowej kategorii - obawiam się, że może to wprowadzić uprzedzenia.
- Czy ktoś wie, czy pakiet glmnet R obsługuje grupę LASSO? Jeśli nie, czy ktoś zaproponowałby inną, która robi to w połączeniu z regresją logistyczną? Kilka opcji wspominających o grupie LASSO można znaleźć w repozytorium CRAN, czy są jakieś sugestie najbardziej odpowiednie dla mojego przypadku? Może SGL?
Jest to kontynuacja mojego poprzedniego pytania ( Jak wybrać podzbiór zmiennych z mojej oryginalnej długiej listy, aby przeprowadzić analizę regresji logistycznej? ).
OBS: Nie jestem statystykiem.