Pracuję nad projektem i potrzebuję zasobów, aby przyspieszyć.
Zbiór danych obejmuje około 35 000 obserwacji na około 30 zmiennych. Około połowa zmiennych jest jakościowa, a niektóre mają wiele różnych możliwych wartości, tzn. Jeśli podzielisz zmienne jakościowe na zmienne obojętne, będziesz miał znacznie więcej niż 30 zmiennych. Ale nadal prawdopodobnie rzędu kilkuset maks. (n> p).
Odpowiedź, którą chcemy przewidzieć, jest porządkowa z 5 poziomami (1,2,3,4,5). Predyktory to połączenie ciągłego i kategorycznego, około połowa każdego z nich. Oto moje dotychczasowe myśli / plany: 1. Traktuj reakcję jako ciągłą i uruchom liniową regresję waniliową. 2. Uruchom nominalną i porządkową logistykę i regresję probitową 3. Użyj MARS i / lub innego smaku regresji nieliniowej
Znam regresję liniową. MARS jest wystarczająco dobrze opisany przez Hastie i Tibshirani. Ale jestem zagubiony, jeśli chodzi o porządkowy logit / probit, szczególnie w przypadku tak wielu zmiennych i dużego zbioru danych.
Pakiet r glmnetcr wydaje się być moim najlepszym wyborem , ale dokumentacja prawie nie wystarcza, aby zabrać mnie tam, gdzie powinienem być.
Gdzie mogę uzyskać więcej informacji?