Szukam zaawansowanego studium przypadku regresji liniowej ilustrującego kroki wymagane do modelowania złożonych, wielu nieliniowych zależności za pomocą GLM lub OLS. Zaskakująco trudno jest znaleźć zasoby wykraczające poza podstawowe przykłady szkolne: większość książek, które przeczytałem, nie pójdzie dalej niż logiczna transformacja odpowiedzi w połączeniu z BoxCox jednego predyktora, lub w najlepszym przypadku naturalny spline. Również wszystkie przykłady, które do tej pory widziałem, podchodzą do każdego problemu transformacji danych w osobnym modelu, często w jednym modelu predykcyjnym.
Wiem, co to jest transformacja BoxCox lub YeoJohnson. To, czego szukam, to szczegółowe studium przypadku, w którym reakcja / związek nie są jednoznaczne. Na przykład odpowiedź nie jest ściśle pozytywna (więc nie można użyć log lub BoxCox), predyktory mają nieliniowe relacje między sobą i przeciw odpowiedzi, a transformacje danych o maksymalnym prawdopodobieństwie nie wydają się sugerować standardowego 0.33 lub 0,5 wykładnika. Stwierdzono również, że wariancja rezydualna jest niestała (nigdy nie jest), więc odpowiedź również musi zostać przekształcona i trzeba będzie dokonać wyboru między niestandardową regresją rodziny GLM lub transformacją odpowiedzi. Naukowiec prawdopodobnie dokona wyboru, aby uniknąć przeładowania danych.
EDYTOWAĆ
Do tej pory zgromadziłem następujące zasoby:
- Strategie modelowania regresji, F. Harrell
- Zastosowane ekonometryczne szeregi czasowe, W. Enders
- Dynamiczne modele liniowe z R, G. Petris
- Analiza regresji stosowanej, D. Kleinbaum
- Wprowadzenie do nauki statystycznej, G. James / D. Witten
Czytam tylko ostatni (ISLR) i jest to bardzo dobry tekst (5 gwiazdek na moim zegarku), chociaż bardziej zorientowany na ML niż zaawansowane modelowanie regresji.
Jest też ten dobry post na CV, który przedstawia trudny przypadek regresji.