Zaawansowane przykłady modelowania regresji


22

Szukam zaawansowanego studium przypadku regresji liniowej ilustrującego kroki wymagane do modelowania złożonych, wielu nieliniowych zależności za pomocą GLM lub OLS. Zaskakująco trudno jest znaleźć zasoby wykraczające poza podstawowe przykłady szkolne: większość książek, które przeczytałem, nie pójdzie dalej niż logiczna transformacja odpowiedzi w połączeniu z BoxCox jednego predyktora, lub w najlepszym przypadku naturalny spline. Również wszystkie przykłady, które do tej pory widziałem, podchodzą do każdego problemu transformacji danych w osobnym modelu, często w jednym modelu predykcyjnym.

Wiem, co to jest transformacja BoxCox lub YeoJohnson. To, czego szukam, to szczegółowe studium przypadku, w którym reakcja / związek nie są jednoznaczne. Na przykład odpowiedź nie jest ściśle pozytywna (więc nie można użyć log lub BoxCox), predyktory mają nieliniowe relacje między sobą i przeciw odpowiedzi, a transformacje danych o maksymalnym prawdopodobieństwie nie wydają się sugerować standardowego 0.33 lub 0,5 wykładnika. Stwierdzono również, że wariancja rezydualna jest niestała (nigdy nie jest), więc odpowiedź również musi zostać przekształcona i trzeba będzie dokonać wyboru między niestandardową regresją rodziny GLM lub transformacją odpowiedzi. Naukowiec prawdopodobnie dokona wyboru, aby uniknąć przeładowania danych.

EDYTOWAĆ

Do tej pory zgromadziłem następujące zasoby:

  • Strategie modelowania regresji, F. Harrell
  • Zastosowane ekonometryczne szeregi czasowe, W. Enders
  • Dynamiczne modele liniowe z R, G. Petris
  • Analiza regresji stosowanej, D. Kleinbaum
  • Wprowadzenie do nauki statystycznej, G. James / D. Witten

Czytam tylko ostatni (ISLR) i jest to bardzo dobry tekst (5 gwiazdek na moim zegarku), chociaż bardziej zorientowany na ML niż zaawansowane modelowanie regresji.

Jest też ten dobry post na CV, który przedstawia trudny przypadek regresji.


8
Myślę, że książka Franka Harrella ( amazon.com/... ) może być pomocna.
Adam Robinsson,

@AdamRobinsson Widzę, że spis treści dotyka kilku istotnych tematów (modele wielowymiarowe, splajny, wielokoliniowość), ale czy te metodologie są zilustrowane razem w prawdziwym przykładzie lub każdy temat jest wyjaśniony osobno? Ponieważ zwykle w rzeczywistych przykładach wszystkie problemy spotykają się razem i nigdy nie jest oczywiste, jak sobie z nimi poradzić.
Robert Kubrick

1
Nie przeczytałem jeszcze całej książki, ale pierwsze 150 stron było absolutnie świetne (nie jestem statystykiem, tylko entuzjastą). Przykłady są obszerne i rozwinięte. Książce towarzyszy pakiet RMS (strategie modelowania regresji) do R. Spojrzałem także na konkurencyjną książkę Davida Kleinbaumsa (niestety zapomniałem tytułu), ale zawierała ona znacznie mniej strategii i przykładów (i była dwukrotnie droższa).
Adam Robinsson

3
@RobertKubrick: „Regresja wielowymiarowa” oznacza z więcej niż jedną odpowiedzią (zobacz wiki dla dodanego tagu lub tutaj ). „Regresja wielokrotna” oznacza z więcej niż jednym predyktorem.
Scortchi - Przywróć Monikę

3
Możesz sprawdzić Zastosowane ekonometryczne szeregi czasowe firmy Enders. Nowa wersja obejmuje modele nieliniowe pod koniec książki. Prawie wszystkie dane są publicznie dostępne na stronie internetowej St. Louis Fed (dostępne za pośrednictwem quantmod w R), dzięki czemu możesz podążać za przykładami z życia. Dynamiczne modele liniowe z R mają również kilka przykładów z prawdziwymi danymi, które są całkiem przyzwoite.
Eric Brady,

Odpowiedzi:


10

Strategie modelowania regresji i ISLR, o których wspominali już inni, to dwie bardzo dobre sugestie. Mam kilka innych, które możesz rozważyć.

Zastosowane modelowanie predykcyjne Kuhna i Johnsona zawiera wiele dobrych studiów przypadków i jest bardzo praktyczne.

-

Uogólnione modele addytywne: Wprowadzenie do R. autorstwa Simona Wooda jest dobrym traktowaniem uogólnionych modeli addytywnych i tego, jak je dopasowujesz, używając jego mgcvpakietu dla R. Zawiera on kilka niebanalnych praktycznych przykładów. Wykorzystanie modeli GAM jest alternatywą dla znalezienia „poprawnej” transformacji, ponieważ odbywa się to w sposób dostosowujący dane poprzez rozszerzenie splajnu i karane oszacowanie maksymalnego prawdopodobieństwa. Jednak nadal trzeba dokonać innych wyborów, np. Wybór funkcji łącza.

Mboost pakiet R pasuje również modele GAM, ale stosując inne podejście poprzez pobudzanie. Polecam samouczek dla pakietu (jednej z winiet).

Wspomnę również o odkrywaniu modeli empirycznych i ocenie teorii przez Hendry'ego i Doornika, chociaż sam jeszcze nie czytałem tej książki. Polecono mi to.


Zastosowane modelowanie predykcyjne ... tak sobie. Wolę ISLR.
Robert Kubrick

5

Jeden z najlepszych materiałów szkoleniowych , które można znaleźć na temat zaawansowanej, wielorakiej, złożonej (w tym nieliniowej) regresji, oparty jest na książce Strategie modelowania regresji autorstwa Franka E. Harrell Jr.

Książka jest omawiana w komentarzach, ale nie w tym materiale, który sam w sobie jest świetnym źródłem.


2

Poleciłbym książkę Mostly Harmless Econometrics autorstwa Joshua D. Angrista i Jörn-Steffen Pischke

Jest to najbardziej realny, solny na ziemi tekst, który posiadam i jest super tani, około 26,00 $ nowy. Książka została napisana dla absolwenta statystyki / ekonomisty, więc jest bardzo zaawansowana.

Teraz ta książka nie jest dokładnie tym, o co prosisz, w tym sensie, że nie koncentruje się na „złożonych, wielokrotnych nieliniowych związkach”, tak jak na podstawowych podstawach, takich jak endoegeniczność, interpretacja i sprytny projekt regresji.

Ale oferuję tę książkę, aby spróbować coś wyjaśnić. To znaczy, jeśli chodzi o zastosowanie analizy regresji w świecie rzeczywistym, najtrudniejsze kwestie na ogół nie mają związku z faktem, że nasze modele nie są wystarczająco złożone ... uwierz mi, że jesteśmy dobrzy w perkusji bardzo złożonej modele! Raczej największe problemy to takie

  1. Endogeniczność
  2. nie mając wszystkich potrzebnych nam danych
  3. Mając za dużo danych ... a to wszystko bałagan!
  4. Wiele osób nie może poprawnie zinterpretować własnych modeli (problem, który staje się coraz bardziej powszechny, gdy tworzymy modele bardziej złożone)

Dobra znajomość GMM, filtrów nieliniowych i regresji nieparametrycznej obejmuje w zasadzie wszystkie wymienione przez Ciebie tematy i możesz się ich nauczyć w miarę postępów. Jednak w przypadku danych ze świata rzeczywistego ramy te mogą być niepotrzebnie złożone, często szkodliwe.

Często jest to umiejętność bycia sprytnie prostym, a nie całkowicie uogólnionym i wysoce wyrafinowanym, co przynosi największe korzyści w analizach w świecie rzeczywistym. Ta książka pomoże ci w tym pierwszym.


1

Możesz odnieść się do Wstępu do uczenia statystycznego z R (ISLR), książka szczegółowo omawia splajny i regresję wielomianową z przypadkami.


1

Nie jestem pewien, jaki jest cel twojego pytania. Mogę polecić tekst analizy ekonometrycznej Greene'a . Zawiera mnóstwo odniesień do dokumentów. Prawie każdy przykład w książce odnosi się do opublikowanego artykułu.

Aby nadać smak, spójrz na przykład 7.6 „Efekty interakcji w loglinearnym modelu dochodu” na str. 195. Odwołuje się do artykułu i zestawu danych: Regina T. Riphahn, Achim Wambach i Andreas Million, „ Efekty motywacyjne w popycie na opiekę zdrowotną: szacowanie danych na podstawie danych z dwóch zmiennych ”, Journal of Applied Econometrics, t. 18, nr 4, 2003, s. 387-405.

Przykład dotyczy użycia modeli logicznych i efektów interakcji. Możesz przeczytać cały artykuł lub jego opis w podręcznikach. To nie jest gotowy przypadek użycia. To prawdziwe opublikowane badania. W ten sposób ludzie faktycznie wykorzystują metody statystyczne w badaniach ekonomicznych.

Jak napisałem, książka jest nękana takimi przypadkami użycia, jak użycie zaawansowanych metod statystycznych.


0

Czy zapoznałeś się z niektórymi kursami / książkami Financial Time Series Analysis, które pisze Ruey Tsay (UChicago)?

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

Klasy Ruey Tsays i podręcznik dostarczają wielu realnych przykładów w finansach złożonych regresji tego typu, które są tworzone na potrzeby rynków finansowych. Rozdział 1 rozpoczyna się od modeli regresji wieloczynnikowej i rozszerza się na modele szeregów sezonowego czasu autoregresji według rozdziału 5 lub 6.


2
Tak, zrobiłem to i wcale mi się nie podoba. Ma bardzo szeroki zakres (od modeli zmienności przez wysoką częstotliwość po ARIMA ...), delikatnie dotykaj każdego przedmiotu (jak to możliwe, mając tyle dostępnych tematów), a badania R i wyzwania są ograniczone do minimum. Jest to przegląd artykułów naukowych i już wspomnianych teorii / modeli, które można znaleźć gdzie indziej. Dokładnie to rozumiem przez przypadki szkolne, które nigdy nie radzą sobie ze złożonością wielu wyzwań w rzeczywistym, zaawansowanym problemie.
Robert Kubrick
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.