Dlaczego ważne jest rozróżnienie między regresją „liniową” a „nieliniową”?

12

Jakie jest znaczenie rozróżnienia między modelami liniowymi i nieliniowymi? Pytanie Nieliniowy vs. uogólniony model liniowy: jak odnosisz się do regresji logistycznej, Poissona itp.? a jego odpowiedzią było niezwykle pomocne wyjaśnienie liniowości / nieliniowości uogólnionych modeli liniowych. Rozróżnienie modeli liniowych od nieliniowych wydaje się niezwykle ważne, ale nie jest dla mnie jasne, dlaczego? Rozważmy na przykład następujące modele regresji:

\begin{aligned} (1) & E [Y ∣ X] & = β_{0} + β_{1} X \\ (2) & E [Y ∣ X] & = β_{0} + β_{1} X + β_{2} X^{2} \\ (3) & E [Y ∣ X] & = β_{0} + β_{1}^{2} X \\ (4) & E [Y ∣ X] & = {1 + \exp (- [β_{0} + β_{1} X]}^{- 1} \end{aligned}

$\begin{align} E[Y \mid X] & = \beta_0 + \beta_1 X \tag{1} \\ E[Y \mid X] & = \beta_0 + \beta_1 X + \beta_2 X^2 \tag{2} \\ E[Y \mid X] & = \beta_0 + \beta_1^2 X \tag{3} \\ E[Y \mid X] & = \{1+\exp(-[ \beta_0 + \beta_1 X]\}^{-1} \tag{4} \end{align}$

Oba modele 1 i 2 są liniowe, a rozwiązania istnieją w formie zamkniętej, którą można łatwo znaleźć za pomocą standardowego estymatora OLS. Nie dotyczy to modeli 3 i 4, które są nieliniowe, ponieważ (niektóre) pochodne wrt są nadal funkcjami . $\beta$ $E[Y\mid X]$ $\beta$ $\beta$

Jednym prostym rozwiązaniem do oszacowania w Modelu 3 jest linearyzacja modelu poprzez ustawienie , oszacowanie za pomocą modelu liniowego, a następnie obliczenie . $\beta_1$ $\gamma = \beta_1^2$ $\gamma$ $\beta_1 = \sqrt{\gamma}$

Aby oszacować parametry w Modelu 4, możemy założyć, że ma rozkład dwumianowy (członek rodziny wykładniczej) i, wykorzystując fakt, że formą logistyczną modelu jest łącze kanoniczne, linearyzuje rogi modelu. To był znaczący wkład Neldera i Wedderburn . $Y$

Ale dlaczego ta nieliniowość jest przede wszystkim problemem? Dlaczego nie można po prostu użyć jakiegoś algorytmu iteracyjnego do rozwiązania Modelu 3 bez linearyzacji przy użyciu funkcji pierwiastka kwadratowego lub Modelu 4 bez wywoływania GLM. Podejrzewam, że przed rozpowszechnieniem potęgi obliczeniowej statystycy próbowali wszystko zlinearyzować. Jeśli to prawda, to może „problemy” wprowadzone przez nieliniowość są pozostałością po przeszłości? Czy komplikacje wprowadzone przez modele nieliniowe mają jedynie charakter obliczeniowy, czy też istnieją inne teoretyczne problemy, które sprawiają, że modele nieliniowe są trudniejsze w dopasowaniu do danych niż modele liniowe?

linear-model nonlinear-regression nonlinear

— użytkownik1849779
źródło

1

Jeśli chcesz oszacować , po prostu oszacuj (prosta regresja liniowa ), a następnie weź ...

E [Y | X] = β_{0} + β_{1}^{2} X

$E[Y|X] = \beta_0 + \beta_1^2 X$

E [Y | X] = β_{0} + γ X

$E[Y|X] = \beta_0 + \gamma X$

β_{1} = \sqrt{γ}

$\beta_1 = \sqrt{\gamma}$

— Tim

@ Tim, dzięki za komentarz. Byłem świadomy tej transformacji jako możliwości, ale starałem się zadać nieco inne pytanie. Zasadniczo zredagowałem to pytanie, mam nadzieję, że na lepsze.

— user1849779,

5

Widzę dwie główne różnice:

liniowość czyni to prostym i solidnym. Na przykład (liniowy) OLS jest obiektywnym estymatorem przy nieznanym rozkładzie zakłóceń. Zasadniczo modele GLM i nieliniowe nie są. OLS jest również odporny na różne modele struktury błędów (efekty losowe, grupowanie itp.), W których w modelach nieliniowych zazwyczaj trzeba przyjąć dokładny rozkład tych terminów.
Rozwiązanie jest proste: wystarczy kilka mnożenia macierzy + 1 odwrotność. Oznacza to, że prawie zawsze możesz go rozwiązać, nawet w przypadkach, gdy funkcja celu jest prawie płaska (wielokoliniowość.) Metody iteracyjne mogą nie zbiegać się w takich problematycznych przypadkach (co w pewnym sensie jest dobrą rzeczą). Łatwe rozwiązanie może lub może nie może być mniejszym problemem w dzisiejszych czasach. Komputery stają się szybsze, ale dane stają się większe. Czy kiedykolwiek próbowałeś uruchomić regresję logit na obserwacjach 1G?

Poza tym modele liniowe są łatwiejsze do interpretacji. W modelach liniowych efekty krańcowe równe współczynnikom i są niezależne od wartości X (chociaż terminy wielomianowe psują tę prostotę).

— Ott Toomet
źródło

I rozróżnienie to dotyczy głównie wygody lub historycznego wykorzystania.

— Martha

2

Wiele modeli w biologii (i innych dziedzinach) jest nieliniowych, więc najlepiej pasują do regresji nieliniowej. Oczywiście matematyka jest inna. Ale z punktu widzenia analityka danych naprawdę jest tylko jedna ważna różnica.

Regresja nieliniowa wymaga początkowych wartości szacunkowych dla każdego parametru. Jeśli te wstępne szacunki są dalekie, program regresji nieliniowej może zbiegać się na fałszywym minimum i dawać bezużyteczne lub mylące wyniki.

— Harvey Motulsky
źródło

2

To z pewnością część odpowiedzi. Ale twierdząc, że jedyną różnicą jest niewielka technika, możesz nadmiernie minimalizować problemy modeli nieliniowych. Na przykład niektóre proste z biologii mogą mieć bardzo różne lokalne minima, z których wszystkie są zbliżone do minimów globalnych. Ten fundamentalny problem jakościowy nie został rozwiązany przez lepszą moc obliczeniową lub lepsze techniki optymalizacji: sama natura wielu modeli nieliniowych jest tak różna od modeli liniowych, że wymagają one głębokiego przemyślenia na temat ich znaczenia i interpretacji.

— whuber

1

Po pierwsze zamierzam zastąpić słowo „model” słowem „regresja”. Myślę, że dla obu słów naprawdę pytamy, jakie są odpowiednie równania, które definiują model i jaka jest odpowiednia hipoteza odnosząca się do wartości zmiennej zależnej i wartości przewidywanych przez równanie / model. Myślę, że termin „model” jest bardziej standardowy. Jeśli się z tym zgadzasz, czytaj dalej.

Naprawdę zawdzięczam tę odpowiedź refleksjom na temat komentarza kolegi, który jest klasycznie wyszkolonym probabilistą i statystykiem. Gwałtownie sprzeciwił się książce określającej regresję wielomianową jako nieliniową i wtedy poważniej czytam o modelach nieliniowych. Uważam, że poprawną odpowiedzią jest to, że model liniowy zakłada, że termin błędu jest gaussowski, podczas gdy uogólniony model liniowy przyjmuje bardziej uogólnioną formę dla terminu błędu. Jeśli są dowolnym zestawem funkcji, wówczas można spróbować zbudować model liniowy w . Na przykład, jeśli , otrzymamy regresję wielomianową. Jest to model liniowy, jeśli różnica $\phi_1, \ldots, \phi_n$ $\phi_1, \ldots, \phi_n$ $\phi_i = x^i$ $\epsilon_i = y_i - \sum a_{ij}x^j$ jest gaussowski. Imho, myślę, że wikipedia ma bardzo rozsądne wyjaśnienie ogólnych modeli liniowych. Myślę, że jest to kluczowe zdanie: „GLM uogólnia regresję liniową, umożliwiając powiązanie modelu liniowego ze zmienną odpowiedzi za pomocą funkcji powiązania i dopuszczając, aby wielkość wariancji każdego pomiaru była funkcją jego przewidywanej wartości. „ Zatem glm pozwala na bardziej ogólny termin błędu. Pozwala to na większą elastyczność w modelowaniu. Cena ? Obliczenie właściwego modelu jest trudniejsze. Nie ma już prostej metody obliczania współczynników. Współczynniki regresji liniowej można znaleźć, minimalizując funkcję kwadratową, która ma unikalne mimimum. Słowami Borata, na cholerę, nie tyle. Trzeba obliczyć mle,

— meh
źródło

1

Model nieliniowy może również zakładać, że reszty są próbkowane z rozkładu Gaussa. Prostym przykładem jest aktywność enzymu (Y) w funkcji stężenia substratu (X). Y = Vmax * X / (Km + X) Powszechnie i rozsądnie jest zakładać, że reszty są gaussowskie, ale jest to równanie nieliniowe, które pasuje do regresji nieliniowej.

— Harvey Motulsky

2

Modele nieliniowe zawierają znacznie więcej niż GLM. GLM są popularne, ponieważ są „prawie” liniowe w parametrach: cała nieliniowość ogranicza się do funkcji pojedynczej zmiennej, „łącza”. Pozwala to na stosunkowo wydajne, niezawodne rozwiązania. Inne modele nieliniowe są znacznie mniej wykonalne. Pojęcie liniowości jest w dużej mierze oddzielone od charakteru reszt, chociaż w niektórych przypadkach korzystne jest odróżnienie reszt addytywnych od innych form zmienności.

— whuber