Oszacowanie modelu wykładniczego

10

Model wykładniczy to model opisany następującym równaniem:

\hat{y_{ja}} = β_{0} \cdot {mi}^{β_{1} x_{1 ja} + \dots + β_{k} x_{k ja}}

$\hat{y_{i}}=\beta_{0}\cdot e^{\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}}$

Najczęstszym podejściem stosowanym do oszacowania takiego modelu jest linearyzacja, którą można łatwo wykonać poprzez obliczenie logarytmów obu stron. Jakie są inne podejścia? Szczególnie interesują mnie te, które potrafią obsłużyć w niektórych spostrzeżeniach. $y_{i}=0$

Aktualizacja 31.01.2011
Jestem świadoma faktu, że ten model nie może wygenerować zera. Opowiem trochę o tym, co modeluję i dlaczego wybieram ten model. Powiedzmy, że chcemy przewidzieć, ile pieniędzy wydaje klient w sklepie. Oczywiście wielu klientów tylko szuka i nic nie kupuje, dlatego jest ich 0. Nie chciałem używać modelu liniowego, ponieważ generuje on wiele wartości ujemnych, co nie ma żadnego sensu. Innym powodem jest to, że ten model działa naprawdę dobrze, znacznie lepiej niż liniowy. Użyłem algorytmu genetycznego do oszacowania tych parametrów, więc nie było to podejście „naukowe”. Teraz chciałbym wiedzieć, jak radzić sobie z problemem przy użyciu bardziej naukowych metod. Można również założyć, że większość lub nawet wszystkie zmienne są zmiennymi binarnymi.

estimation nonlinear-regression

— Tomek Tarczyński
źródło

1

jeśli w twoich danych są zera, regresja wykładnicza może być nieodpowiednia, ponieważ model, jak podałeś, nie pozwala na obserwowanie wartości zerowych.

— mpiktas

11

Jest tu kilka problemów.

(1) Model musi być wyraźnie probabilistyczny . W prawie wszystkich przypadkach nie będzie żadnego zestawu parametrów, dla których lewa odpowiada RHS dla wszystkich swoich danych: nie będzie pozostałości. Musisz przyjąć założenia dotyczące tych pozostałości. Czy spodziewasz się, że będą wynosić średnio zero? Być symetrycznie dystrybuowanym? Być w przybliżeniu normalnie dystrybuowany?

Oto dwa modele, które zgadzają się z tym określonym, ale pozwalają na drastycznie odmienne zachowanie resztkowe (i dlatego zwykle skutkują różnymi oszacowaniami parametrów). Możesz zmieniać te modele, zmieniając założenia dotyczące wspólnej dystrybucji : $\epsilon_{i}$

ZA: y_{ja} = β_{0} \exp (β_{1} x_{1 ja} + \dots + β_{k} x_{k ja} + ϵ_{ja})

$\text{A:}\ y_{i} =\beta_{0} \exp{\left(\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki} + \epsilon_{i}\right)}$

B: y_{ja} = β_{0} \exp (β_{1} x_{1 ja} + \dots + β_{k} x_{k ja}) + ϵ_{ja} .

$\text{B:}\ y_{i} =\beta_{0} \exp{\left(\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}\right)} + \epsilon_{i}.$

(Pamiętaj, że są to modele danych ; zwykle nie ma czegoś takiego jak szacunkowa wartość danych ). $y_i$ $\hat{y_i}$

(2) Konieczność obsługi wartości zerowych dla wartości y oznacza, że podany model (A) jest zarówno zły, jak i nieodpowiedni , ponieważ nie może wytworzyć wartości zerowej bez względu na błąd losowy. Drugi model powyżej (B) dopuszcza zerowe (a nawet ujemne) wartości y. Nie należy jednak wybierać modelu wyłącznie na takiej podstawie. Powtórzmy 1: ważne jest, aby odpowiednio modelować błędy.

(3) Linearyzacja zmienia model . Zazwyczaj powoduje to modele takie jak (A), ale nie takie jak (B). Jest używany przez osoby, które przeanalizowały swoje dane wystarczająco, aby wiedzieć, że ta zmiana nie wpłynie znacząco na oszacowania parametrów oraz przez osoby, które nie są świadome tego, co się dzieje. (Wiele razy trudno odróżnić).

(4) Powszechnym sposobem radzenia sobie z możliwością zerowej wartości jest zaproponowanie, aby (lub niektóre jej ponowne wyrażanie, takie jak pierwiastek kwadratowy) miał ściśle dodatnią szansę na równe zero. Matematycznie mieszamy masę punktową („funkcję delta”) z innym rozkładem. Te modele wyglądają tak: $y$

\begin{aligned} fa (y_{ja}) & \sim fa (θ); \\ θ_{jot} & = β_{jot 0} + β_{jot 1} x_{1 ja} + \dots + β_{jot k} x_{k ja} \end{aligned}

$\eqalign{ f(y_i) &\sim F(\mathbf{\theta}); \cr \theta_j &= \beta_{j0} + \beta_{j1} x_{1i} + \cdots + \beta_{jk} x_{ki} }$

gdzie jest jednym z parametrów ukrytych w wektorze , jest rodziną sparametryzowanych rozkładów przez , i jest ponownym wyrażeniem (funkcja „link” uogólnionego modelu liniowego: patrz odpowiedź onestop). (Oczywiście więc = gdy ) Przykładami są zero-napompowane modele Poissona i ujemnego dwumianowego . $\Pr_{F_\theta}[f(Y) = 0] = \theta_{j+1} \gt 0$ $\mathbf{\theta}$ $F$ $\theta_1, \ldots, \theta_j$ $f$ $y$ $\Pr_{F_\theta}[f(Y) \le t]$ $(1 - \theta_{j+1})F_\theta(t)$ $t \ne 0$

(5) Zagadnienia dotyczące budowy i dopasowania modelu są powiązane, ale różne . Jako prosty przykład, nawet zwykły model regresji można dopasować na wiele sposobów za pomocą najmniejszych kwadratów (co daje te same oszacowania parametrów co Maksymalne prawdopodobieństwo i prawie takie same standardowe błędy), iteracyjnie przeważone najmniejsze kwadraty , różne inne formy „ wytrzymałych najmniejszych kwadratów ” itp. Wybór dopasowania często opiera się na wygodzie, praktyczności ( np. dostępności oprogramowania), znajomości, nawyku lub konwencji, ale przynajmniej należy pomyśleć biorąc pod uwagę to, co jest właściwe dla założonego rozkładu warunków błędu , do czego $Y = \beta_0 + \beta_1 X + \epsilon$ $\epsilon_i$ funkcja straty dla problemu może być uzasadniona, a także możliwość wykorzystania dodatkowych informacji (takich jak wcześniejsza dystrybucja parametrów).

— Whuber
źródło

10

Jest to uogólniony model liniowy (GLM) z funkcją łączenia logów .

Dowolny rozkład prawdopodobieństwa na z niezerową gęstością przy zeru obsłuży w niektórych obserwacjach; najpowszechniejszym byłby rozkład Poissona, skutkujący regresją Poissona , czyli modelowaniem log-liniowym. Innym wyborem byłby ujemny rozkład dwumianowy . $[0,\infty)$ $y_i=0$

Jeśli nie masz danych zliczania lub jeśli przyjmuje wartości niecałkowite, możesz nadal korzystać ze struktury uogólnionych modeli liniowych, nie określając w pełni rozkładu dla ale zamiast tego określając jedynie związek między jego średnią a wariancją przy użyciu quasi-prawdopodobieństwa . $y_i$ $\operatorname{P}(y_i|\bf{x})$

— jeden przystanek
źródło

Szkoda, że nie zostałem o tym nauczony na uniwersytecie: / Wygląda na to, że w tym przypadku będzie to pomocne, ale potrzebuję trochę czasu, aby zagłębić się w szczegóły. Dzięki!

— Tomek Tarczyński

y_{i}

$y_i$

3

Zawsze możesz użyć nieliniowych najmniejszych kwadratów . Twój model to:

y_{ja} = β_{0} \exp (β_{1} x_{1 ja} + . . . + β_{k} x_{k ja}) + ε_{ja}

$y_i=\beta_0\exp(\beta_1x_{1i}+...+\beta_kx_{ki})+\varepsilon_i$

$y_i$

— mpiktas
źródło

Co z początkowymi wartościami parametrów? Jaki jest dobry sposób na ich wybór? Jak stwierdziłem w aktualizacji, można założyć, że nie ma zmiennych ciągłych.

— Tomek Tarczynski

@Tomek, myślę, że nie ma jednego dobrego sposobu na ich wybór. Zwykle zależy to od danych. Sugeruję średnią dla przecięcia i zero dla innych współczynników.

— mpiktas